特有名词

<< Click to Display Table of Contents >>

当前位置:  产品安装、升级与启动 > 新手指引 

特有名词

复制链接

此小节对vividime中特有的概念进行解释说明,帮助用户更好理解,以便更好使用。

首字母

名词

定义

说明

A

聚合(Aggregation)

聚合是指多个数据值按照一定的规则组合为单一值。

 

 

算法(Algorithm):

算法可以理解成一种数学公式或用于进行数据分析的统计学过程。

 

B

批量数据处理(Batch processing)

批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。

 

 

商业智能(Business Intelligence)

商业智能是一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效。

 

 

大数据 (Big data)

需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

 

C

云计算(Cloud computing):

云构建在网络上的分布式计算系统,数据是存储于机房外的(即云端),软件或数据在远程服务器上进行处理,并且这些资源可以在网络上任何地方被访问。

 

 

集群计算(Cluster computing)

多台计算机连接在网络上,它们通过形成计算机集群来执行单个任务。

 

 

集群服务器(Cluster server)

把多台服务器通过快速通信链路连接起来,从外部看来,这些服务器就像一台服务器在工作,而对内来说,外面来的负载通过一定的机制动态地分配到这些节点机中去,从而达到超级服务器才有的高性能、高可用。

 

 

云数据(Cloud data)

基于云计算商业模式应用的数据集成、数据分析、数据整合、数据分配、数据预警的技术与平台的总称。

 

D

脏数据(Dirty Data)

脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。

 

 

数据准备(Data Prepare)

数据准备是将格式良好的数据放入单个表或多个相关表中以便在 vividime BI中进行分析的过程。

 

 

数据源(Data Source)

数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,您可以找到相应的数据库连接。

文本数据源

Sql数据源

多维数据源

其他数据源

 

数据抽取(Data mining)

数据抽取是指从源数据、源系统抽取所需数据到目的数据源的数据过程。

 

 

数据集(Data set)

数据集是用户用做数据分析的表。

说明:

自服务数据集是数据集中深度加工过的表。

SQL数据集

Excel数据

内嵌数据集

组合数据集

多维数据集

定制数据集

自服务数据集

Mongo数据集

数据集市数据集

Neo4j数据集

流式数据集

RESTful数据集

 

维度(Dimension)

维度是定性的,表示数据分类的角度或方面,不能被测量,而是被描述。维度通常是离散的。

城市

月份

种类

......

 

分布式文件系统(Distributed File System)

 

大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。

 

 

数据治理(Data Governance)

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

 

 

数据准备(Data Prepare)

数据准备是将格式良好的数据放入单个表或多个相关表中以便在 vividime 中进行分析的过程。

 

E

提取-转换-加载(ETL: Extract, Transform and Load)

ETL是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。

 

F

故障切换(Failover)

当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上。

 

G

粒度(granularity)

粒度是指数据的详细程度。

某省七月的新冠疫情病例总数

H

高性能计算(HPC: High-Performance-Computing) :

 

使用超级计算机来解决极其复杂的计算问题。

 

I

内存计算(In-memory computing)

通常认为,任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统,它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。

 

M

度量(Measure)

度量是定量的,表示可被用于衡量和统计的数值。度量通常是连续的。

销量

利润

.....