维度

<< Click to Display Table of Contents >>

当前位置:  创建数据集 > 自服务数据集 > 数据治理 > 数据类型与分类 

维度

Previous pageReturn to chapter overviewNext page

维度表示数据分类的角度或方面。城市是一个维度,月份是一个维度,数据分箱是一个维度。多维度思考,符合人类习惯。常用的是三维立体思维。三维可以构成一个立方体。 Slice 是一个立方体的切片。例如一月的所有城市的数据,构成一个面。 Dice 是一个立方体的切块。例如一月份的北京的数据,构成一个小立方体。也可以把维度理解成组的概念,把这些方面分组,把数值类型做统计汇总。常用来做维度的数据类型包括:

数据类型/字段类型

说明

String

字符串

Char

单个字符

Boolean

布尔

Date

日期

Time

时间

Timestamp

日期+时间

Date Hierarchy

日期的所有层次

Numeric Range

数据范围

Other

其他非数字和非日期的类型

 

维度的排序功能更有意义,特别是高级排序可以支持基于别的字段的聚合后的排序,还可以进行排名。细节数据不具备此功能,只有聚合数据才能排名。

 

维度可以为转变成度量,连接数据模块的界面可以修改,只是整个data set级别的改动,所有使用报表的地方,都按照数据集里的划分来判断维度还是度量。还有一个地方可以在维度和度量之间转换,就是在对象的绑定界面上,这个转换只是对象本身起作用。但维度字段切成度量后,支持的统计函数只有求最大值,最小值,统计个数,统计不同值个数,和近似不同值的个数。因为对非数值类型字段做求和等统计没有意义。但是取最大,最小,统计个数,统计精确不同值计数,和不同值计数还是有意义的。

函数名

用途

Count

返回数据集中的数据个数

Accurate Distinct Count

大数据的基数估计算法,采用HashSet计数,无误差

Distinct Count

大数据的基数估计算法,采用HyperLogLog计数,误差3%

Max

返回数据集中的最大数值

Min

返回数据集中的最小值