<< Click to Display Table of Contents >> 维度 |
维度表示数据分类的角度或方面。城市是一个维度,月份是一个维度,数据分箱是一个维度。多维度思考,符合人类习惯。常用的是三维立体思维。三维可以构成一个立方体。 Slice 是一个立方体的切片。例如一月的所有城市的数据,构成一个面。 Dice 是一个立方体的切块。例如一月份的北京的数据,构成一个小立方体。也可以把维度理解成组的概念,把这些方面分组,把数值类型做统计汇总。常用来做维度的数据类型包括:
数据类型/字段类型 |
说明 |
---|---|
String |
字符串 |
Char |
单个字符 |
Boolean |
布尔 |
Date |
日期 |
Time |
时间 |
Timestamp |
日期+时间 |
Date Hierarchy |
日期的所有层次 |
Numeric Range |
数据范围 |
Other |
其他非数字和非日期的类型 |
维度的排序功能更有意义,特别是高级排序可以支持基于别的字段的聚合后的排序,还可以进行排名。细节数据不具备此功能,只有聚合数据才能排名。
维度可以为转变成度量,连接数据模块的界面可以修改,只是整个data set级别的改动,所有使用报表的地方,都按照数据集里的划分来判断维度还是度量。还有一个地方可以在维度和度量之间转换,就是在对象的绑定界面上,这个转换只是对象本身起作用。但维度字段切成度量后,支持的统计函数只有求最大值,最小值,统计个数,统计不同值个数,和近似不同值的个数。因为对非数值类型字段做求和等统计没有意义。但是取最大,最小,统计个数,统计精确不同值计数,和不同值计数还是有意义的。
函数名 |
用途 |
---|---|
Count |
返回数据集中的数据个数 |
Accurate Distinct Count |
大数据的基数估计算法,采用HashSet计数,无误差 |
Distinct Count |
大数据的基数估计算法,采用HyperLogLog计数,误差3% |
Max |
返回数据集中的最大数值 |
Min |
返回数据集中的最小值 |