设置数据分箱

<< Click to Display Table of Contents >>

当前位置:  创建数据集 > 自服务数据集 > 数据治理 

设置数据分箱

Previous pageReturn to chapter overviewNext page

数据分箱是给一个数字类型字段创建一个划分范围的维度字段。因此,此字段会自动列入维度的节点下。可以在元数据界面上,选择一个数字类型字段,点击更多图标选择新建数据分箱,如下图所示:

clip0341

也可以在细节数据界面,选择一个数字类型字段列头,点击更多图标选择新建数据分箱。

clip0342

在打开的对话框中,用户可修改数据分箱的名称、类型、边界、最小值、最大值、步长。

clip0343

【原始字段】创建数据分箱所使用的字段。

【名称】数据分箱的列名,默认名称是 “ 数据分箱 ”。

类型为范围:

【最小值】设定数据分箱的最小值。

【最大值】设定数据分箱的最大值。

【步长】设定数据分箱的步长值。

【包含小于最小值的范围】当用户不勾选时,则小于最小值的值将被映射成空。当勾选上时,小于最小值的值将被映射成最小值减去步长值。

【包含大于最大值的范围】当用户不勾选时,则大于最大值的值将被映射成空。当勾选上时,大于最大值的值将被映射成最大值加上步长值。

【包含范围的左边界不包含右边界】数据分箱包含左边界但不包含右边界。

【不包含范围的左边界包含右边界】数据分箱包含右边界但不包含左边界。

类型为分组:

【定义刻度】定义刻度值。

【添加】将定义的刻度添加进去。

【删除】将已添加的刻度删除掉。

【标签】可以给添加的刻度范围设置别名。

 

例如:

假设对成绩列增加数字分箱,该数字范围的最小值为 60,步长值为 10,最大值为 100,包含小于最小值的范围,不包含范围的左边界包含右边界,如下图所示。

clip0344

在表上的映射结果如下图所示。因为勾选了 “ 包含小于最小值的范围 ” 所以小于 60 的成绩被映射成50。勾选了 “ 不包含范围的左边界包含右边界 ”,所以 70 映射成了 60,否则被映射成 70。

成绩

数字范围

55

50

60

50

65

60

70

60

78

70

80

70

82

80

90

80

95

90

100

90

新建生成数据分组列后,会自动选中该列,如果有纵向滚动条会滑动到新列的位置并选中新列。

在已创建的数据分箱数据段上点击更多图标,可对其进行编辑、删除。