数据分箱

<< Click to Display Table of Contents >>

当前位置:  数据准备 > 数据集 > 数据治理 

数据分箱

复制链接

如果用户想要把一个数值类型的列根据不同的数值区间划分成不同的组,然后将分组作为一个维度列来进行数据处理,例如把一列价格列区分成不同的价位区间,可以使用数据分箱功能。

数据分箱是给一个数字列创建一个划分范围的维度列。因此,此列会自动列入维度的节点下。可以在元数据界面上,选择一个数字列,点击更多图标选择新建数据分箱;也可以在数据详情界面,选择一个数字列列头,点击更多图标选择新建数据分箱,数据分箱创建设置界面如下:

queryshot13 queryshot14

各设置项说明如下:

功能

说明

原始列

当前数据列最初的名称。

名称

数据分箱的列名,默认名称是 “ 数据分箱 ”。

分箱模式

选择“范围”或“分组”,将影响后续分箱的定义模式。

设置边界

包含小于最小值的范围:当用户不勾选时,则小于最小值的值将被映射成空。当勾选上时,选择“范围”时小于最小值的值将被映射成最小值减去步长值,选择“分组”时则是多出小于最小刻度的组;

包含大于最大值的范围:当用户不勾选时,则大于最大值的值将被映射成空。当勾选上时,大于最大值的值将被映射成最大值加上步长值,分组时则是多出大于最大刻度的组;

包含范围的左边界不包含右边界:数据分箱包含左边界但不包含右边界;

不包含范围的左边界包含右边界:数据分箱包含右边界但不包含左边界。

最小值

分箱模式为范围

设定数据分箱的最小值。

最大值

设定数据分箱的最大值。

步长

设定数据分箱的步长值。

定义刻度

分箱模式为分组

定义刻度值。

添加

将定义的刻度添加进去。

删除

将已添加的刻度删除掉。

标签

可以给添加的刻度范围设置别名。

示例:

1) 原数据如下图:

clip0204

2) 对单价进行数据分箱,分箱模式选择“范围”:

clip0205

3) 分箱结果如下,可以看到从0-30(最小值-最大值)内每间隔10(步长)进行了一个分箱:

clip0206

4) 如果分箱模式选择“分组”,如下图设置刻度:

clip0207

5)按分组模式生成的分箱如下:

clip0208

6)元数据选项卡下,新建生成数据分组列后,会自动选中该列,如果有纵向滚动条会滑动到新列的位置并选中新列。

Query_DataBox

在已创建的数据分箱数据段上点击更多图标,可对其进行编辑、删除。