数据分箱

<< Click to Display Table of Contents >>

当前位置:  数据准备 > 数据集 > 数据治理 

数据分箱

复制链接

1.概述

1.1应用场景

如果用户想要把一个数值类型的列根据不同的数值区间划分成不同的组,然后将分组作为一个维度列来进行数据处理,例如把一列价格列区分成不同的价位区间,可以使用数据分箱功能。

1.2功能简介

数据分箱是给一个数字列创建一个划分范围的维度列。因此新建数据分箱列会自动列入维度的节点下。

2.应用举例

1) 原数据如下图:

clip0204_zoom73

2)可以在元数据界面上,选择单价列,点击更多图标选择新建数据分箱;也可以在数据详情界面,选择单价列列头,点击更多图标选择新建数据分箱;还可以在制作报告的度量数据列区域,选择单价列,点击更多图标选择新建数据分箱。

元数据:

datasetdataboxdemo1

数据详情:

datasetdataboxdemo

制作报告-数据:

datasetdataboxdemo2

3) 对单价进行数据分箱,分箱模式选择“范围”:

dataset_datbox_zoom70

4) 分箱结果如下,可以看到从0-30(最小值-最大值)内每间隔10(步长)进行了一个分箱:

clip0206_zoom84

5) 如果分箱模式选择“分组”,如下图设置刻度:

在“定义刻度”中依次输入0、10、20、30点击添加,做为区间分组的刻度,然后再分别为每个区间输入标签。

当输入0,点击添加后值显示为0;

再输入10,点击添加后值显示为0-10;

再输入20,点击添加后值显示为0-10、10-20;

再输入30,点击添加后值显示为0-10、10-20、20-30;

clip0207_zoom71

 

6)按分组模式生成的分箱如下:

clip0208_zoom83

7)元数据选项卡下,新建生成数据分组列后,会自动选中该列,如果有纵向滚动条会滑动到新列的位置并选中新列。在已创建的数据分箱数据价格段上点击更多图标,可对其进行编辑、删除。

query_databox_zoom70

3.功能说明

queryshot13_zoom68

queryshot14_zoom69

设置

说明

原始列

当前数据列最初的名称。

名称

数据分箱的列名,默认名称是 “ 数据分箱 ”。

分箱模式

选择“范围”或“分组”,将影响后续分箱的定义模式。

设置边界

包含小于最小值的范围:当用户不勾选时,则小于最小值的值将被映射成空。当勾选上时,选择“范围”时小于最小值的值将被映射成最小值减去步长值,选择“分组”时则是多出小于最小刻度的组;

包含大于最大值的范围:当用户不勾选时,则大于最大值的值将被映射成空。当勾选上时,大于最大值的值将被映射成最大值加上步长值,分组时则是多出大于最大刻度的组;

包含范围的左边界:数据分箱包含左边界;

包含范围的右边界:数据分箱包含右边界。

分箱模式为范围

最小值

设定数据分箱的最小值。

最大值

设定数据分箱的最大值。

步长

设定数据分箱的步长值。

分箱模式为分组

定义刻度

定义刻度值。

添加

将定义的刻度添加进去。

删除

将已添加的刻度删除掉。

标签

可以给添加的刻度范围设置别名。