<< Click to Display Table of Contents >> 数据分箱复制链接 |
1.概述
数据分箱是指把一个数值类型的列根据不同的数值区间划分成不同的组,然后将分组作为一个维度列来进行数据处理。
输入:一个数据集。
输出:数据集。
注意:数据类型只支持数值类型的字段。
2.配置方法
将数据分箱节点添加到画布后,可通过右侧的“配置项目”页面,对数据分箱进行设置。
2.1数据分箱
数据分箱支持的操作包括添加数据分箱、编辑数据分箱、删除数据分箱、复制数据分箱、粘贴数据分箱。
添加数据分箱:点击配置页面上的添加数据分箱,在弹出的新建数据分箱的对话框中进行设置,数据分箱方式支持2种,包括范围、分组,具体设置如下。
•范围:在原始列的下拉选项中选择单价,名称默认为数据分箱,分箱方式默认为范围,设置边界默认为包含范围的左边界,最小值填写0,最大值为20,步长为10,点击确定。
•分组:在原始列的下拉选项中选择单价,名称默认为数据分箱,分箱方式选择分组,设置边界默认为包含范围的左边界,定义刻度0-10,10-20,20-30。
数据分箱设置说明参考下表。
功能 |
说明 |
|
---|---|---|
原始列 |
数据集中的字段,可在下拉选项中选择所需字段。 |
|
名称 |
数据分箱的列名,默认名称是 “ 数据分箱 ”。 |
|
分箱模式 |
选择“范围”或“分组”,将影响后续分箱的定义模式。 |
|
设置边界 |
•包含小于最小值的范围:当用户不勾选时,则小于最小值的值将被映射成空。当勾选上时,选择“范围”时小于最小值的值将被映射成最小值减去步长值,选择“分组”时则是多出小于最小刻度的组; •包含大于最大值的范围:当用户不勾选时,则大于最大值的值将被映射成空。当勾选上时,大于最大值的值将被映射成最大值加上步长值,分组时则是多出大于最大刻度的组; •包含范围的左边界不包含右边界:数据分箱包含左边界但不包含右边界; •不包含范围的左边界包含右边界:数据分箱包含右边界但不包含左边界。 |
|
分箱模式为范围 |
最小值 |
设定数据分箱的最小值。 |
最大值 |
设定数据分箱的最大值。 |
|
步长 |
设定数据分箱的步长值。 |
|
分箱模式为分组 |
定义刻度 |
定义刻度值。 |
添加 |
将定义的刻度添加进去。 |
|
删除 |
将已添加的刻度删除掉。 |
|
标签 |
可以给添加的刻度范围设置别名。 |
编辑数据分箱:鼠标悬浮在添加的分箱列表上,点击编辑图标便可进入编辑数据分箱对话框中编辑。
删除数据分箱:鼠标悬浮在添加的分箱列表上,点击删除图标,数据分箱被删除。
复制数据分箱:点击分箱列列表右侧的复制图标,页面弹出提示“复制成功”。
粘贴数据分箱:有复制的分箱列,点击数据分箱右侧的粘贴图标,页面弹出提示“粘贴成功”。
3.查看结果
运行后可以直接在数据分箱节点查看数据分箱后输出的元数据和探索数据,也可以连接数据集视图查看输出的元数据和探索数据。元数据和探索数据可参考深度分析 > 实验功能使用 > 节点 > 数据。
•范围
•分组