<< Click to Display Table of Contents >> 数据 |
❖数据
数据包含创建数据集模块里创建的所有数据集。数据集节点是深度分析流程的输入节点。拖拽一个数据集节点到编辑区。设置及展示区包含三个页面:元数据、过滤数据、探索数据。
•元数据
【名称】数据集字段名称。
【别名】可以给新建的表达式字段设置别名,数据集里的原始字段不允许设置别名。
【数据类型】数据集节点中各字段的数据类型,不可以修改。
【可见性】设置字段在探索数据页面中的显示和隐藏。
【显示隐藏列】勾选上“显示隐藏列”,【可见性】设置了不可见的列则会显示出来,显示成灰色, “可见 ” 按钮上会显示一条向右的斜线,表示此列为不可见,再次点击一下这个按钮该列就可见了。
【表达式】元数据区域可以通过右键菜单创建JS表达式,新建分组,数据范围,缺失值填充,拆分列,去空格,值映射,转换为日期列,转换为数字列。此处不做过多介绍,详细用法请参照创建数据集模块中的数据类型与分类章节。
•过滤数据
可以增加行过滤器来筛选数据集的行数据,详细用法请参照创建数据集模块中的虚拟权限控制中过滤行数据章节。
•探索数据
数据探索中对数据进行初步研究,以便更好地解释它的特殊性质。有助于选择合适的数据预处理和数据分析技术。它甚至可以处理一些通常由数据挖掘解决的问题,例如,有时可以通过对数据进行直观检查来发现模式。此外,数据探索中使用可视化界面用于更好的理解和解释数据挖掘结果。数据探索界面如下:
【显示总行数】点击”显示总行数”按钮后,会在按钮的后面显示出所预览数据集节点的总行数。
【预览行数】数据集节点的默认显示行数。默认值为1000行。预览行数可以修改,修改后,点击空白处预览行数发生变化。
【统计】统计区域展示所选列的特征值。在左侧表内选择不同的列来显示不同列的特征值。
【可视化】可视化区域通过两种图表展示所选列的数据分析结果:直方图展示所选列的数据分布;盒须图展示所选列的数据范围和异常数据分布情况。当选择的是非数据类型的列时,不画图表。
直方图:
盒须图: