<< Click to Display Table of Contents >> 选择数据 |
数据包含创建数据集模块里创建的所有数据集。选择数据后可以编辑数据节点,查看该数据集中包含的元数据,探索数据的特征,对数据进行过滤。
❖治理数据
选择数据后,用户仍然可以对数据进行治理。但此时,用户单击数据集后的图标打开数据集”,进入创建数据集模块,对数据进行处理。
❖查看元数据
【名称】数据集字段名称。
名称添加Tooltip,将鼠标放到元数据名称上,显示数据来源Tooltip。
【别名】可以给新建的表达式字段设置别名,数据集里的原始字段不允许设置别名。
【数据类型】数据集节点中各字段的数据类型,不可以修改。
【可见性】设置字段在探索数据页面中的显示和隐藏。
【显示隐藏列】勾选上“显示隐藏列”,【可见性】设置了不可见的列则会显示出来,显示成灰色, “可见 ” 按钮上会显示一条向右的斜线,表示此列为不可见,再次点击一下这个按钮该列就可见了。
【表达式】元数据区域可以通过点击更多图标创建JS表达式,新建分组,数据分箱,缺失值填充,拆分列,去空格,值映射,转换为日期列,转换为数字列。此处不做过多介绍,详细用法请参照 数据治理-数据类型与分类 章节。
❖过滤数据
可以增加过滤来筛选数据集的行数据,详细用法请参照 数据治理-设置数据权限-过滤行数据 章节。
❖探索数据
数据探索中对数据进行初步研究,以便更好地解释它的特殊性质。有助于选择合适的数据预处理和数据分析技术。它甚至可以处理一些通常由数据挖掘解决的问题,例如,有时可以通过对数据进行直观检查来发现模式。此外,数据探索中使用可视化界面用于更好的理解和解释数据挖掘结果。探索数据界面如下:
【字段名称】在字段名称中选择字段,并且可以直接定位到那个字段上,而且支持搜索。
【显示总行数】点击右上角的按钮后,会在按钮的后面显示出所预览数据集节点的总行数。
【预览行数】数据集节点的默认显示行数。默认值为1000行。预览行数可以修改,修改后,点击空白处预览行数发生变化。
【统计】统计区域展示所选列的特征值。在左侧表内选择不同的列来显示不同列的特征值。
【可视化】可视化区域通过两种图表展示所选列的数据分析结果:直方图展示所选列的数据分布;盒须图展示所选列的数据范围和异常数据分布情况。当选择的是非数据类型的列时,不画图表。
直方图:
盒须图: