<< Click to Display Table of Contents >> 添加数据 |
在创建深度分析实验时,首先需在实验中添加数据,这样才能使用这些数据去训练模型。
数据包含创建数据集模块里创建的所有数据集。数据集节点是深度分析流程的输入节点。拖拽一个数据集节点到编辑区,可以编辑数据节点,查看该数据集中包含的元数据,探索数据的特征,对数据进行过滤。
❖治理数据
数据添加到实验后,用户仍然可以对数据进行治理。但此时,用户需通过数据节点的右键菜单选择“打开数据集”,进入创建数据集模块,对数据进行处理。
❖设置数据列可见性
在数据节点的右键菜单中,选择“显示/隐藏所有列”将数据节点元数据中所有的列都隐藏。反之将所有的列都显示。
❖查看元数据
【名称】数据集字段名称。
【别名】可以给新建的表达式字段设置别名,数据集里的原始字段不允许设置别名。
【数据类型】数据集节点中各字段的数据类型,不可以修改。
【可见性】设置字段在探索数据页面中的显示和隐藏。
【显示隐藏列】勾选上“显示隐藏列”,【可见性】设置了不可见的列则会显示出来,显示成灰色, “可见 ” 按钮上会显示一条向右的斜线,表示此列为不可见,再次点击一下这个按钮该列就可见了。
【表达式】元数据区域可以通过点击更多图标创建JS表达式,新建分组,数据分箱,缺失值填充,拆分列,去空格,值映射,转换为日期列,转换为数字列。此处不做过多介绍,详细用法请参照 数据治理-数据类型与分类 章节。
❖过滤数据
可以增加过滤来筛选数据集的行数据,详细用法请参照 数据治理-设置数据权限-过滤行数据 章节。
❖探索数据
数据探索中对数据进行初步研究,以便更好地解释它的特殊性质。有助于选择合适的数据预处理和数据分析技术。它甚至可以处理一些通常由数据挖掘解决的问题,例如,有时可以通过对数据进行直观检查来发现模式。此外,数据探索中使用可视化界面用于更好的理解和解释数据挖掘结果。数据探索界面如下:
【字段名称】在字段名称中选择字段,并且可以直接定位到那个字段上,而且支持搜索。
【显示总行数】点击右上角的按钮后,会在按钮的后面显示出所预览数据集节点的总行数。
【预览行数】数据集节点的默认显示行数。默认值为1000行。预览行数可以修改,修改后,点击空白处预览行数发生变化。
【统计】统计区域展示所选列的特征值。在左侧表内选择不同的列来显示不同列的特征值。
【可视化】可视化区域通过两种图表展示所选列的数据分析结果:直方图展示所选列的数据分布;盒须图展示所选列的数据范围和异常数据分布情况。当选择的是非数据类型的列时,不画图表。
直方图:
盒须图:
当数据添加到实验中后,用户也可以对数据进行治理,设置数据列的可见性,对数据节点进行重命名,复制/粘贴/删除数据节点。
❖打开数据集
在数据节点的右键菜单中,选择“打开数据集”,可以在创建数据集模块打开该数据集。(集成到第三方产品中时,不支持该功能)
❖数据节点重命名
在数据节点的右键菜单中,选择“重命名”,可以对节点进行重命名。
❖复制/剪切/粘贴/删除数据节点
数据节点的右键菜单支持复制、剪切、粘贴、删除的操作。
【复制】选中数据节点可以复制。
【剪切】选中数据节点可以剪切。
【粘贴】选择复制后,画布空白处右键可以粘贴,把数据节点复制一份。
【删除】点击节点右键菜单点击删除,或者点击键盘 delete 键进行删除,能够删除节点以及节点的输入、输出连线。
❖刷新数据节点
在数据节点的右键菜单中,选择“刷新”,可以更新同步数据或者参数信息。