添加数据

<< Click to Display Table of Contents >>

当前位置:  深度分析 

添加数据

Previous pageReturn to chapter overviewNext page

在创建深度分析实验时,首先需在实验中添加数据,这样才能使用这些数据去训练模型。

数据包含创建数据集模块里创建的所有数据集。数据集节点是深度分析流程的输入节点。拖拽一个数据集节点到编辑区,可以编辑数据节点,查看该数据集中包含的元数据,探索数据的特征,对数据进行过滤。

ML16

 

治理数据

数据添加到实验后,用户仍然可以对数据进行治理。但此时,用户需通过数据节点的右键菜单选择“打开数据集”,进入创建数据集模块,对数据进行处理。

 

设置数据列可见性

在数据节点的右键菜单中,选择“显示/隐藏所有列”将数据节点元数据中所有的列都隐藏。反之将所有的列都显示。

 

查看元数据

【名称】数据集字段名称。

【别名】可以给新建的表达式字段设置别名,数据集里的原始字段不允许设置别名。

【数据类型】数据集节点中各字段的数据类型,不可以修改。

【可见性】设置字段在探索数据页面中的显示和隐藏。

【显示隐藏列】勾选上“显示隐藏列”,【可见性】设置了不可见的列则会显示出来,显示成灰色, “可见 ” 按钮上会显示一条向右的斜线,表示此列为不可见,再次点击一下这个按钮该列就可见了。

【表达式】元数据区域可以通过点击更多图标创建JS表达式,新建分组,数据分箱,缺失值填充,拆分列,去空格,值映射,转换为日期列,转换为数字列。此处不做过多介绍,详细用法请参照 数据治理-数据类型与分类 章节。

 

过滤数据

可以增加过滤来筛选数据集的行数据,详细用法请参照 数据治理-设置数据权限-过滤行数据 章节。

ML17

 

探索数据

数据探索中对数据进行初步研究,以便更好地解释它的特殊性质。有助于选择合适的数据预处理和数据分析技术。它甚至可以处理一些通常由数据挖掘解决的问题,例如,有时可以通过对数据进行直观检查来发现模式。此外,数据探索中使用可视化界面用于更好的理解和解释数据挖掘结果。数据探索界面如下:

exploredata

【字段名称】在字段名称中选择字段,并且可以直接定位到那个字段上,而且支持搜索。

【显示总行数】点击右上角的按钮后,会在按钮的后面显示出所预览数据集节点的总行数。

【预览行数】数据集节点的默认显示行数。默认值为1000行。预览行数可以修改,修改后,点击空白处预览行数发生变化。

【统计】统计区域展示所选列的特征值。在左侧表内选择不同的列来显示不同列的特征值。

ML19

【可视化】可视化区域通过两种图表展示所选列的数据分析结果:直方图展示所选列的数据分布;盒须图展示所选列的数据范围和异常数据分布情况。当选择的是非数据类型的列时,不画图表。

直方图:

ML20

盒须图:

ML21

当数据添加到实验中后,用户也可以对数据进行治理,设置数据列的可见性,对数据节点进行重命名,复制/粘贴/删除数据节点。

 

打开数据集

在数据节点的右键菜单中,选择“打开数据集”,可以在创建数据集模块打开该数据集。(集成到第三方产品中时,不支持该功能)

 

数据节点重命名

在数据节点的右键菜单中,选择“重命名”,可以对节点进行重命名。

 

复制/剪切/粘贴/删除数据节点

数据节点的右键菜单支持复制、剪切、粘贴、删除的操作。

【复制】选中数据节点可以复制。

【剪切】选中数据节点可以剪切。

【粘贴】选择复制后,画布空白处右键可以粘贴,把数据节点复制一份。

【删除】点击节点右键菜单点击删除,或者点击键盘 delete 键进行删除,能够删除节点以及节点的输入、输出连线。

 

刷新数据节点

在数据节点的右键菜单中,选择“刷新”,可以更新同步数据或者参数信息。