附录 > 界面介绍 > 深度分析界面 > 深度分析编辑页面 > 编辑区 > 节点类型

❖数据变换

数据变换包含采样、数据分区、标准化。

•采样

采样是一种选择数据对象子集进行分析的常用方法。在统计学中，采样长期用于数据的实现调查和最终的数据分析。在数据挖掘中，采样也非常有用。然而，在统计学和数据挖掘中，采样的动机并不相同。统计学使用采样是因为得到感兴趣的整个数据集的费用太高、太费时间，而数据挖掘使用采样是因为处理所有的数据的费用太高，太费时间。在某些情况下，使用采样的算法可以压缩数据量，以便可以使用更好但开销较大的数据挖掘算法。

拖拽一个数据集和一个采样节点到编辑区，连接数据集和采样节点。选中采样节点设置及展示区包含四个页面：配置项目、元数据、过滤数据、探索数据。

ML22

o配置项目

采样方式有三种：随机采样、按序采样、分层采样。

随机采样：

随机采样是按照随机的原则，即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象，从数据集节点里抽取采样比例的样本行数，保证样本的代表性。

ML23

【采样比例】抽取样本的比例。

【重复采样】当不选中时，每个选中项立即从构成总体的所有对象集中删除。当选中时，对象被选中时不从总体中删除。当重复采样时，相同的对象可能被多次抽出。默认未选中。

【随机数种子】生成随机数的种子。默认值是0。

按序采样：

按序采样是取数据集的前N行作为结果集。

ML24

【前N行数据】按序采样抽取样本的前多少行。默认值是1000。

分层采样：

分层采样是从预先指定的组（即选择的列的不同值）开始抽样。每组按采样比例抽取。

ML25

【选择列】分层列，以它的不同值作为组按采样比例抽取样本行数。

其它参数请参看随机采样。

o元数据

请参考数据节点里的介绍。

o过滤数据

请参考数据节点里的介绍。

o探索数据

采样节点的全部数据是抽取的样本个数，其它详细信息请参考数据节点里的介绍。

•数据分区

一般做预测分析时，会将数据分为两大部分。一部分是训练数据，用于构建模型，一部分是测试数据，用于检验模型。数据分区就是把数据集节点的数据分为验证集和训练集。

拖拽一个数据集和一个数据分区节点到编辑区，连接数据集和数据分区节点。选中数据分区节点设置及展示区包含四个页面：配置项目、元数据、过滤数据、探索数据。

ML26

o配置项目

【训练集比例(%)】训练集占总样本数的比例，默认值是60。

【随机拆分】当不选中时按顺序抽取训练集。当选中时随机抽取训练集。默认未选中。

【随机数种子】生成随机数的种子。默认值是0。

o元数据

请参考数据节点里的介绍。

o过滤数据

请参考数据节点里的介绍。

o探索数据

数据分区的探索数据中，可查看训练集和验证集的数据特征。其它详细信息请参考数据节点里的介绍。

ML27

•标准化

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

拖拽一个数据集和一个标准化节点到编辑区，连接数据集和标准化节点。选中标准化节点设置及展示区包含四个页面：配置项目、元数据、过滤数据、探索数据。

ML28

o配置项目

【方式】标准化方式有两种：离差标准化，Z-Score 标准化。离差标准化是对原始数据的线性变换，使结果落到[0,1]区间。Z-Score标准化处理的数据符合标准正态分布，即均值为0，标准差为1。

【选择列】需要被标准化的数据类型的列。

o元数据

请参考数据节点里的介绍。

o过滤数据

请参考数据节点里的介绍。

o探索数据

数据预览区增加显示标准化后的列。其它详细信息请参考数据节点里的介绍。

ML29