采样

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 数据变换 

采样

Previous pageReturn to chapter overviewNext page

采样是一种选择数据对象子集进行分析的常用方法。在统计学中,采样长期用于数据的实现调查和最终的数据分析。在数据挖掘中,采样也非常有用。然而,在统计学和数据挖掘中,采样的动机并不相同。统计学使用采样是因为得到感兴趣的整个数据集的费用太高、太费时间,而数据挖掘使用采样是因为处理所有的数据的费用太高,太费时间。在某些情况下,使用采样的算法可以压缩数据量,以便可以使用更好但开销较大的数据挖掘算法。

拖拽一个数据集和一个采样节点到编辑区,连接数据集和采样节点。

ML22

 

采样的配置方法

将采样节点添加到实验后,可通过右侧的”配置项目“页面,对数据的采样进行设置。

采样方式有三种:随机采样、按序采样、分层采样。

随机采样

随机采样是按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,从数据集节点里抽取采样比例的样本行数,保证样本的代表性。

ML23

【采样比例】抽取样本的比例。

【重复采样】当不选中时,每个选中项立即从构成总体的所有对象集中删除。当选中时,对象被选中时不从总体中删除。当重复采样时,相同的对象可能被多次抽出。默认未选中。

【随机数种子】生成随机数的种子。默认值是0。

 

按序采样:

按序采样是取数据集的前N行作为结果集。

ML24

【前N行数据】按序采样抽取样本的前多少行。默认值是1000。

 

分层采样

分层采样是从预先指定的组(即选择的列的不同值)开始抽样。每组按采样比例抽取。

ML25

【选择列】分层列,以它的不同值作为组按采样比例抽取样本行数。

其它参数请参看随机采样。

设置采样方法后,可查看采样后的元数据、对数据进行过滤、探索采样后的数据。具体内容请参看 添加数据 章节。

 

采样节点重命名

在采样节点的右键菜单中,选择“重命名”,可以对节点进行重命名。

 

删除采样节点

在采样节点的右键菜单中,选择“删除”或者点击键盘 delete 键进行删除,能够删除节点以及节点的输入、输出连线。

 

刷新采样节点

在采样节点的右键菜单中,选择“刷新”,可以更新同步数据或者参数信息。