<< Click to Display Table of Contents >> 采样复制链接 |
1.概述
采样是一种选择数据对象子集进行分析的常用方法。在统计学中,采样长期用于数据的实现调查和最终的数据分析。在数据挖掘中,采样也非常有用。然而,在统计学和数据挖掘中,采样的动机并不相同。统计学使用采样是因为得到感兴趣的整个数据集的费用太高、太费时间,而数据挖掘使用采样是因为处理所有的数据的费用太高,太费时间。在某些情况下,使用采样的算法可以压缩数据量,以便可以使用更好但开销较大的数据挖掘算法。
2.配置参数
拖拽一个数据集和一个采样节点到画布,连接数据集和采样节点。
将采样节点添加到实验后,可通过右侧的”配置项目“页面,对数据的采样进行设置。
采样方式有三种:随机采样、按序采样、分层采样。
•随机采样
随机采样是按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,从数据集节点里抽取采样比例的样本行数,保证样本的代表性。
【采样比例】抽取样本的比例。
【重复采样】当不选中时,每个选中项立即从构成总体的所有对象集中删除。当选中时,对象被选中时不从总体中删除。当重复采样时,相同的对象可能被多次抽出。默认未选中。
【随机数种子】生成随机数的种子。默认值是0。
•按序采样
按序采样是取数据集的前N行作为结果集。
【前N行数据】按序采样抽取样本的前多少行。默认值是1000。
•分层采样
分层采样是从预先指定的组(即选择的列的不同值)开始抽样。每组按采样比例抽取。
【选择列】分层列,以它的不同值作为组,按采样比例抽取样本行数。
其它参数请参看随机采样。
设置采样方法后,可查看采样后的元数据、对数据进行过滤、探索采样后的数据。
元数据和探索数据可参考深度分析>实验功能使用>节点>数据。