<< Click to Display Table of Contents >> 采样复制链接 |
1.概述
数据挖掘使用采样是因为处理所有数据的费用太高,太费时间。在某些情况下,使用采样的算法可以压缩数据量,以便可以使用更好但开销较大的数据挖掘算法。支持三种采样方式,包括随机采样、按序采样、分层采样。
输入:一个数据集。
输出:一个数据集。
2.配置方法
将采样节点添加到画布后,可通过右侧的“配置项目”页面,对数据采样进行设置。
2.1参数列表
【采样方式】采样方式包括随机采样、按序采样、分层采样三种。
•随机采样:随机采样按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,从数据集节点里抽取采样比例的样本行数,保证样本的代表性。
•按序采样:按序采样是取数据集的前N行作为结果集。
•分层采样:分层采样是从预先指定的组(即选择的列的不同值)开始抽样。每组按采样比例抽取。
【选择列】分层列,以它的不同值作为组,按采样比例抽取样本行数。默认空,当连接数据后选中第一列。随机采样、按序采样不显示此项。
【采样比例】抽取样本的比例,默认为10,取值范围:大于0小于等于100的整数。按序采样时不显示此项。
【重复采样】当重复采样取值为false时,每个选中项立即从构成总体的所有对象集中删除。当取值为true时,对象被选中时不从总体中删除,相同的对象可能被多次抽出。
【随机数种子】生成随机数的种子。随机采样、分层采样不显示此项。
【前N行数据】按序采样抽取样本的前多少行,大于0的整数。
3.查看结果
运行后可以直接在采样节点查看数据采样后输出的元数据和探索数据,也可以连接数据集视图查看输出的元数据和探索数据。