采样

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 旧操作 > 数据变换 

采样

复制链接

1.概述

采样是一种选择数据对象子集进行分析的常用方法。在统计学中,采样长期用于数据的实现调查和最终的数据分析。在数据挖掘中,采样也非常有用。然而,在统计学和数据挖掘中,采样的动机并不相同。统计学使用采样是因为得到感兴趣的整个数据集的费用太高、太费时间,而数据挖掘使用采样是因为处理所有的数据的费用太高,太费时间。在某些情况下,使用采样的算法可以压缩数据量,以便可以使用更好但开销较大的数据挖掘算法。

2.配置参数

拖拽一个数据集和一个采样节点到画布,连接数据集和采样节点。

将采样节点添加到实验后,可通过右侧的”配置项目“页面,对数据的采样进行设置。

DepthAnalysis_OldSampling

采样方式有三种:随机采样、按序采样、分层采样。

随机采样

随机采样是按照随机的原则,即保证总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,从数据集节点里抽取采样比例的样本行数,保证样本的代表性。

【采样比例】抽取样本的比例。

【重复采样】当不选中时,每个选中项立即从构成总体的所有对象集中删除。当选中时,对象被选中时不从总体中删除。当重复采样时,相同的对象可能被多次抽出。默认未选中。

【随机数种子】生成随机数的种子。默认值是0。

按序采样

按序采样是取数据集的前N行作为结果集。

DepthAnalysis_OldSequentialSampling

【前N行数据】按序采样抽取样本的前多少行。默认值是1000。

分层采样

分层采样是从预先指定的组(即选择的列的不同值)开始抽样。每组按采样比例抽取。

DepthAnalysis_OldStratifiedSampling

【选择列】分层列,以它的不同值作为组,按采样比例抽取样本行数。

其它参数请参看随机采样。

设置采样方法后,可查看采样后的元数据、对数据进行过滤、探索采样后的数据。

元数据和探索数据可参考深度分析>实验功能使用>节点>数据