数据探索

<< Click to Display Table of Contents >>

当前位置:  附录 > 界面介绍 > 深度分析界面 > 深度分析编辑页面 > 编辑区 > 节点类型 

数据探索

Previous pageReturn to chapter overviewNext page

数据探索

数据探索包含相关分析。

相关分析

相关分析(Correlation Analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

拖拽一个数据集和一个相关分析节点到编辑区,连接数据集和相关分析节点。选中相关分析节点设置及展示区包含两个页面:配置项目、结果展示。

ML30

o配置项目

【相关系数】相关系数有三种:Pearson,Kendall,Spearman。

Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。

Kendall系数是n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值。

Spearman相关系数是衡量分级定序变量之间的相关程度的统计量。

【选择相关列】点击选择按钮打开选择列对话框,从左边拖拽列到右边,添加相关列。

ML31

o结果展示

两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,可以是此范围内的任何值。正相关时,r值在0和1之间;负相关时,r值在-1和0之间。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。

相关分析的结果以矩阵形式展示出来。如下图,蓝色表示正相关,粉色表示负相关,颜色越深相关性越强。

ML32

注:相关系数的大小说明:|r|>0.95 存在显著性相关;|r|≥0.8 高度相关;0.5≤|r|<0.8 中度相关;0.3≤|r|<0.5 低度相关;|r|<0.3 关系极弱,认为不相关。