<< Click to Display Table of Contents >> 数据探索 |
❖数据探索
数据探索包含相关分析。
•相关分析
相关分析(Correlation Analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
拖拽一个数据集和一个相关分析节点到编辑区,连接数据集和相关分析节点。选中相关分析节点设置及展示区包含两个页面:配置项目、结果展示。
o配置项目
【相关系数】相关系数有三种:Pearson,Kendall,Spearman。
•Pearson相关系数(Pearson Correlation Coefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
•Kendall系数是n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值。
•Spearman相关系数是衡量分级定序变量之间的相关程度的统计量。
【选择相关列】点击选择按钮打开选择列对话框,从左边拖拽列到右边(或者选中列,点击添加按钮),添加相关列。
o结果展示
两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,可以是此范围内的任何值。正相关时,r值在0和1之间;负相关时,r值在-1和0之间。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。
相关分析的结果以矩阵形式展示出来。如下图,蓝色表示正相关,粉色表示负相关,颜色越深相关性越强。
注:相关系数的大小说明:|r|>0.95 存在显著性相关;|r|≥0.8 高度相关;0.5≤|r|<0.8 中度相关;0.3≤|r|<0.5 低度相关;|r|<0.3 关系极弱,认为不相关。