<< Click to Display Table of Contents >> 相关性分析复制链接 |
1.概述
相关性分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关性度量有三种计算方法:Pearson,Kendall,Spearman。
输入:1个数据集。
输出:图片、表格、数据集。
➢注意:
不能选择字符串类型(string)字段。
2.配置方法
将相关性分析节点添加到实验后,可通过右侧的“配置项目”页面,对相关性分析节点进行设置。
2.1参数列表
方式:共有三种,分别为Pearson,Spearman,Kendall。
•Pearson:衡量两个变量线性相关性的强弱,在方差和协方差的基础上达到的,对异常值敏感,服从正态分布或接近正态分布的单峰分布。取值要求:两个变量为连续值数据。
•Spearman:衡量变革变量之间联系(变化趋势)的强弱,在秩(排序)的相对大小基础上得到,对异常值更稳健。取值要求:两个变量均为连续数据或等级数据。
•Kendall:基于协同过滤思想得到,衡量变量之间的协同趋势,对异常值稳健。 取值要求:两个变量均为连续数据或等级数据。
2.2选择变量
操作列:在操作列选择数值型字段,不能低于两个字段。
选择数据页面操作见插件节点>选择数据。
3.查看结果
可通过连接多视图节点查看表格和矩阵图,也可以单独连接表格视图来查看相关性矩阵,连接图片视图来查看矩阵图。还可以连接数据集视图查看原数据集的元数据和探索数据。元数据和探索数据可参考深度分析 > 实验功能使用 > 节点 > 数据。
➢说明:
相关系数的大小说明:|r|>0.95 存在显著性相关;|r|≥0.8 高度相关;0.5≤|r|<0.8 中度相关;0.3≤|r|<0.5 低度相关;|r|<0.3 关系极弱,认为不相关。