聚类性能评估

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 实验功能使用 > 节点 > 验证与评估 

聚类性能评估

复制链接

1.概述

聚类性能评估算子是用于评估聚类算法在测试集上的性能。

Calinski-Harabasz分数:CH指标是通过计算类中各点与类中心的距离的平方和,来度量类内的紧密度。计算各类中心点与数据集中心点的距离平方和,度量数据集的分离度,CH指标由分离度与紧密度的比值得到。CH越大,代表类自身越紧密,类于类之间越分散,聚类结果更优。

轮廓系数:是聚类效果好坏的一种评价方式,它结合内聚度和分离度两种因素。取值范围[-1,1],最佳值为1,最差值为-1。轮廓系数越接近1,聚类效果越好。接近0的值表示重叠的群集。负值通常表示样本已分配给错误的聚类,因为不同的聚类更为相似。

输入:模型应用节点输出的数据集。

输出:性能指标(Calinski-Harabasz分数、轮廓系数),聚类后结果散点图。

2.配置方法

将聚类性能评估节点添加到实验后,可通过右侧的“配置项目”页面,对聚类性能评估节点进行设置。

DepthAnalysis_ClusteringPerformanceEvaluation

2.1参数列表

【性能指标保留位数】参数值为正数时,保留小数点后的位数,参数值为负数时,保留小数点前的位数。请选择大于1的整数。

2.2选择变量

特征列:选择需要计算的特征字段,必须选择一个字段。

目标列:选择目标列,必须选择一个字段。

选择数据页面操作见插件节点>选择数据

3.查看结果

可通过连接多视图节点查看结果或连接表格视图来查看性能指标,连接图片视图来查看聚类后结果散点图。

DepthAnalysis_ClusteringPerformanceEvaluation1DepthAnalysis_ClusteringPerformanceEvaluation2