聚类性能评估

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 实验功能使用 > 节点 > 验证与评估 

聚类性能评估

复制链接

1.概述

1.1 应用场景

聚类性能评估算子是用于评估聚类算法在测试集上的性能,确保聚类结果准确性和有效性的重要步骤,‌其应用场景广泛,‌涵盖了多个领域。例如在社交网络中,‌聚类分析可以用于识别社区或群体,‌分析用户之间的关系。‌聚类性能评估可以帮助验证社交网络中社区划分的合理性,‌从而深入了解用户行为和社交动态。

1.2 功能介绍

Calinski-Harabasz分数:CH指标是通过计算类中各点与类中心的距离的平方和,来度量类内的紧密度。计算各类中心点与数据集中心点的距离平方和,度量数据集的分离度,CH指标由分离度与紧密度的比值得到。CH越大,代表类自身越紧密,类于类之间越分散,聚类结果更优。

轮廓系数:是聚类效果好坏的一种评价方式,它结合内聚度和分离度两种因素。取值范围[-1,1],最佳值为1,最差值为-1。轮廓系数越接近1,聚类效果越好。接近0的值表示重叠的群集。负值通常表示样本已分配给错误的聚类,因为不同的聚类更为相似。

输入:模型应用节点输出的数据集。

输出:性能指标(Calinski-Harabasz分数、轮廓系数),聚类后结果散点图。

2.配置方法

2.1拖入节点

将聚类性能评估节点添加到聚类算法模型实验后,可通过右侧的“配置项目”页面,对聚类性能评估节点进行设置。

depthanalysis__clustering_performance_evaluation

2.2参数列表

【性能指标保留位数】参数值为正数时,保留小数点后的位数,参数值为负数时,保留小数点前的位数。请选择大于1的整数。

2.3选择变量

特征列:选择需要计算的特征字段,必须选择一个字段。

目标列:选择目标列,必须选择一个字段。

选择数据页面操作见节点 >选择数据

3.查看结果

可通过连接多视图节点查看结果或连接表格视图来查看性能指标,连接图片视图来查看聚类后结果散点图。

depthanalysis_clusteringperformanceevaluation1_zoom93depthanalysis_clusteringperformanceevaluation2_zoom87