深度分析 > 算法

该算子可用于对无标签的数据进行分类，属于无监督学习。主要解决无监督学习，聚类预测问题。

用法：

量纲不一致情况下，输入数据需要标准化处理。设置Kmeans后，可通过连接表格视图来查看输出聚类类别、聚类类别个数、聚类中心和模型聚类结果评价指标(Calinski-Harabasz分数、Davies-Boulding指数；连接图片视图来查看聚类数据展现结果。

注意事项：

聚类模型输入数据需要筛选变量的共线性问题，可以使用节点【相关性分析】操作。

聚类模型输入数据需要标准化处理，可以使用节点【列标准化】操作。

ML203

❖Kmeans节点的配置方法

将Kmeans节点添加到实验后，可通过右侧的“配置项目”页面，对Kmeans节点进行设置。

【性能指标保留位数】舍入精度为正时，保留小数点后的位数，舍入精度为负时，保留小数点前的位数。

【分类簇的数量】指定分类簇的数量；数据要求：请填写整数类型数字，数据范围[1,)。

【初始化方法】k-means++ :该初始化策略选择的初始均值向量相互之间都距离较远，它的效果较好; random : 从数据集中随机选择n个样本作为初始均值向量或者提供一个数组，数组的形状为 (n_clusters,n_features)，该数组作为初始均值向量。

【指定K均值算法运行次数】每次都会选择一组不同的初始化均值向量，最终算法会选择最佳的分类簇来作为最终的结果。数据要求：请填输入大于1的整数，数据范围[1,)。

【最大迭代次数】一个整数，指定了单轮kmeans算法中最大的迭代次数。算法总的迭代次数为：max_iter*n_init。数据要求：请输入大于0的整数，数据范围[1,)。

【随机种子】数据要求：请填写大于1的整数，数据范围[1,]。

【预先计算距离】该参数指定是否提前计算好样本之间的距离。‘True’ ：提前计算。‘False’ ：不提前计算。

【算法】auto：自动选择算法。

对于稀疏数据，使用full。full:使用经典的EM风格的算法。

对于密集数据，使用elkan。elkan:使用‘elkan’变种算法，它通过使用三角不等式来优化算法，但是不支持稀疏数据。

【自变量】模型的特征字段，可以为多个。

ML204

Kmeans节点右键菜单

右键菜单

❖Kmeans节点运行

运行节点，将数据传递给DM-Engine进行计算，得到输出结果。

❖Kmeans节点重置

已经运行过的节点进行重置，删除返回的结果，节点状态更改为未运行。

❖Kmeans节点重命名

在Kmeans节点的右键菜单中，选择“重命名”，可以对节点进行重命名。

❖删除Kmeans节点

在Kmeans节点的右键菜单中，选择“删除”或者点击键盘 delete 键进行删除，能够删除节点以及节点的输入、输出连线。

❖刷新Kmeans节点

在Kmeans节点的右键菜单中，选择“刷新”，可以更新同步数据或者参数信息。