<< Click to Display Table of Contents >> LightGBM多分类复制链接 |
1.概述
LightGBM多分类属于监督学习算法,主要解决多分类预测问题。
➢例如:LightGBM多分类算法可以用于商品分类。
输入:1个数据集。
输出:模型、训练集性能指标(类别、准确率、召回率、F1-score、支持样本量)、验证集性能指标(准确率、召回率、F1-score、支持样本量)、混淆矩阵(验证集)、混淆矩阵(训练集)、平行坐标图、特征重要性。
2.配置方法
将LightGBM多分类节点添加到实验后,可通过右侧的“配置项目”页面,对LightGBM多分类节点进行设置。
2.1参数列表
【使用集群】选择true时,算子使用分布式集群运行,选择false时单机运行,默认为false。集群运行需要在集群环境下才能生效。
【自动调参】自动调参取值为true时,模型自动进行超参数优化,取值为false时,需要手动调参。
【个体学习器集成方法】共四种。
•gbdt:基于gbdt思想。
•dart:融合dropout思想的复合集成回归树。
•goss:基于梯度的one-side采样。通过区分不同梯度的实例,保留较大梯度实例同时对较小梯度随机采样的方式减少计算量,从而达到提升效率的目的。
•rf:随机森林。
【个体学习器最大叶子结点数】取值范围:大于0的整数。
【个体学习器最大深度】控制个体学习器中数结构的深度,多样本多特征情况下需要限制最大深度,取值范围:请填写大于0的整数。
【学习率】取值范围:大于0的小数,建议填写小于0.5的小数。
【个体学习器数量】取值范围:大于0的整数。
【构建直方图样本量】取值范围:请填写大于0的整数,建议采用默认值。
【类别权重】当数据集类别比例不平衡时使用。
【节点分裂最小损失下降值】取值范围:请填写大于等于0的小数。
【叶子节点最小权重之和】权重小于设定值,停止分裂。取值范围:请填写大于0的整数。
【叶子节点最小样本量】叶子节点中的样本量小于设定值,停止分裂。
【训练样本采样比例】个体学习器训练时的样本采样比例,取值范围:请填写0-1之间的小数。
【采样频率】设定值小于等于0时禁用样本采样。取值范围:请填写大于等于0的整数。
【个体学习器特征采样比例】个体学习器训练时的特征采样比例,取值范围:请填写0-1之间的小数。
【L1惩罚项系数】防止过拟合参数。取值范围:请填写大于等于0的小数。
【L2惩罚项系数】防止过拟合参数。取值范围:请填写大于等于0的小数。
【随机种子】固定随机种子用于保证模型训练的结果可复现。当设置为0时,禁用随机种子。参数取值范围:请填写大于等于0的整数。
【运算核心数】计算使用的核心数量,填写-1时使用所有核心。
2.2选择变量
特征列:选择模型的特征字段,特征列至少选择一列。
目标列:选择模型的目标字段,目标列仅能选择一列。
选择数据页面操作见插件节点>选择数据。
3.查看结果
可通过连接多视图节点查看结果或连接表格视图来查看性能指标,连接图片视图来查看特征重要性图、混淆矩阵和平行坐标图。配合保存为训练模型节点使用,可以将待预测的特征输入模型,进行预测计算。
其中准确率、召回率、F1-score的取值范围为[0,1],当数值越接近1,说明模型表现越好。
特征重要性展现了每个特征对于模型的影响大小,并对它们进行降序排列。
平行坐标图中颜色的深浅代表了数据分布情况,颜色越深代表该区间上的数据分布越多。