深度分析 > 案例介绍 > 进口商品风险预测

1.背景介绍

海关是依据本国（或地区）的法律、行政法规行使进出口监督管理职权的国家行政机关，是商品进口的重要防线。海关检测主要以人工查货、数据统计的传统方式完成。由于进口货物种类和数量庞大，但人力物力有限，所以查货只能以抽检的形式进行，如果能准确定位高风险货物，将对海关的检测有很大的帮助。

2.数据说明

数据是为实验构造的查验记录信息，且已经进行完全脱敏，共计11960条记录。数据字段描述如下表所示。

字段名称	中文名称（单位）	字段描述	数据类型
Duty_paragraph	税号	进口货物对应的税号	数值型
Label	临时减免标志	进口货物临时减免标志
Tax_rate1-6	税率1-6	货物进口时对应的6个税率
Requirement01-31	监管要求01-31	货物进口时的31个监管要求
Score	总分	货物风险评分（正比）

3.方案介绍

首先，根据项目背景介绍，整个问题是一个预测风险评分的问题，可以将其抽象为一个回归问题，数据集中的总分字段，就是建模采用的目标值。

LightGBM回归是一种高效的梯度提升框架，适用于大规模和包含很多个特征的高维数据集。它采用了基于直方图的算法来加速训练过程，具有较低的内存消耗和更快的训练速度。

4.方案分析

数据预处理：类似缺失值填充、归一化、去重等对数据直接进行处理的操作被称为数据预处理。数据预处理拥有加速模型的训练速度、提高模型训练准确度、防止误差数据影响模型的训练效果、防止空数据影响模型正常训练等优点。

DepthAnalysis__model_workflow_construction2

参数配置：按需求填写参数值。

字段选择：如前所述，有监督算法需要指定自变量字段和因变量字段。点击特征列和目标列下方的选择数据按钮。再弹出的字段列表中选择相应的字段。

DepthAnalysis__parameter_configuration_and_field_selection_of_the_algorithm2

5.结果说明

当前项目的工作流，LightGBM回归算子将输出模型性能指标、真实值与预测值对比图。

1.模型性能指标：训练集和验证集上的性能指标：MSE、RMSE、MAE、EVS、R2、Adjusted R2。其中MSE、RMSE、MAE是不同计算方式下的误差指标，越接近0越好；EVS、R2和Adjusted R2取值都属于[0，1]中，且数值越大越好。具体指标值如下图所示。

DepthAnalysis__performance_indicators_for_training_and_validation_sets4

2.算法迭代收敛曲线：用于直观地观察模型训练过程中收敛的情况。在这类图中，模型刚开始训练时往往会拥有较高的损失值，而随着模型训练次数增多，模型性能越好，使得模型的损失值越来越低。曲线递减代表模型仍在训练，没有明显的上升、下降趋势，如在某个值附近波动代表模型训练遇到瓶颈（要么代表模型训练成功可以投入使用，要么代表模型参数仍需要优化调整），曲线递增则代表学习率等参数设定不合理，需要针对性地调整。

DepthAnalysis__algorithm_iteration_convergence_curve3

3.特征重要性直方图：特征重要性展现了每个自变量（特征）对于模型的影响大小，并对它们进行降序排列，使得研究者能够直观便捷的了解每个特征在模型中发挥作用的大小。

DepthAnalysis__feature_importance_histogram2

4.平行坐标图：平行坐标图是一种通用的可视化方法，能够用于探索高维或多元数据的分布情况。颜色的深浅代表了数据分布情况，颜色越深代表该区间上的数据分布越多。

DepthAnalysis__parallel_coordinates4

5.真实值与预测值对比图：用于直观地观察真实值与预测值的分布情况。

DepthAnalysis__comparison_chart_of_real_and_predicted_values