<< Click to Display Table of Contents >> 电信类客户流失复制链接 |
1.背景介绍
电信客户的流失一直是电信公司关注的重点,减少客户的流失能够增加公司的收益,降低开发新客户的成本,提高竞争力。通过对电信客户流失数据的分析找出影响客户流失的关键因素,帮助电信公司采取更有针对性的措施来进行客户关系管理,保留客户。
2.数据说明
企业提供了客户信息的汇总统计表,每条记录代表一名客户的信息,共计3333条记录。数据字段描述如表所示。
字段名称 |
字段描述 |
数据类型 |
---|---|---|
State |
州 |
文本型 |
AccountLength |
未知 |
数值型 |
AreaCode |
区号 |
数值型 |
Phone |
电话号码 |
数值型 |
InternationalPlan |
是否为该计划用户 |
文本型 |
VMailPlan |
是否为该计划用户 |
文本型 |
VMailMessage |
VMail消息量 |
数值型 |
DayMins |
每天通话量 |
数值型 |
DayCalls |
白天通话次数 |
数值型 |
DayCharge |
白天通话费用 |
数值型 |
EveMins |
傍晚通话量 |
数值型 |
EveCalls |
傍晚通话次数 |
数值型 |
EveCharge |
傍晚通话费用 |
数值型 |
NightMins |
夜间通话量 |
数值型 |
NightCalls |
夜间通话次数 |
数值型 |
NightCharge |
夜间通话费用 |
数值型 |
IntlMins |
国际通话量 |
数值型 |
IntlCalls |
国际通话次数 |
数值型 |
IntlCharge |
国际通话费用 |
数值型 |
CustServCalls |
客服通话次数 |
数值型 |
CustomerLeft |
是否为流失客户 |
数值型 |
3.方案介绍
首先,根据项目背景介绍,整个问题是一个判断客户是否流失的业务问题,可以将业务抽象为一个二分类问题,数据集中的CustomerLeft字段,就是建模采用的目标值,其中的是否可作为两个类别应用到模型之中。
逻辑回归是非常经典的机器学习算法,它虽然被称为回归,但是实际上是分类模型,广泛用于二分类问题中,也就是判断某种行为是否发生的业务场景。逻辑回归因为它简单、可并行等特点受到工业届的青睐。
4.方案分析
1)完成模型的建立
逻辑回归模型是一种有监督模型,模型通过拟合特征列和目标列之间的关系,完成模型的建立,并且在有新的特征数据输入模型时,输出(预测)样本是否流失的类别。
2)参数配置
根据参数列表中的“意义”项的指引,按需求填写参数值。本案例训练集占比设定为0.78,正例标签设定为None,优化器在下拉列表中选择powell。
3)字段选择
如前所述,有监督算法需要指定特征列字段和目标列字段。点击特征列和目标列下方的选择数据按钮。在弹出的字段列表中选择相应的字段。
5.结果说明
当前项目的工作流,逻辑回归算子将输出模型系数和性能指标、ROC曲线、客户是否流失的结果数据。
•模型系数和性能指标
逻辑回归为广义线性模型,模型拟合出每个自变量的系数构建模型,同时输出系数的各种统计量来辅助判别特征的有效性和稳定性。其中p值小于0.05的自变量系数为0在5%水平上被拒绝,即p值小于0.05时认为自变量的回归系数是有效的。
•训练集性能指标、验证集性能指标
准确率、召回率、F1-score、支持样本量。其中准确率、召回率、F1-score的取值范围为[0,1],当数值越接近1说明模型表现越好。
•ROC曲线
能反映模型在选取不同阈值的时候其敏感性(sensitivity, FPR)和其精确性(specificity, TPR)的趋势走向,ROC曲线有一个巨大的优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,而P-R曲线的形状一般会发生剧烈的变化,因此该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。
其中,ROC曲线与横轴围成的面积称为AUC值,取值范围为[0,1],该指标越接近1说明模型表现越好。
•线上部署后的客户流失行为的预测结果
预测值字段为客户流失行为预测结果(0代表客户不会流失,1代表会流失),预测值_Prob为预测结果的概率。