电信类客户流失

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 案例介绍 

电信类客户流失

复制链接

1.背景介绍

电信客户的流失一直是电信公司关注的重点,减少客户的流失能够增加公司的收益,降低开发新客户的成本,提高竞争力。通过对电信客户流失数据的分析找出影响客户流失的关键因素,帮助电信公司采取更有针对性的措施来进行客户关系管理,保留客户。

2.数据说明

企业提供了客户信息的汇总统计表,每条记录代表一名客户的信息,共计3333条记录。数据字段描述如表所示。

字段名称

字段描述

数据类型

State

文本型

AccountLength

未知

数值型

AreaCode

区号

数值型

Phone

电话号码

数值型

InternationalPlan

是否为该计划用户

文本型

VMailPlan

是否为该计划用户

文本型

VMailMessage

VMail消息量

数值型

DayMins

每天通话量

数值型

DayCalls

白天通话次数

数值型

DayCharge

白天通话费用

数值型

EveMins

傍晚通话量

数值型

EveCalls

傍晚通话次数

数值型

EveCharge

傍晚通话费用

数值型

NightMins

夜间通话量

数值型

NightCalls

夜间通话次数

数值型

NightCharge

夜间通话费用

数值型

IntlMins

国际通话量

数值型

IntlCalls

国际通话次数

数值型

IntlCharge

国际通话费用

数值型

CustServCalls

客服通话次数

数值型

CustomerLeft

是否为流失客户

数值型

3.方案介绍

首先,根据项目背景介绍,整个问题是一个判断客户是否流失的业务问题,可以将业务抽象为一个二分类问题,数据集中的CustomerLeft字段,就是建模采用的目标值,其中的是否可作为两个类别应用到模型之中。

逻辑回归是非常经典的机器学习算法,它虽然被称为回归,但是实际上是分类模型,广泛用于二分类问题中,也就是判断某种行为是否发生的业务场景。逻辑回归因为它简单、可并行等特点受到工业届的青睐。

4.方案分析

1)完成模型的建立

逻辑回归模型是一种有监督模型,模型通过拟合特征列和目标列之间的关系,完成模型的建立,并且在有新的特征数据输入模型时,输出(预测)样本是否流失的类别。

Depthanalysis_TelecomCustomerChurn

2)参数配置

根据参数列表中的“意义”项的指引,按需求填写参数值。本案例训练集占比设定为0.78,正例标签设定为None,优化器在下拉列表中选择powell。

Depthanalysis_TelecomCustomerChurn1

3)字段选择

如前所述,有监督算法需要指定特征列字段和目标列字段。点击特征列和目标列下方的选择数据按钮。在弹出的字段列表中选择相应的字段。

Depthanalysis_TelecomCustomerChurn2Depthanalysis_TelecomCustomerChurn3

5.结果说明

当前项目的工作流,逻辑回归算子将输出模型系数和性能指标、ROC曲线、客户是否流失的结果数据。

模型系数和性能指标

逻辑回归为广义线性模型,模型拟合出每个自变量的系数构建模型,同时输出系数的各种统计量来辅助判别特征的有效性和稳定性。其中p值小于0.05的自变量系数为0在5%水平上被拒绝,即p值小于0.05时认为自变量的回归系数是有效的。

Depthanalysis_TelecomCustomerChurn4

训练集性能指标、验证集性能指标

准确率、召回率、F1-score、支持样本量。其中准确率、召回率、F1-score的取值范围为[0,1],当数值越接近1说明模型表现越好。

Depthanalysis_TelecomCustomerChurn5Depthanalysis_TelecomCustomerChurn6

ROC曲线

能反映模型在选取不同阈值的时候其敏感性(sensitivity, FPR)和其精确性(specificity, TPR)的趋势走向,ROC曲线有一个巨大的优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,而P-R曲线的形状一般会发生剧烈的变化,因此该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。

Depthanalysis_TelecomCustomerChurn7

其中,ROC曲线与横轴围成的面积称为AUC值,取值范围为[0,1],该指标越接近1说明模型表现越好。

线上部署后的客户流失行为的预测结果

Depthanalysis_TelecomCustomerChurn8

预测值字段为客户流失行为预测结果(0代表客户不会流失,1代表会流失),预测值_Prob为预测结果的概率。