银行电话营销

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 案例介绍 

银行电话营销

复制链接

1.背景介绍

电话营销在银行的经营活动中被广泛应用。传统的电话营销采用“广撒网”的形式进行电话宣传推广,这种营销不针对特定的用户群,不具有针对性,更是浪费公司的人力资源和时间成本。因此,需要找到影响电话营销成功的关键因素,更直接有效的锁定目标客户群体,并展开更加正确合理的营销方式。

2.数据说明

某银行提供了客户信息的汇总统计表,每条记录代表一名客户的信息,共计3000条记录。数据字段描述如表所示。

字段名称

字段描述

数据类型

ID

客户唯一标识

数值型

age

客户年龄

数值型

job

客户职业

文本型

marital

婚姻状况

文本型

education

受教育水平

文本型

balance

每年账户平均余额

数值型

housing

是否有住房贷款

文本型

loan

是否有个人贷款

文本型

contact

与客户联系的沟通方式

文本型

day

近一次联系(日)

数值型

month

近一次联系(月)

数值型

duration

近一次联系时长

数值型

campaign

活动中交流次数

数值型

pdays

上次活动联系时间(日)

数值型

previous

活动之前沟通次数

数值型

poutcome

上次活动结果

文本型

y

本次订购结果

数值型

3.方案介绍

首先,根据项目背景介绍,整个问题是一个判断客户是否响应营销活动的业务问题,可以将业务抽象为一个二分类问题,数据集中的y字段,就是建模采用的目标值,其中的是否可作为两个类别应用到模型之中。

决策树是一种基于实例的归纳学习方法,能从给定的训练样本中,提炼出树形的分类模型。树中的每个非叶子节点记录了使用了哪个特征作为判断条件,每个叶子节点代表了判断的类别。根节点到各个叶子节点形成一条分类的决策路径。决策树具有直观,计算效率高的特点,因为其一系列的特点,被广泛应用在分类问题或者构建其他集成算法之中。

4.方案分析

1)模型工作流搭建

决策树模型是一种有监督模型,模型通过寻找特征列和目标列之间的关系,完成模型的建立,并且在有新的特征数据输入模型时,输出(预测)样本是否响应了营销活动。

Depthanalysis_BankTelemarketing

2)参数配置

根据参数列表中的“意义”项的指引,按需求填写参数值。本案例分裂准则在下拉列表中选择gini,分类策略选择best,最大深度设定为7,其他超参数可进入案例查看。

Depthanalysis_BankTelemarketing1

3)字段选择

如前所述,有监督算法需要指定特征列字段和目标列字段。点击特征列和目标列下方的选择数据按钮。再弹出的字段列表中选择相应的字段。

Depthanalysis_BankTelemarketing2Depthanalysis_BankTelemarketing3

5.结果说明

当前项目的工作流,决策树算子将输出模型性能指标、ROC曲线、决策树结构、特征重要性、平行坐标图。

模型性能指标:

Depthanalysis_BankTelemarketing4

训练集和验证集上的性能指标:准确率、召回率、F1-score、支持样本量。其中准确率、召回率、F1-score的取值范围为[0,1],当数值越接近1,说明模型表现越好。

ROC曲线

能反映模型在选取不同阈值的时候其敏感性(sensitivity, FPR)和其精确性(specificity, TPR)的趋势走向,ROC曲线有一个巨大的优势就是,当正负样本的分布发生变化时,其形状能够基本保持不变,而P-R曲线的形状一般会发生剧烈的变化,因此该评估指标能降低不同测试集带来的干扰,更加客观的衡量模型本身的性能。

Depthanalysis_BankTelemarketing5

其中,ROC曲线与横轴围成的面积称为AUC值,取值范围为[0,1],该指标越接近1说明模型表现越好。

决策树结构

Depthanalysis_BankTelemarketing6

决策树可视化图展现了建模形成的决策树的结构形式,说明了决策树的构建过程。

特征重要性

Depthanalysis_BankTelemarketing7

特征重要性展现了每个特征对于模型的影响大小,并对它们进行降序排列,使得研究者能够直观便捷的了解每个特征在模型中发挥作用的大小。

平行坐标图

Depthanalysis_BankTelemarketing8

平行坐标图是一种通用的可视化方法,能够用于探索高维或多元数据的分布情况。颜色的深浅代表了数据分布情况,颜色越深代表该区间上的数据分布越多。