<< Click to Display Table of Contents >> 购物篮分析复制链接 |
1.概述
1.1.购物篮分析的定义
是一种在零售业中广泛应用的数据挖掘技术。它主要用于发现顾客购买行为中的模式,特别是商品之间的关联规则。通过这种分析,商家可以更好地理解消费者的行为,从而优化产品布局、制定促销策略等。
1.2.解决的业务场景问题
产品推荐:根据顾客已购买的商品推荐其他可能感兴趣的商品。
货架摆放:通过分析哪些商品经常一起被购买,优化货架布局以促进销售。
促销活动设计:设计捆绑销售或优惠券策略,提高顾客的购买率。
1.3.关键术语
•支持度(Support):某个项目集出现的频率。例如,所有交易中有多少比例包含了牛奶和面包。
公式:支持度(A→B)=支持度(AUB)=总交易数量包含项目集A和B的交易数量/总交易数量
示例:假设在一个超市的1000次交易中,有200次交易同时购买了牛奶和面包,那么“牛奶和面包”的支持度为:支持度(牛奶, 面包)=200/1000=0.2
•置信度(Confidence):给定一个项目集A,另一个项目集B出现的概率。例如,在购买了牛奶的交易中,有百分之多少也购买了面包。
公式:置信度(A→B)=支持度(A∪B)/ 支持度(A)
示例:假设在1000次交易中,有200次交易同时购买了牛奶和面包,而有500次交易购买了牛奶,那么“牛奶 → 面包”的置信度为: 置信度(牛奶→面包)=0.2/0.5=0.4
•提升度(Lift):衡量两个项目集之间的关联强度。提升度为1表示两个项目集独立;大于1表示正相关;小于1表示负相关。
公式: 提升度(A→B)=置信度(A→B)/支持度(B)
示例:假设在1000次交易中,有200次交易同时购买了牛奶和面包,有500次交易购买了牛奶,有300次交易购买了面包,那么“牛奶 → 面包”的提升度为: 提升度(牛奶→面包)=0.4/0.3=1.33
1.4.常见算法
购物篮分析中最常用的算法之一是Apriori算法,此外还有FP-Growth算法等。实际应用中的选择Apriori算法适用于中小型数据集,特别是在资源有限或需要快速实现的场景中。而FP-Growth算法适用于大型数据集,特别是在需要高效处理大量数据的场景中。两个算法的具体原理可以参照网站。
2.示例
本案例以永洪自带的深度分析模块来实现,永洪流程式深度分析既提供经典统计方法,如逻辑回归、K-Means聚类、Holt-Winters、FP-Growth、决策树回归,满足用户常用分析场景,简单可视化操作,即可轻松构建模型,完成预测分析;
2.1.预期效果
2.2.实现思路
某超市提供了某个时间段内顾客在超市购买的商品,每条记录为某个客户购买的某种商品名称,数据共计2522行。数据字段描述如表所示。
1)上传数据
在永洪产品创建数据集选择Excel数据集将购物篮数据导入到产品中,如下图所示:
2)搭建模型
a)在永洪产品点击深度分析中新建实验模型,如下图所示:
b)在数据集中将购物篮数据拖拽到画布中,点击数据集,右侧会给出数据的详情,如下图所示:
c)在操作中算法下面选择关联规则FP-Growth拖拽到画布中,右侧是算法的说明、参数、和输入输出说明,如下图所示:
参数列表有三个可调参数:是否使用分布式集群、最小支持数、最小置信度,每个参数都有含义介绍,这里面由于数据比较少所以不需要使用分布式集群,本案例设置最小支持数10(高频组合阈值),最小置信度0.8(有效规则阈值)。事务标识代表客户ID、事项列代表购买的商品。点击选择数据按钮,在弹出的字段列表中选择相应的字段。输出类型列表包括输出结果的名称、类型和含义。
d)在操作视图和导出中选择图片视图、数据集视图和保存为数据集,两个视图用来查看关联关系图和关联关系挖掘结果,同时将结果保存为数据集,进一步来制作分析报告,如下图所示:
3.制作报告
利用模型保存的数据集结果可对其进行可视化展示,如下图所示:
拖拽矩形树图和表组件,绑定数据就可实现数据可视化的展示,如下图所示:
为了说明如何通过支持度和置信度挖掘有效的关联规则,需明白当有A、B两个产品,A、B同时被购买的概率称为支持度,越接近1越好;顾客先买了A的条件下,又购买了B的概率称为A—>B的置信度,越接近1越好;先购买A对购买B的概率有提升作用,称为提升度,提升度大于1说明规则A—>B有效,反之,无效。了解算法指标的含义后,通过这些指标,我们可以评估关联规则的强度和有效性,进而理解数据中的模式和关系。例如,在购物篮分析中,高支持度和高置信度的规则可能指示商品之间的强关联,这对于优化商品摆放、提高销售额等商业决策具有重要意义。