<< Click to Display Table of Contents >> 购物篮分析复制链接 |
1.背景介绍
商家经常需要分析顾客购买的商品组合,无论是在线上的进行商品组合推荐,还是在线下建立合理的商品上架策略,都具有指导意义。
2.数据说明
某超市提供了某个时间段内顾客在超市购买的商品,每条记录为某个客户购买的某种商品名称,数据共计2522行。数据字段描述如表所示。
字段名称 |
字段描述 |
数据类型 |
---|---|---|
cardid |
会员卡ID |
数值型 |
goods |
商品 |
文本型 |
3.方案介绍
本方案分为两个阶段,第一个阶段需要找出所有高频的商品组合,第二阶段是在高频出现的商品组合中找到有效的规则。
根据这两个阶段要求,采用FP-Growth算法建立关联规则模型,能够高效且完美地解决这个问题。FP-Growth算法运行效率明显高于常用的Apriori算法,它改善了Apriori算法建模时多次扫描整个数据集带来的效率问题。
4.方案分析
1)模型工作流搭建
关联规则是一种无监督模型,不需要通过设定目标值来进行模型的训练。
2)参数配置
根据参数列表中的“意义”项的指引,按需求填写参数值,本案例设置最小支持数10(高频组合阈值),最小置信度0.8(有效规则阈值)。
3)字段选择
关联规则需要定义事务标识(客户ID)和事项列(购买的商品)。点击选择数据按钮,在弹出的字段列表中选择相应的字段。
5.结果说明
当前项目的工作流,FP-Growth算子将输出各种规则的置信度、支持度、提升度,可以以此作为判别依据选择更加有效的规则。
为了说明如何通过支持度和置信度挖掘有效的关联规则,我们先弄清楚几个定义。
假设有A、B两个产品,A、B同时被购买的概率称为支持度,越接近1越好;顾客先买了A的条件下,又购买了B的概率称为A—>B的置信度,越接近1越好,此时,A称为左项(前项),B称为右项(后项);先购买A对购买B的概率有提升作用,称为提升度,提升度大于1说明规则A—>B有效,反之,无效。
关联关系图较好的展示了每种关系之间支持度、置信度、提升度分布,能够较为方便的进行规则的挖掘。