深度分析 > 案例介绍

1.背景介绍

商家经常需要分析顾客购买的商品组合，无论是在线上的进行商品组合推荐，还是在线下建立合理的商品上架策略，都具有指导意义。

2.数据说明

某超市提供了某个时间段内顾客在超市购买的商品，每条记录为某个客户购买的某种商品名称，数据共计2522行。数据字段描述如表所示。

字段名称	字段描述	数据类型
cardid	会员卡ID	数值型
goods	商品	文本型

3.方案介绍

本方案分为两个阶段，第一个阶段需要找出所有高频的商品组合，第二阶段是在高频出现的商品组合中找到有效的规则。

根据这两个阶段要求，采用FP-Growth算法建立关联规则模型，能够高效且完美地解决这个问题。FP-Growth算法运行效率明显高于常用的Apriori算法，它改善了Apriori算法建模时多次扫描整个数据集带来的效率问题。

4.方案分析

1)模型工作流搭建

关联规则是一种无监督模型，不需要通过设定目标值来进行模型的训练。

Depthanalysis_ShoppingBasketAnalysis

2)参数配置

根据参数列表中的“意义”项的指引，按需求填写参数值，本案例设置最小支持数10（高频组合阈值），最小置信度0.8（有效规则阈值）。

Depthanalysis_ShoppingBasketAnalysis1

3)字段选择

关联规则需要定义事务标识（客户ID）和事项列（购买的商品）。点击选择数据按钮，在弹出的字段列表中选择相应的字段。

Depthanalysis_ShoppingBasketAnalysis2

5.结果说明

当前项目的工作流，FP-Growth算子将输出各种规则的置信度、支持度、提升度，可以以此作为判别依据选择更加有效的规则。

为了说明如何通过支持度和置信度挖掘有效的关联规则，我们先弄清楚几个定义。

假设有A、B两个产品，A、B同时被购买的概率称为支持度，越接近1越好；顾客先买了A的条件下，又购买了B的概率称为A—>B的置信度，越接近1越好，此时，A称为左项（前项），B称为右项（后项）；先购买A对购买B的概率有提升作用，称为提升度，提升度大于1说明规则A—>B有效，反之，无效。

Depthanalysis_ShoppingBasketAnalysis4

关联关系图较好的展示了每种关系之间支持度、置信度、提升度分布，能够较为方便的进行规则的挖掘。

购物篮分析