FP-Growth

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 实验功能使用 > 节点 > 算法 > 关联规则 

FP-Growth

复制链接

1.概述

1.1 应用场景

FP-Growth算法的应用场景主要包括购物篮分析、‌个性化推荐系统、‌用户行为分析等。它特别适用于处理大规模数据集,‌如购物篮分析中的商品关联规则挖掘。‌在购物篮分析中,‌FP-Growth算法可以找出商品之间的关联性,‌例如,‌如果发现大量顾客同时购买了牛奶和面包,‌算法可以推断出这两者之间存在较强的关联性,‌从而可以实施相应的营销策略,‌如将这两者打包销售或进行相关推荐,案例可以参考购物篮分析

1.2 功能介绍

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。

输入:1个数据集,数据集中应该至少有事务标识列和事项列。

输出:事务之间关联关系结果,关联关系图。

2.配置方法

2.1拖入节点

将FP-Growth节点添加到实验后,可通过右侧的“配置项目”页面,对FP-Growth节点进行设置。

depthanalysis_fp-growth_zoom72

2.2参数列表

【使用集群】选择true时,算子使用分布式集群运行,选择false时单机运行,默认为false。集群运行需要在集群环境下才能生效。

【最小支持数】对于样本量较大数据集,建议:最小支持数/事务标识总量(支持度)>0.5%,应当小于所有事务中的最大事务项数量。例如,事务标识总量=10000,最小支持数建议大于50。参数取值范围:取值范围大于等于1的整数。

【最小置信度】参数取值范围:取值范围在0-1之间。

2.3选择变量

事务标识:选择事务主体标识列,通常为某个事务ID,如订单号、Session_ID等等,仅能选择一列。

事项列:选择记录事项编号、名称等等信息的字段,仅能选择一列。

选择数据页面操作见节点 >选择数据

3.查看结果

可通过连接数据集视图查看事务之间关联关系结果,连接图片视图来查看关联关系图。

depthanalysis_fp-growth1_zoom73

【左项】规则的先导项集。

【右项】规则的结论项集。

【支持度】项集出现的次数除以总的记录数。

【置信度】项集{X,Y}同时出现的次数占项集{X}出现次数的比例。

【提升度】度量项集{X}和项集{Y}的独立性。数值越大模型越好。

depthanalysis_fp-growth2_zoom86