<< Click to Display Table of Contents >> FP-Growth复制链接 |
1.概述
1.1 应用场景
FP-Growth算法的应用场景主要包括购物篮分析、个性化推荐系统、用户行为分析等。它特别适用于处理大规模数据集,如购物篮分析中的商品关联规则挖掘。在购物篮分析中,FP-Growth算法可以找出商品之间的关联性,例如,如果发现大量顾客同时购买了牛奶和面包,算法可以推断出这两者之间存在较强的关联性,从而可以实施相应的营销策略,如将这两者打包销售或进行相关推荐,案例可以参考购物篮分析。
1.2 功能介绍
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。
输入:1个数据集,数据集中应该至少有事务标识列和事项列。
输出:事务之间关联关系结果,关联关系图。
2.配置方法
2.1拖入节点
将FP-Growth节点添加到实验后,可通过右侧的“配置项目”页面,对FP-Growth节点进行设置。
2.2参数列表
【使用集群】选择true时,算子使用分布式集群运行,选择false时单机运行,默认为false。集群运行需要在集群环境下才能生效。
【最小支持数】对于样本量较大数据集,建议:最小支持数/事务标识总量(支持度)>0.5%,应当小于所有事务中的最大事务项数量。例如,事务标识总量=10000,最小支持数建议大于50。参数取值范围:取值范围大于等于1的整数。
【最小置信度】参数取值范围:取值范围在0-1之间。
2.3选择变量
事务标识:选择事务主体标识列,通常为某个事务ID,如订单号、Session_ID等等,仅能选择一列。
事项列:选择记录事项编号、名称等等信息的字段,仅能选择一列。
选择数据页面操作见节点 >选择数据。
3.查看结果
可通过连接数据集视图查看事务之间关联关系结果,连接图片视图来查看关联关系图。
【左项】规则的先导项集。
【右项】规则的结论项集。
【支持度】项集出现的次数除以总的记录数。
【置信度】项集{X,Y}同时出现的次数占项集{X}出现次数的比例。
【提升度】度量项集{X}和项集{Y}的独立性。数值越大模型越好。