FP-Growth

<< Click to Display Table of Contents >>

当前位置:  深度分析 > 实验功能使用 > 节点 > 算法 > 关联规则 

FP-Growth

复制链接

1.概述

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组,第二阶段再由这些高频项目组中产生关联规则。

输入:1个数据集,数据集中应该至少有事务标识列和事项列。

输出:事务之间关联关系结果,关联关系图。

2.配置方法

将FP-Growth节点添加到实验后,可通过右侧的“配置项目”页面,对FP-Growth节点进行设置。

Depthanalysis_FP-Growth

2.1参数列表

【使用集群】选择true时,算子使用分布式集群运行,选择false时单机运行,默认为false。集群运行需要在集群环境下才能生效。

【最小支持数】对于样本量较大数据集,建议:最小支持数/事务标识总量(支持度)>0.5%,应当小于所有事务中的最大事务项数量。例如,事务标识总量=10000,最小支持数建议大于50。参数取值范围:取值范围大于等于1的整数。

【最小置信度】参数取值范围:取值范围在0-1之间。

2.2选择变量

事务标识:选择事务主体标识列,通常为某个事务ID,如订单号、Session_ID等等,仅能选择一列。

事项列:选择记录事项编号、名称等等信息的字段,仅能选择一列。

选择数据页面操作见插件节点>选择数据

3.查看结果

可通过连接数据集视图查看事务之间关联关系结果,连接图片视图来查看关联关系图。

Depthanalysis_FP-Growth1

【左项】规则的先导项集。

【右项】规则的结论项集。

【支持度】项集出现的次数除以总的记录数。

【置信度】项集{X,Y}同时出现的次数占项集{X}出现次数的比例。

【提升度】度量项集{X}和项集{Y}的独立性。数值越大模型越好。

Depthanalysis_FP-Growth2