关联规则数据挖掘中,最大频繁项集是什么?衡量标准?求指教,网上搜的结果:候选集1:a\x05b\x05c\x05d\x05e\x05f\x05频繁集1:a\x05b\x05c\x05d\x05候选集2:ab\x05ac\x05ad\x05bc\x05bd\x05cd\x05频繁集2:ab\x05ac\x05bc\x05cd

来源:学生作业帮助网 编辑:六六作业网 时间:2024/12/26 13:06:05
关联规则数据挖掘中,最大频繁项集是什么?衡量标准?求指教,网上搜的结果:候选集1:a\x05b\x05c\x05d\x05e\x05f\x05频繁集1:a\x05b\x05c\x05d\x05候选集2

关联规则数据挖掘中,最大频繁项集是什么?衡量标准?求指教,网上搜的结果:候选集1:a\x05b\x05c\x05d\x05e\x05f\x05频繁集1:a\x05b\x05c\x05d\x05候选集2:ab\x05ac\x05ad\x05bc\x05bd\x05cd\x05频繁集2:ab\x05ac\x05bc\x05cd
关联规则数据挖掘中,最大频繁项集是什么?衡量标准?求指教,
网上搜的结果:
候选集1:a\x05b\x05c\x05d\x05e\x05f\x05
频繁集1:a\x05b\x05c\x05d\x05
候选集2:ab\x05ac\x05ad\x05bc\x05bd\x05cd\x05
频繁集2:ab\x05ac\x05bc\x05cd\x05
候选集3:abc\x05abd\x05acd\x05bcd\x05
频繁集3:abc\x05
候选集4:abcd\x05
频繁集4:
最大频繁项集:abc\x05cd
最大频繁项集的定义什么?是该频繁项集包含其他的频繁项集或者该频繁项集不被其它频繁项集包含吗?\x05还是支持度或置信度最高啊?

关联规则数据挖掘中,最大频繁项集是什么?衡量标准?求指教,网上搜的结果:候选集1:a\x05b\x05c\x05d\x05e\x05f\x05频繁集1:a\x05b\x05c\x05d\x05候选集2:ab\x05ac\x05ad\x05bc\x05bd\x05cd\x05频繁集2:ab\x05ac\x05bc\x05cd
百科有人整理了个定义:

注意超集的定义:
超集Superset :如果一个集合S2中的每一个元素都在集合S1中,且集合S1中可能包含S2中没有的元素,则集合S1就是S2的一个超集. S1是S2的超集,则S2是S1的真子集,反之亦然.
综上,最大频繁项集是各频繁k项集中符合无超集条件的频繁项集条件.
你上面给的这个例子只是个频繁项集生成步骤中的项集列表,没有每个项集的频数或支持度.
候选1是全项列出,按定义的支持度阈值取出有较高值的频繁集1
对频繁集1二项全组合得出候选集2,并同样按支持度阈值取出高频的频繁集2
对频繁集1三项全组合得出候选集3,并同样按支持度阈值取出高频的频繁集3
对频繁集1四项全组合得到候选集4,看样子没有满足条件的频繁集.
求取最大频繁项集时有不同的算法,对你这个例子直观的来,由顶向下:
频繁3项集就一个abc,4项集没有,OK,abc是一个.
然后拿abc在频繁2项集里排除掉ab,ac,bc,剩下cd,也算一个了.
然后拿abc,cd在频繁1项集里排除掉所有abcd.
所以最后求出的最大频繁项集是abc和cd.