数据挖掘统计结果中distinct什么意思
来源:学生作业帮助网 编辑:六六作业网 时间:2024/12/18 23:59:33
数据挖掘统计结果中distinct什么意思
数据挖掘统计结果中distinct什么意思
数据挖掘统计结果中distinct什么意思
接分啦.找到一篇不错的文章
楼主看下,参考资料:
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules).
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets).高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平.一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则称为高频项目组.一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k.算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止.
关联规则挖掘的第二阶段是要产生关联规则(Association Rules).从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则.例如:经由高频k-项目组所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则.
就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%.因此符合此该超市需求的关联规则将必须同时满足以上两个条件.若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则.用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%.其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为.Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒.因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒.这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为.
从上面的介绍还可以看出,关联规则挖掘通常比较适用与记录中的指标取离散值的情况.如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果.
2.2关联规则的分类
按照不同情况,关联规则可以进行分类如下:
1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型.
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然