第六讲 关联规则Apriori算法与应用.pdf
文本预览下载声明
CLEMENTINE 12
--ASSOCIATION (APRIORI )
关联规则APRIORI介绍
Agrawal 等于1993 年首先提出了挖掘顾客交易数
据库中项集间的关联规则问题,并设计Apriori 算法,
以后诸多的研究人员对关联规则的挖掘问题进行了大
量的研究。
Apriori 算法是单维单层次布尔关联规则挖掘的一
种经典算法,是挖掘产生布尔关联规则所需频繁项集
的基本算法;Apriori 算法就是根据有关频繁项集特性
的先验知识(prior knowledeg ) 而命名的。
它是一个很有影响的算法,其他类型的关联规则
算法通常是Apriori 算法的变形。
关联规则的相关判定准则
1.支持度(Support):又称普遍性。
2.置信度(Confidence):出现X且再出现Y 的比例,
是一个条件机率。
3.增益(Lift):又称兴趣度。为期望置信度(后项
支持度),表示在没有任何条件影响下,后项Y出
现的可能性,及置信度与期望置信度的比。
运动鞋Y 单独购买 合计
1
球鞋Y 慢跑鞋Y
11 12
衬衣X 10 10
1
夹克X 400 100 40 540
上衣X 21
外套X2
滑雪衫X22 200 200 60 460
单独购买 50 40
合 计 650 340 1000
增益:增益是两种可能性的比较,一种是在已知购买了左
置信度:是指购物篮分析中有了左边商品,同时又有右边商
支持度:表示在购物篮分析中同时包含关联规则左右两边物
边商品情况下购买右边商品的可能性,另一种是任
品的交易次数百分比,也就是说在所有的购买了左
品的交易次数百分比,即支持这个规则的交易的次
意情况下购买右边商品的可能性。
边商品的交易中,同时又购买右边商品的交易概率。
数百分比。
lift(X21Y11) = P(Y11|X21)/ P(Y11)
sup(X21Y11) = P(X21Y11) =400/1000= 40%
confidence(X21Y11) = P(Y11|X21) =P(X21Y11)/P(X21)= 74.1%
= 74.1%/65% = 1.14%
关联法则的相关判定准则关联法则的相关判定准则
1.高置信度,低支援度:
关联规则真正可取,还需要具备以下两个条件 :
夹克球鞋”的置信度高达100%,但因为只有一人
买了球鞋,这条关联规则支持度只有千分之一
2.置信度都比较高,但几乎是没有作用的规则
1.人们常识之外、意料之外的关联
“买方便面则买牛奶”,“买牙刷则买牛奶”,
“喜欢野外休闲则会买牛奶”
2.该规则必须具有潜在的作用
3.高增益,低支援度:
其中一人与夹克
显示全部