频繁项集.pdf
文本预览下载声明
频繁项集
购物篮分析
导入
• 在美国沃尔玛超市的货架上,尿片和啤酒
赫然地摆在一起出售。为啥…?
• 每逢周末,啤酒和尿片的销量都很大
• 有孩子的家庭中,太太经常嘱咐丈夫下班
后要买尿片,而丈夫们在买完尿片以后又
顺手买啤酒
• 搞清原因后,尝试将啤酒和尿片摆在一起,
为商家带来了大量的利润
问题
如何从浩如烟海却又杂乱无章的销售数据中,发
现啤酒和尿片这类商品销售之间的联系呢?
事务
项
项集
频繁项集
相关概念
购物篮-又称为“事务”
单个客户一次购买商品的总和称为一个购物篮
超市结算小票
项
每种商品为项
每个购物篮是一个项集,K—项集
频繁项集
多个购物篮和出现的项集称为频繁项集
多少个算频繁的呢?
大多数
超过一定的阈值
支持度
支持度
支持度:项集同时出现的次数
支持度为2,表示什么?
支持度为0.4,表示什么?
超过支持度的即称为频繁项集
Support of
{Beer, Bread} = 2
(0.4 )
请问S=3的情况下,2-频繁项集有哪些?
相关概念
候选项集
获取频繁项集的项集
K-频繁项集
频繁项集中的项的数目为K
最大频繁项集
在该支持度阈值下,不存在包含该频繁项集的频繁
项集
频繁项集的例子
Items = {milk, coke, pepsi, beer, juice}
Support threshold = 3 baskets
B1 = {m, c, b} B2 = {m, p, j}
B = {m, b} B = {c, j}
3 4
B5 = {m, p, b} B6 = {m, c, b, j}
B7 = {c, b, j} B8 = {b, c}
Frequent itemsets: {m}, {c}, {b}, {j},
{m,b} , {b,c} , {c,j}.
7
Apriori 算法
Apriori算法是一种经典的生成布尔型关联规则的频
繁项集挖掘算法.算法名字是缘于算法使用了频繁项
集的性质这一先验知识.
思想: Apriori 使用了一种称作leve
显示全部