文档详情

频繁项集.pdf

发布:2019-01-11约8.5千字共22页下载文档
文本预览下载声明
频繁项集 购物篮分析 导入 • 在美国沃尔玛超市的货架上,尿片和啤酒 赫然地摆在一起出售。为啥…? • 每逢周末,啤酒和尿片的销量都很大 • 有孩子的家庭中,太太经常嘱咐丈夫下班 后要买尿片,而丈夫们在买完尿片以后又 顺手买啤酒 • 搞清原因后,尝试将啤酒和尿片摆在一起, 为商家带来了大量的利润 问题  如何从浩如烟海却又杂乱无章的销售数据中,发 现啤酒和尿片这类商品销售之间的联系呢? 事务 项 项集 频繁项集 相关概念  购物篮-又称为“事务”  单个客户一次购买商品的总和称为一个购物篮  超市结算小票  项  每种商品为项  每个购物篮是一个项集,K—项集  频繁项集  多个购物篮和出现的项集称为频繁项集  多少个算频繁的呢?  大多数  超过一定的阈值  支持度 支持度  支持度:项集同时出现的次数  支持度为2,表示什么?  支持度为0.4,表示什么?  超过支持度的即称为频繁项集 Support of {Beer, Bread} = 2 (0.4 ) 请问S=3的情况下,2-频繁项集有哪些? 相关概念  候选项集  获取频繁项集的项集  K-频繁项集  频繁项集中的项的数目为K  最大频繁项集  在该支持度阈值下,不存在包含该频繁项集的频繁 项集 频繁项集的例子  Items = {milk, coke, pepsi, beer, juice}  Support threshold = 3 baskets B1 = {m, c, b} B2 = {m, p, j} B = {m, b} B = {c, j} 3 4 B5 = {m, p, b} B6 = {m, c, b, j} B7 = {c, b, j} B8 = {b, c}  Frequent itemsets: {m}, {c}, {b}, {j}, {m,b} , {b,c} , {c,j}. 7 Apriori 算法  Apriori算法是一种经典的生成布尔型关联规则的频 繁项集挖掘算法.算法名字是缘于算法使用了频繁项 集的性质这一先验知识.  思想: Apriori 使用了一种称作leve
显示全部
相似文档