复旦大学 数据挖掘资料.pdf
文本预览下载声明
数据挖掘:
概念和技术
©张晓辉
复旦大学(国际)数据库研究中心
第6章:从大数据库中挖掘关联
规则
关联规则挖掘
从交易数据库中挖掘一维的布尔形关联规则
从交易数据库中挖掘多层次关联规则
在交易数据库和数据仓库中挖掘多维关联规则
从关联挖掘到相关性分析
基于约束的关联挖掘
小结
什么是关联挖掘?
关联规则挖掘:
在交易数据、关系数据或其他信息载体中,查找存在于
项目集合或对象集合之间的频繁模式、关联、相关性、
或因果结构。
应用:
购物篮分析、交叉销售、产品目录设计、 loss-leader
analysis、聚集、分类等。
举例:
规则形式: “Body →Ηead [support, confidence]”.
buys(x, “diapers”) → buys(x, “beers”) [0.5%, 60%]
major(x, “CS”) ^ takes(x, “DB”) → grade(x, “A”) [1%,
75%]
关联规则:基本概念
给定: (1)交易数据库(2)每笔交易是:一个项目列表(消费
者一次购买活动中购买的商品)
查找: 所有描述一个项目集合与其他项目集合相关性的规则
E.g., 98% of people who purchase tires and auto
accessories also get automotive services done
应用
* ⇒ 护理用品 (商店应该怎样提高护理用品的销售?)
家用电器 ⇒ * (其他商品的库存有什么影响?)
在产品直销中使用附加邮寄
Detecting “ping-pong”ing of patients, faulty “collisions”
规则度量:支持度与可信度
二者都买
的客户 买尿布的客 查找所有的规则X Y ⇒ Z 具
户 有最小支持度和可信度
支持度, s, 一次交易中包含
{X 、Y 、Z}的可能性
买啤酒的客户 可信度, c, 包含{X 、Y} 的交
易中也包含Z的条件概率
交易ID 购买的商品 设最小支持度为50%, 最小可信
2000 A,B,C 度为50%, 则可得到
1000 A,C A ⇒ C (50%, 66.6%)
4000 A,D C ⇒ A (50%, 100%)
5000 B,E,F
关联规则挖掘:路线图
布尔vs. 定量关联(基于 处理数据的类型)
buys(x, “SQLServer”) ^ buys(x, “DMBook”) → buys(x, “DBMiner”)
[0.2%, 60%]
age(x, “30..39”) ^ income(x, “42..48K”) → buys(x, “PC”) [1%, 75%]
单维vs. 多维关联(例子同上)
单层vs. 多层分析
那个品种牌子的啤酒与那个牌子的尿布有关系?
各种扩展
相关性、因果分析
关联并不一定意味着相关或因果
最大模式和闭合相集
添加约束
如, 哪些“小东西”的销售促发了“大家伙”的买卖?
第6章:从大数据库中挖掘关联
显示全部