文档详情

复旦大学 数据挖掘资料.pdf

发布:2015-08-03约3.63万字共94页下载文档
文本预览下载声明
数据挖掘: 概念和技术 ©张晓辉 复旦大学(国际)数据库研究中心 第6章:从大数据库中挖掘关联 规则 关联规则挖掘 从交易数据库中挖掘一维的布尔形关联规则 从交易数据库中挖掘多层次关联规则 在交易数据库和数据仓库中挖掘多维关联规则 从关联挖掘到相关性分析 基于约束的关联挖掘 小结 什么是关联挖掘? 关联规则挖掘: 在交易数据、关系数据或其他信息载体中,查找存在于 项目集合或对象集合之间的频繁模式、关联、相关性、 或因果结构。 应用: 购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。 举例: 规则形式: “Body →Ηead [support, confidence]”. buys(x, “diapers”) → buys(x, “beers”) [0.5%, 60%] major(x, “CS”) ^ takes(x, “DB”) → grade(x, “A”) [1%, 75%] 关联规则:基本概念 给定: (1)交易数据库(2)每笔交易是:一个项目列表(消费 者一次购买活动中购买的商品) 查找: 所有描述一个项目集合与其他项目集合相关性的规则 E.g., 98% of people who purchase tires and auto accessories also get automotive services done 应用 * ⇒ 护理用品 (商店应该怎样提高护理用品的销售?) 家用电器 ⇒ * (其他商品的库存有什么影响?) 在产品直销中使用附加邮寄 Detecting “ping-pong”ing of patients, faulty “collisions” 规则度量:支持度与可信度 二者都买 的客户 买尿布的客 查找所有的规则X Y ⇒ Z 具 户 有最小支持度和可信度 支持度, s, 一次交易中包含 {X 、Y 、Z}的可能性 买啤酒的客户 可信度, c, 包含{X 、Y} 的交 易中也包含Z的条件概率 交易ID 购买的商品 设最小支持度为50%, 最小可信 2000 A,B,C 度为50%, 则可得到 1000 A,C A ⇒ C (50%, 66.6%) 4000 A,D C ⇒ A (50%, 100%) 5000 B,E,F 关联规则挖掘:路线图 布尔vs. 定量关联(基于 处理数据的类型) buys(x, “SQLServer”) ^ buys(x, “DMBook”) → buys(x, “DBMiner”) [0.2%, 60%] age(x, “30..39”) ^ income(x, “42..48K”) → buys(x, “PC”) [1%, 75%] 单维vs. 多维关联(例子同上) 单层vs. 多层分析 那个品种牌子的啤酒与那个牌子的尿布有关系? 各种扩展 相关性、因果分析 关联并不一定意味着相关或因果 最大模式和闭合相集 添加约束 如, 哪些“小东西”的销售促发了“大家伙”的买卖? 第6章:从大数据库中挖掘关联
显示全部
相似文档