文档详情

人工智能之数据挖掘.ppt

发布:2017-05-24约3.45千字共25页下载文档
文本预览下载声明
数据仓库设计(续) 建立和使用数据仓库是一项复杂的任务, 需要商务技巧、技术技巧和程序管理技巧 商务技巧 建立数据仓库涉及 理解系统如何存储和管理数据; 如何构造一个提取程序, 将数据由操作数据库转换到数据仓库; 如何构造一个仓库刷新软件, 合理地保持数据仓库中的数据相对于操作数据库中数据的当前性 使用数据仓库涉及 理解它所包含的数据的含义 理解商务需求并将它转换成数据仓库查询 * 数据仓库与OLAP技术 * 数据仓库设计(续) 技术技巧 数据分析需要 理解如何由定量信息作出估价 如何根据数据仓库中的历史信息得到的结论推导事实 这些技巧包括发现模式和趋势, 根据历史推断趋势和发现异常或模式漂移, 并根据这种分析提出相应的管理建议的能力 程序管理技巧 涉及与许多技术人员、经销商和最终用户交往, 以便以及时和合算的方式提交结果 * 数据仓库与OLAP技术 * 数据仓库设计(续) 数据仓库可以使用自顶向下方法、自底向上方法, 或二者结合的混合方法设计 自顶向下方法 由总体设计和规划开始 当技术成熟并且已经掌握, 对必须解决的商务问题清楚并且已经很好理解时, 这种方法是有用的 自底向上方法 以实验和原型开始 在商务建模和技术开发的早期阶段, 这种方法是有用的 混合方法 既能利用自顶向下方法的规划和战略特点, 又能保持象自底向上方法一样快速实现和立即应用 * 数据仓库与OLAP技术 * 数据仓库设计(续) 典型的数据仓库设计过程 选取待建模的商务处理 例如, 订单、发票、出货、库存、记帐管理、销售或一般分类帐 选用数据仓库模型 vs. 选择数据集市 选取商务处理的粒度 该粒度是基本的, 在事实表中是数据的原子级 例如, 单个事务、一天的快照等 选取用于每个事实表记录的维 典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态 选取将安放在事实表中的度量 典型的度量是可加的数值量, 如dollars_sold和units_sold * 数据仓库与OLAP技术 * * * * * * * * * * * * * * * * * * 人工智能 ——数据挖掘之数据仓库 目 录 一、什么是数据挖掘? 二、什么是数据仓库?数据仓库的特征。 三、数据仓库设计 四、从数据仓库到数据挖掘 * 数据挖掘:概念与技术 * 什么是数据挖掘 数据挖掘 (数据库中知识发现): 从大型数据库中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式 数据挖掘: 用词不当? 其它名称: 数据库中知识发现 (Knowledge discovery in databases, KDD) 知识提取 (knowledge extraction) 数据/模式分析 (data/pattern analysis) 数据考古 (data archeology) 数据捕捞 (data dredging) 信息收获 (information harvesting) 商务智能 (business intelligence), 等. 什么不是数据挖掘? (演绎) 查询处理. 专家系统 或小型 机器学习(ML)/统计程序 * 数据挖掘:概念与技术 * 数据挖掘:在数据中发现知识 /模式 * 数据挖掘:概念与技术 * 数据挖掘过程 数据库 文件 数据仓库 清理与集成 选择与变换 数据挖掘 模式评估 知识 什么是数据仓库 用不同的方法定义, 但不是严格的 是一个决策支持数据库, 它与组织的操作数据库分离地维护 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数据分析提供坚实的平台, 支持信息处理. 数据仓库是一种信息环境, 它将各种应用系统集成在一起, 提供了企业信息的完整概括, 为灵活的、交互的数据分析提供坚实的平台, 为决策提供支持. W. H. Inmon的定义: 数据仓库是 面向主题的(subject-oriented), 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程 建立数据仓库(Data warehousing): 构造和使用数据仓库的过程 * 数据仓库与OLAP技术 * 数据仓库的特征 面向主题的 (subject-oriented) 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日常操作和事务处理. 数据仓库排除对于决策无用的数据, 提供特定主题的简明视图 集成的 (integrated) 通常, 构造数据仓库是将多个异种数据源, 如关系数据库、一般文件和联机事务处理记录, 集成在一起 使用数据清理和数据集成技术, 确保命名约定、编关键字结构、属性度量等的一致性
显示全部
相似文档