第2章数据仓库的基本原理.ppt
文本预览下载声明
;数据仓库系统的功能和构成;数据挖掘分析系统/数据展现系统;数据提取
业务数据库中并不是所有的数据都是决策支持所必需的。所以要把必需的那部分提取出来。
例子:某超市确定以分析客户的购买行为为主题建立数据仓库。
需要提取的数据:与客户购买行为相关的
关于员工的数据没有必要提取。;数据清洗
数据不完整性
数据中的错误
数据的不同步
;例子:
客户基本信息表 客户咨询信息表
客户号:100 客户号:100
姓名:张山 姓名:张三
年龄:23 咨询问题:…
两个表中,客户姓名不同。这是常见的错误
;客户基本信息表 客户业务变更信息表
客户号:100 客户号:100
姓名:张山 姓名:张山
年龄:23 业务变更:停机
手机服务状态:正常
由于不同数据库之间的数据刷新不是实时的,所以数据不同步。;数据转化
不同的数据库厂商,提供的数据类型可能不同。
例子:
不同的时间表达方式
2000-2-3 2/3/2000 2000/2/3
不同的坐标系统
WGS84 西安80’3 度带 北京54’3度带
;提取仓库
正是因为业务数据库系统中的数据和数据格式存在不一致的问题。将数据放进数据仓库前要先放进提取仓库,等待清洗和转换。
;提取日志
记录了仓库中数据的来源,数据的转化过程。便于保证和验证数据的质量;数据管理员
不同于数据库管理员或系统管理员。
在数据导入时负责管理数据质量的专业人员。
查阅提取日志,发现数据提取中出现的错误
有时还要检测源于业务系统的错误。
;外部数据源
从系统外部获取的,与分析主题相关的数据。
例子:超市采购部门确定采购货单
既要了解超市内部产品的销售情况,还要了解市场上的信息,后者即为外部数据源。
外部数据源越来越多地采用服务的技术;ArcGis rest 服务
/ArcGIS/rest/services
OGC WMS
OGC WFS;数据仓库存储
多维数据库
关系型数据库
两者的结合
;
数据
数据仓库中的原始数据是由业务系统提取的或外部数据源导入,经过清洗、转化而来。
为了完成OLAP分析和数据挖掘,必需在原始数据基础上增加冗余信息与预运算。
;
元数据
数据仓库的元数据是主要包含两类数据:
为了从操作型环境向数据仓库环境转换而建立的元数据,包含所有源数据项的名称、属性及其转化。
用来在多维商业模型和前端工具之间建立映射的,叫做决策支持系统元数据。具体包括数据仓库中信息的种类、存储位置、存储格式;信息之间的关系、信息和业务的关系、数据使用的业务规则;数据模型;数据模型和数据仓库的关系。
;
元数据
;数据集市
数据仓库中的信息按照不同的主题来组织。
举例:市场发展趋势的分析主题,由市场部门的人使用。
为避免在全部的巨量数组中检索,把某主题的数据逻辑上或物理上分离出来,可称为数据集市。
数据集市面向某个部门。;数据集市;数据的安全性
本地数据的安全性:数据加密、访问权限设置。
网络访问数据库:网络安全机制、网络传输中的数据加密和鉴权、防止监听和口令泄漏。;数据处理的并发性
加锁解锁实现同步与互斥
多线程,多进程技术,磁盘的存储优化,合适的索引提高并发访问的效率。
事务处理的可靠性
原子操作不能分开执行,如果某步骤失败,系统必须返回并更改操作。;数据的一致性和完整性
数据库设计、应用的开发、系统的维护方面共同努力。;操作型数据的特点 分析型数据的特点
细节的 综合的、经过提炼的
在存取的瞬间是准确的 代表过去的数据
可更新 不更新
操作需求通常事先可知 分析需求通常不知道
生命周期符合SDLC 生命周期不同于SDLC
对性能(如操作时延)要求高 对性能要
显示全部