第1章数据仓库概述讲述.pptx
文本预览下载声明
数据仓库与数据挖掘
原理及实践
第1章 数据仓库概述
1.1 数据仓库及其历史
1.2 数据仓库系统结构
1.3 数据仓库系统开发工具
1.4 数据仓库与操作型数据库的关系
1.5 商务智能与数据仓库的关系
1.1 数据仓库及其历史
20世纪60年代出现了数据库的概念,确立了数据库系统的许多概念、方法和技术。
70年代由E.F.Codd提出了数据库的关系理模型,开创了数据库关系方法和关系数据理论的研究,为关系数据库技术奠定了理论基础。
80年代出现成熟的关系数据库管理系统(DBMS)。
90年代以后进入数据处理大发展时期,各种数据模型、数据库新技术层出不穷地涌现,如数据仓库和数据挖掘、商务智能、多媒体数据库和Web数据库等。
1.1.1 数据库技术的发展
1.1.2 什么是数据仓库
1. 数据仓库的定义
W.H.Inmon:数据仓库是:
一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。
2. 数据仓库的特征
◎ 面向主题
主题是指用户使用数据仓库进行决策时所关心的重点领域,也就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。
面向主题组织的数据具有以下特点:
各个主题有完整、一致的内容以便在此基础上作分析处理。
主题之间有重迭的内容,反映主题间的联系。重迭是逻辑上的,不是物理上的。
各主题的综合方式存在不同。
主题域应该具有独立性(数据是否属于该主题有明确的界限)和完备性(对该主题进行分析所涉及的内容均要在主题域内)。
◎ 集成
数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、转换、综合等工作。
◎ 稳定性即非易失的
操作型数据库系统中一般只存储短期数据,因此其数据是不稳定的,它记录的是系统中数据变化的瞬态。
数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。
◎ 随时间而变化即时变的
数据仓库大多关注的是历史数据,其中数据是批量载入的,即定期从操作型应用系统中接收新的数据内容,这使得数据仓库中的数据总是拥有时间维度。
3. 数据仓库的历史
1988年,IBM公司第一次提出了信息仓库(Information Warehouse)的概念,数据仓库初具雏形。
1991年,W.H.Inmon出版了《Building Data Warehouse》一书。W.H.Inmon主张建立数据仓库时采用自上而下方式,以第3范式进行数据仓库模型设计。
1993年,R.Kimball(金博尔)出版了《The DataWarehouse Toolkit》一书,认同了比尔恩门对于数据仓库的定义,但对具体的构建方法做了更进一步的研究。R.Kimball主张自下而上的方式,力推数据集市建设。
1996年,加拿大的IDC公司调查了62家实现数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益、进行数据仓库项目开发的公司在平均2.72年内的投资回报率为321%。
到如今,数据仓库已成为商务智能由数据到知识,由知识转化为利润的基础和核心技术。
1.2 数据仓库系统结构
1.2.1 数据仓库系统的组成
数据仓库系统通常指一个数据库环境,而不是指一件产品。
是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
1. 数据仓库
把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库内。
其功能包括:删除对决策应用没有意义的数据,转换到统一的数据名称和定义,计算统计和衍生数据,填补缺失数据,统一不同的数据定义方式。
2. 抽取工具
是关于数据的数据,在数据仓库中元数据位于数据仓库的上层,是描述数据仓库内数据的结构、位置和建立方法的数据。
通过元数据进行数据仓库的管理和通过元数据来使用数据仓库。
3. 元数据
数据集市是在构建数据仓库的时候经常用到的一个词汇。
数据集市面向企业中的某个部门(或某个主题)是从数据仓库中划分出来的,这种划分可以是逻辑上的,也可以是物理上的。
数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其目的是减少数据处理量,使信息的利用更加快捷和灵活。
4. 数据集市
OLAP服务指的是对存储在数据仓库中的数据提供分析的一种软件,它能快速提供复杂数据查询和聚集,并帮助用户分析多维数据中的各维情况。
5. OLAP服务
为用户产生的各种数据分析和汇总报表,以及数据挖掘结果。
6. 数据报
显示全部