数据仓库及数据挖掘必考点.pdf
百学须先立志。——朱熹
第一章
1、数据库房:是一个面向主题的、集成的、相对稳固的、反应历史变化的数据
会合。
构成:数据库房数据库,数据抽取工具,元数据,接见工具,数据市集,数
据库房管理,信息公布系统;
2、元数据:技术元数据
业务元数据。
3、数据办理:联机事务办理(OLTP)
联机剖析办理。(OLAP)
4、多维剖析采纳:切片、切块、钻取和旋转等各样剖析动作。
5、ROLAP:关系数据库
MOLAP:多维数据结构组织的OLAP实现。
HOLAP:混淆数据组织
6、数据库房开发过程:数据抽取、数据储存与管理、数据表现;
7、数据库房系统的系统结构依据应用需求的不一样:
两层架构,
独立型数据市集,
依靠型数据市集和操作型数据储存,
逻辑型数据市集和及时数据库房
8、操作型数据储存:是一个集成的、面向主题的、可更新的、目前值的、公司
级的、详尽的数据库,也叫营运数据储存。
9、“及时数据库房”:靠近及时的速度互换数据和业务规则。
10、一个典型的数据库房系统的构成?P12
数据源、数据储存与管理、OLAP服务器、前端工具与应用
第二章
1、调解数据:是储存在公司级数据库房和操作型数据储存中的数据。
2、抽取、变换、加载(ETL)目的:是为决议支持应用供给一个单调的、威望数
据源。
所以,我们要求ETL过程产生的数据(即调解数据层)是详尽的、历史的、规范
的、可理解的、即时的和质量可控制的。
3、数据抽取:从源文件和源数据库中获得有关数据用于填凑数据库房;
两个常有种类
静态抽取用于:最先填凑数据库房;
增量抽取用于:数据库房的保护;
4、数据冲洗:
使用模式辨别和其余技术
将原始数据变换和移到数据库房从前
升级数据质量的技术;
5、数据变换:把数据从源操作业务系统的格式变换到公司数据库房的数据格式;
6、粒度越小,细节程度越高,综合程度越低,回答查问的种类越多。
7、多维数据建模:以维度为中心、多个角度剖析有关数据的建模。
存在形式:星型、雪花型、事实星座模式
8、星型模式能够从必定程度上提升查问效率。由于星型模式中数据的组织已经
1/8
百学须先立志。——朱熹
经过预办理,主要数据都在宏大的事实表中。
9、维度表一般由主键、分类层次和描绘属性构成。对于主键能够选择两种方式:
一种是采纳自然键,另一种是采纳代理键。
10、雪花型模式是对星型模式维表的进一步层次化和规范化来除去冗余的数据。
11、数据库房中存在不一样综合级其余数据。一般把数据分红4个级别:初期细节
级、目前细节级、轻度综合级和高度综合级。
12、简述数据库房ETL软件的主要功能和对产生数据的目标要求。P30
ETL软件的