数据仓库基础知识.pdf
数据仓库基础知识
1、什么是数据仓库?
权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、
反映历史变化的数据集合,用于支持管理决策。
1)数据仓库是用于支持决策、面向分析型数据处理;
2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包
含历史数据,而且存放在数据仓库中的数据一般不再修改。
面对大数据的多样性,在存储和处理这些大数据时,我们就必须
要知道两个重要的技术。
分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统
的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:
2、数据仓库和数据库的区别?从目标、用途、设计来说。
1)数据库是面向事务处理的,数据是由日常的业务产生的,并
且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一
定的规则转换得到的,用于分析和决策;
2)数据库一般用来存储当前事务性数据,如交易数据;数据仓
库一般存储的是历史数据;
3)数据库设计一般符合三范式,有最大的精确度和最小的冗余
度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查
询。
3、如何构建数据仓库?
数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓
库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、
可扩展性、要考虑技术可靠性和实现成本。
1)调研:业务调研、需求调研、数据调研
2)划分主题域:通过业务调研、需求调研、数据调研最终确定
主题域
3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩
阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交
叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)
4)设计数仓分层架构5)模型落地6)数据治理
4、什么是数据中台?
数据中台是通过数据技术,对海量数据进行采集、计算、存储、
加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准
数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他
是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助
的成本,也是差异化竞争的优势所在。数据中台是通过整合公司开发
工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数
据服务化和数据价值化。数据中台更加侧重于“复用”和“业务”。
5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么?
1)基础能力上的区别
数据平台:提供的是计算和存储能力数据仓库:利用数据平台提
供的计算和存储能力,在一套方法论的指导下建设的一整套的数据表
数据中台:包含了数据平台和数据仓库的所有内容,将其打包,并且
以更加整合以及更加产品化的方式对外提供服务和价值数据湖:一个
存储企业各种各样原始数据的大型仓库,包括结构化和非结构化数
据,其中湖里的数据可供存取、处理、分析和传输
2)业务能力上的区别
数据平台:为业务提供数据主要方式是提供数据集数据仓库:相
对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务
提供服务的方式主要是分析报表数据中台:企业级的逻辑概念,体现
企业数据产生价值的能力,为业务提供服务的主要方式是数据API数
据湖:数据仓库的数据来源总的来说,数据中台距离业务更近,数据
复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库
和数据平台的基础上,将数据生产为一个个数据API服务,以更高效
的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,
是加速企业从数据到业务价值的过程的中间层。
6、大数据有哪些相关的系统?
数仓设计中心:按照主题域、业务过程,分层的设计方式,以维
度建模作为基本理论依据,按照维度、度量设计模型,确保模型、字
段有统一的命名规范数据资产中心:梳理数据资产,基于数据血缘,
数据的访问热度,做成本的治理数据质量中心:通过丰富的稽查监控
系统,对数据进行事后校验,确保问题数据第一时间被发现,避免下
游的无效计算,分析数据的影响范围。指标系统:管理指标的业务口
径、计算逻辑和数据来源,通过流程化的方式,建立从指标需求、指
标开发、指标发布的全套协作流程数据地图:提供元数据的快速索引,
数据字典、数据血缘、数据特征信息的查询,相当于元数据中心的门
户。
7、如何建设数据中台?
数据中台在企业落地实践时,结合技术、产品、