文档详情

数据仓库基础知识.pdf

发布:2024-06-11约6.5千字共11页下载文档
文本预览下载声明

数据仓库基础知识

1、什么是数据仓库?

权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、

反映历史变化的数据集合,用于支持管理决策。

1)数据仓库是用于支持决策、面向分析型数据处理;

2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包

含历史数据,而且存放在数据仓库中的数据一般不再修改。

面对大数据的多样性,在存储和处理这些大数据时,我们就必须

要知道两个重要的技术。

分别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统

的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:

2、数据仓库和数据库的区别?从目标、用途、设计来说。

1)数据库是面向事务处理的,数据是由日常的业务产生的,并

且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一

定的规则转换得到的,用于分析和决策;

2)数据库一般用来存储当前事务性数据,如交易数据;数据仓

库一般存储的是历史数据;

3)数据库设计一般符合三范式,有最大的精确度和最小的冗余

度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查

询。

3、如何构建数据仓库?

数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓

库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、

可扩展性、要考虑技术可靠性和实现成本。

1)调研:业务调研、需求调研、数据调研

2)划分主题域:通过业务调研、需求调研、数据调研最终确定

主题域

3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩

阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交

叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)

4)设计数仓分层架构5)模型落地6)数据治理

4、什么是数据中台?

数据中台是通过数据技术,对海量数据进行采集、计算、存储、

加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准

数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他

是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助

的成本,也是差异化竞争的优势所在。数据中台是通过整合公司开发

工具、打通全域数据、让数据持续为业务赋能,实现数据平台化、数

据服务化和数据价值化。数据中台更加侧重于“复用”和“业务”。

5、数据中台、数据仓库、大数据平台、数据湖的关键区别是什么?

1)基础能力上的区别

数据平台:提供的是计算和存储能力数据仓库:利用数据平台提

供的计算和存储能力,在一套方法论的指导下建设的一整套的数据表

数据中台:包含了数据平台和数据仓库的所有内容,将其打包,并且

以更加整合以及更加产品化的方式对外提供服务和价值数据湖:一个

存储企业各种各样原始数据的大型仓库,包括结构化和非结构化数

据,其中湖里的数据可供存取、处理、分析和传输

2)业务能力上的区别

数据平台:为业务提供数据主要方式是提供数据集数据仓库:相

对具体的功能概念是存储和管理一个或多个主题数据的集合,为业务

提供服务的方式主要是分析报表数据中台:企业级的逻辑概念,体现

企业数据产生价值的能力,为业务提供服务的主要方式是数据API数

据湖:数据仓库的数据来源总的来说,数据中台距离业务更近,数据

复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库

和数据平台的基础上,将数据生产为一个个数据API服务,以更高效

的方式提供给业务。数据中台可以建立在数据仓库和数据平台之上,

是加速企业从数据到业务价值的过程的中间层。

6、大数据有哪些相关的系统?

数仓设计中心:按照主题域、业务过程,分层的设计方式,以维

度建模作为基本理论依据,按照维度、度量设计模型,确保模型、字

段有统一的命名规范数据资产中心:梳理数据资产,基于数据血缘,

数据的访问热度,做成本的治理数据质量中心:通过丰富的稽查监控

系统,对数据进行事后校验,确保问题数据第一时间被发现,避免下

游的无效计算,分析数据的影响范围。指标系统:管理指标的业务口

径、计算逻辑和数据来源,通过流程化的方式,建立从指标需求、指

标开发、指标发布的全套协作流程数据地图:提供元数据的快速索引,

数据字典、数据血缘、数据特征信息的查询,相当于元数据中心的门

户。

7、如何建设数据中台?

数据中台在企业落地实践时,结合技术、产品、

显示全部
相似文档