数据仓库的概念和体系结构综述.pptx
2024/6/4星期二;1.1数据仓库的概念、特点与构成;1.1数据仓库的概念、特点与构成;;数据库与数据仓库的比较;1.1数据仓库的概念、特点与构成;1.2数据挖掘的概念与措施;1.2数据挖掘的概念与措施;1.2数据挖掘的概念与措施;1.3数据仓库的技术、措施与产品;OLAP技术的有关概念:多维数据集、维度、数据立方体、度量值和多维分析;;数据仓库是用于决策支持的,管理人员在进行决策分析时,常常需要选择一种对决策支持活动有重要影响的原因去进行决策分析,这些决策原因就构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。
维度是数据仓库中识别数据的索引。
维度具有层次性。
可以根据数据的组织层次进行“上卷”或“下钻”,理解详细信息。;3.数据立方体;4.度量值;5.多维分析;(1)多维的切片
在多维分析过程中,假如对多维数据集的某个维选定一维组员,这种选择操作,就可以称之为切片。
有多维数据集(维1,维2,……,维i,……,维n,观测变量),假如确定了某个维组员维i的值,则称:在维i上的一种切片为(维1,维2,……,维i组员,……,维n,观测变量)。
一种多维数组的切片最终是由该数组中除切片所在平面之外的其他组员值确定的。
维是观测数据的角度,切片的作用或成果是舍弃某些观测角度,以便集中观测该维的数据。;产品
北京
上海 化妆品
江苏 玩具
服装
电器
1234时间(月);(2)多维的切块
与切片类似,假如在一种多维数据集上对两个及其以上的维选定维组员的操作称为切块。
如有多维数据集(维1,维2,……,维i,……,维k,……,维n,观测变量),对维i,……,维k,选定了维组员,那么(维1,维2,……,维i组员,……,维k组员,……,维n,观测变量)就是多维数据集(维1,维2,……,维i,……,???k,……,维n,观测变量)在维i,……,维k上的一种切块。;(3)旋转
变化多维数据集显示的维方向。
旋转前的维方向;旋转后的维方向(不一样维度间的旋转操作);旋转后的维方向(维度层次上的旋转操作);(4)其他OLAP操作
维度是有层次性的,如时间维也许由:年、季、月、日构成,维度的层次反应了数据的综合程度。
维度层次越高、代表的数据综合度越高,数据量越少。
维度层次越低、代表的数据综合度越低,细节越充足,数据量越多。
有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。;“上卷”是指沿某一种维的概念分层向上归约;
下钻”是上卷的逆向操作,它是沿某一种维的概念分层向下或引入新的维来实现;
“钻过”是指对多种事实表进行查询;
“钻透”是指对立方体操作时,运用数据库关系,钻透立方体的底层,进入后端的关系表。;OLAP的其他操作尚有登记表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等记录计算。;OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP;1. ROLAP体系构造
OLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择地定义一批实视图作为表也存储在关系数据库中。不必要将每一种sql查询都作为实视图保留,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。;2. MOLAP体系构造
将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的构造。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储构造,从物理层实现起,因此又称为物理OLAP(physicalolap)。;3. HOLAP体系构造
由于molap和rolap有着各自的长处和缺陷,且它们的构造迥然不一样,这给分析人员设计olap构造提出了难题。