文档详情

第二讲(数据仓库、数据挖掘OLAP技术与多维数据模型).ppt

发布:2018-06-29约1.39万字共55页下载文档
文本预览下载声明
三种数据仓库模型 企业仓库 搜集关于跨越整个组织的主题的所有信息 数据集市 企业范围数据的一个子集,对于特定的客户是有用的。其范围限定于选定的主题,比如一个商场的数据集市 独立的数据集市 VS. 非独立的数据集市(数据来自于企业数据仓库) 虚拟仓库 看成是异种数据库的集成,操作数据库上的一系列视图 将一小部分常用数据库物化,并且只有一些可能的汇总视图被物化 数据仓库开发——一个推荐的方法 以递增进化方式实现数据仓库 定义高层数据模型 数据集市 数据集市 分布式数据集市 多层数据仓库 企业数据仓库 模型提炼 模型提炼 OLAP服务器类型 关系OLAP服务器(ROLAP) 使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用OLAP中间件支持其余部分 ROLAP包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务 较大的可扩展性 多维OLAP服务器(MOLAP) 基于数组的多维存储引擎(稀疏矩阵技术) 能对预计算的汇总数据快速索引 混合OLAP服务器(HOLAP) 结合上述两种服务器技术的优点,其有更大的使用灵活性 特殊的SQL服务器 在星型和雪花模型上支持SQL查询 数据仓库的实现 难点 海量数据 快速反应 OLAP服务器要在几秒内响应决策支持查询 方法 高效的数据立方体计算技术 高效的存取方法 高效的查询处理技术 数据立方体的有效计算 数据立方体可以被看成是一个方体的格 最底层的方体是基本方体 最顶端的方体(顶点)只包含一个单元的值 一个n维的数据立方体,每维L层,可能产生的方体总数是多少? 数据立方体的物化 预先计算所有方体(全物化),不预先计算任何“非基本”方体(不物化),有选择的计算一个所有方体的适当子集(部分物化) 确定物化哪些方体 考虑一定工作负荷下的查询、它们的频率和它们的开销等等 方体的操作 DMQL中的方体定义和计算 define cube sales[item, city, year]: sum(sales_in_dollars) compute cube sales (compute cube方体的计算指令,即方体的物化) 上述的compute cube子句可以转化为一个类似于SQL的语句(加和) SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year 需要计算以下的group by子句(计算总数) (item, city, year):基本方体,基层原始数据 (item, city), (item year), (city, year) (item), (city), (year) () :顶点方体,总汇总数据 (item) (city) () (year) (city, item) (city, year) (item, year) (city, item, year) 方体计算:关系型OLAP的方法(ROLAP)计算方法 方体计算的有效方法 基于ROLAP的方体算法(Agarwal et al) 基于数组的算法(MOLAP)(Zhao et al) 自底向上的计算方法(Beyer Ramarkrishnan) H-cubing技术 (Han, Pei, Dong Wang:SIGMOD) 基于ROLAP的方体计算中,实际应用中很少用group by,效率低。而是利用关系数据库的一些固有的索引、分区等概念提高计算效率,具体而言: 将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类 在某些子聚集上分组,作为“部分分组步骤”。 可以由以前计算的聚集计算新的聚集,而不必从基本事实表计算 方体计算的多路数组聚集方法(1) 将数组分成块(chunk,一个可以装入内存的小子方) 压缩的稀疏数组寻址:(chunk_id, offset) 通过访问立方体单元,计算聚集。可以优化访问单元组的次序,使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O的开销。 A(month) B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C(item) B(city) 44 28 56 40 24 52 36 20 60 哪个是多路数组聚集的最佳遍历次序? 方体计算的多路数组聚集方法(2) A(month) 40 B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 64 63 62 61 48 47 46 45 a1 a0 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C(item) 4
显示全部
相似文档