文档详情

大数据与数据挖掘之数据仓库.pptx

发布:2021-07-26约2.71千字共47页下载文档
文本预览下载声明
大数据与数据挖掘-数据仓库;大数据分析;大数据分析;大数据分析;;大数据分析;大数据分析;大数据分析;OLAP的特性: 快速性:系统能在数秒内对用户的多数分析要求做出反应 可分析性:用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告 多维性:提供对数据分析的多维视图和分析 信息性:能及时获得信息,并且管理大容量信息;;;产品名称; 查询时除了查询销售量外,有时还查询涉及多个数据项求和,若采取临时进行汇总计算,会使查询效率大大降低。 ; 多维数据库的OLAP,多维数据库(MDDB)是以多维方式组织数据,即以维作为坐标系,采用类似于数组形式存储数据。多维数据库中的元素具有形同类型的数值,如销售量。 例,多维数据库存储数据如表所示:; ;2021/7/18; 比较发现多维数据比关系数据库表达的关系更加清晰明了,而且所消耗的存贮容量更少,查询处理也格外简单,若要查某地区的销售量,只要按列统计一下即可,若要查某个产品的销售量,则只要按行统计即可。;多维数据的表示方法;星型模式的关系数据库表示;雪花模式在关系数据库中的表示;大数据分析;在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作就称为切片。也即:如有(维1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维n,观察变量)在维i上的一个切片。这种切片的数量完全取决于维i上的维成员个数,如果维数越多,可以做的切片也就越多。 例:对时间维的切片操作,它对中心数据立方体使用条件:时间=“Q1”选择销售数据。;; 在切片的概念中,有以下两个重要的概念必须掌握: 多维数据集的切片数量多少是由所选定的那个维的维成员数量的多少所决定的。 进行切片操作的目的是使人们能够更好地了解多维数据集,通过切片的操作可以降低多维数数据集的维度,可使人们将注意力集中在较少的维度下进行观察。;在一个多维数据集中对两个(及其以上的)维选定维成员的操作可以称为切块。即在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块。显然,当i=k时,切块操作就退化成切片操作。 例:涉及三个维的切块。条件为:(地点=“南京” OR“北京”)AND(时间=“Q1”OR“Q2”)AND(类型=“家庭娱乐”OR“计算机”);; 在对数据仓库的多维数据集进行显示操作过程中,用户常常希望能将多维数据集改变其显示的维方向,也就是说进行多维数据集的旋转操作。 旋转操作可将多维数据集中的不同维进行交换显示,以使用户更加直观地观察数据集中不同维之间的关系。 例:类型和地区在一个2-D切片上转动。;?;广州; 通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,称为上卷操作。 例:在地区维层次向上攀升,在中心数据立方体执行上卷操作。(这个分层被定义为全序:县城市州或省国家);; 下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 例:沿着年季月天定义的时间维的概念分层向下,在中心数据立方体执行下钻操作的结果。;150;OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。; OLAP提供了分析建模机制,包括推导比率、变差等以及跨越多维计算度量的计算引擎。它能在每一粒度级和在所有维的交叉产生汇总、聚集和分层。OLAP也支持预报、趋势分析和统计分析的函数模型。 在这种意义下,OLAP是一种强有力的数据分析工具。;;用维表来记录多维数据库中的维度,将多维数据立方体的坐标轴上的各个取值记录在一张维表中,这样对于一个n维数据立方体就存在n张维表。;;事实表用来记录多维数据立方体各个维度的交点的度量值。这样,多维数据立方体各个坐标轴上的刻度以及立方体各个交点的取值都被记录下来,因而多维数据立方体的全部信息就被记录下来。多维数据立方体中所有的度量信息均可记录在同一事实表中,因此事实表的体积要比维表大得多。;;;;大数据分析;大数据分析;45;46;9、春去春又回,新桃换旧符。在那桃花盛开的地方,在这醉人芬芳的季节,愿你生活像春天一样阳光,心情像桃花一样美丽,日子像桃子一样甜蜜。7月-217月-21Sunday, July 18, 2021 10、人的志向通常和他们的能力成正比例。03:03:16
显示全部
相似文档