文档详情

浅谈数据仓库中的元数据的管理技术.docx

发布:2017-03-11约1.13万字共14页下载文档
文本预览下载声明
浅谈数据仓库中的元数据管理技术 孙力君 仇道霞 方峻峰 宋楠山东省烟草公司信息中心摘要:数据仓库是数据库的发展方向之一, 对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。关键词:数据仓库;元数据;   1. 引言  随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。  随着数据库技术尤其是数据仓库技术的发展, 人类能更容易获得自己需要的数据和信息, 由于元数据是数据仓库中非常重要的组成部分, 因此讨论和研究元数据在数据仓库中的作用和应用, 具有非常重要的意义。  元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。  通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。  总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。  2.数据仓库概述  目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1] 之所以要引入数据仓库, 是因为随着信息时代的到来, 如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策, 许多企业都选择了数据仓库, 利用数据仓库可以对各种源数据进行抽取、清理、加工和转换, 再利用联机分析系统(OLAP) 和数据挖掘系统(MM) 提供各种决策信息。对于数据仓库的概念我们可以从两个层次予以,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。  在数据仓库系统的众多组成部分中, 元数据扮演着十分重要的角色, 如何在数据仓库系统中构建元数据库并进行高效的管理, 是构建数据仓库系统首先要考虑的问题。  3.元数据概念  按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员和最终用户非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。  (1)技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:  1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;  2)业务系统、数据仓库和数据集市的体系结构和模式  3)汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;  4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。  (2)业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算
显示全部
相似文档