10 一种数据清洗方案的设计.pdf
文本预览下载声明
一种数据清洗方案的设计
一种数据清洗方案的设计
吕小红1+
1(重庆市电力公司检修分公司,重庆市 400039)
摘要:数据是企业信息化建设的生命线,―三分技术,七 前是一件非常困难的事情。好的脏数据处理方
分管理,十二分数据‖ 。数据清洗是提高数据集成数据质 案,可以起到事半功倍的效果。
量的一个重要手段。为有效保障应用集中、信息共享和 本文设计了脏数据的处理方案,目的就是提
消除―信息孤岛‖,本文从信息化标准体系入手,设计了一 高脏数据的处理效率和统一脏数据处理模式。
种数据清洗方案,将数据转换和数据清洗两者结合起来,
强化清洗过程的描述能力,对数据中心的脏数据进行处 关键定义
理,从而提高脏数据的处理效率和统一脏数据处理模式,
数据中心是指企业的业务系统与数据资源
并整体提升企业信息化建设的水平。
进行集中、集成、共享、分析的场地、工具、流
程等的有机组合:数据仓库及其分析应用是数据
关键词:脏数据 数据清洗 数据中心 重庆电力
中心的一个主要应用;数据中心包括了操作型数
引言 据和分析型数据以及数据与数据的集成/整合流
程;数据中心提供所有应用系统(包括集中的业
―十一五‖ 以来,重庆电力信息化坚持以业务 务应用系统、业务应用系统数据库、数据交换平
需求为导向,以建设ERP 系统平台为主线,以业 台、应用集成平台、数据仓库)的运营场所;数
务管理信息化为重点,以标准化建设为原则,快 据中心也是容纳用以支持应用系统运行的基础
速推进SG186 工程建设。信息化工作在信息网络 设施(包括服务器、网络、存储设备)的物理地
[2]
基础设施建设、集中式信息系统开发、信息安全 点 。
体系架构和信息化管理等方面全面提高。 狭义的数据中心是指数据仓库和建立在数
重庆电力依托企业门户和数据中心的搭建, 据仓库之上的决策分析应用,具体包括:数据源
实现了跨业务的数据集成,资源配置趋于合理, 分析,数据的 ETL(Extraction Transformation
信息―孤岛‖现象逐步减少。通过ERP 、生产管理、 Loading) ,ODS(Operational Data Store)数据库,
调度自动化、营销管理、电力市场交易运营、安 数据仓库,数据集市,分析应用和元数据管理等。
全监督管理、协同办公、应急指挥、农电业务应 脏数据是指源系统中的数据不在给定的范
用、招投标管理、数字档案馆、国际合作、纪检 围内或对于实际业务毫无意义,或是数据格式非
监察、审计、法律事务等系统的建设,统一管理 法,以及在源系统中存在不规范的编码和含糊的
[3]
模式的业务平台基本建成。 业务逻辑的数据 。在本文中脏数据特指源业务
但是,各业务信息系统缺乏统一的数据标准 系统不规范编码的数据。
规范。企业的资源管理出现了信息交叠和信息资
源
显示全部