《数据采集与处理技术》课件——第 6 章 数据仓库中的数据集成.pptx
第6章数据仓库中的数据集成
目录6.1数据仓库概念6.2数据集成6.3ETL6.4CDC
6.1数据仓库概念
数据仓库的概念01传统的数据仓库02实时主动数据仓库
数据仓库概念面向主题集成数据仓库AB反映历史变化D相对稳定C数据仓库的数据来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成、统一与综合之后才能进入数据仓库在构建数据仓库时,会每隔一定的时间从数据源抽取数据并加载到数据仓库,可用来进行商务智能分析数据仓库是不可更新的,数据仓库是为决策分析提供数据,所涉及操作主要是数据的查询操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织传统的数据仓库
数据仓库概念1月1日1月31日...分析一个商品在1月内销量变化反映历史变化
数据仓库概念数据库数据仓库数据仓库是面向主题设计的数据库是面向事务的设计数据库一般存储在线交易数据数据仓库存储的一般是历史数据
数据仓库概念图数据仓库体系架构
数据仓库概念不包含当前数据经过处理后加载到数据仓库数据抽取周期为一个月一次、一周一次、或一天一次01实时主动数据仓库02数据仓库传统的数据仓库实时捕获数据源中发生的变化根据预先设置的规则做出战术决策
数据仓库概念图实时主动数据仓库的体系结构实时主动数据仓库
6.2数据集成
数据集成01数据集成方式03数据集成技术02数据分发方式
数据集成方式和数据分发方式数据集成脚本ETL数据的批量加载CDC技术
数据集成方式和数据分发方式数据集成方式数据整合数据联邦数据传播混合方法使数据源中发生的数据变化及时反映到数据仓库中,保证为实时应用提供最新的数据实时主动数据仓库集成方法四种
数据集成方式和数据分发方式数据整合逻辑视图对外界应用屏蔽数据在数据源的分布细节,统一数据访问入口集成整合不同应用都使用的数据采用数据整合的方式进行集成数据目标利用ETL工具把数据源中的数据批量地加载到数据仓库传播消息在企业应用集成解决方案中,不同应用可以传播消息进行交互数据整合数据联邦数据传播混合方式
数据集成方式和数据分发方式数据分发方式010203推(push)和拉(pull)周期和非周期一对一和一对多
数据集成方式和数据分发方式推拉周期非周期一对一一对多数据分发选择拉非周期一对一请求/响应一对多请求/探测式响应周期一对一轮询一对多探测式轮询推非周期一对一-------一对多发布/订阅周期一对一发送电子邮件一对多电子邮件列表不同数据分发方式的组合
数据集成技术脚本ETLEAICD数据集成技术脚本优点使用灵活且比较经济容易着手开发和进行修改绝大部分DBMS可使用脚本缺点耗费开发者的时间和精力不好管理和操作不能满足服务水平协议
数据集成技术ETLETL任务通常都是在“维护时间窗口”进行,数据源默认不会发生变化
数据集成技术EAIEAI解决方案演化成实时数据获取和集成的解决方案,通常和ETL解决方案并存,增强ETL的功能调用应用分发命令和消息实现应用的集成
数据集成技术CDCCDC提供连续变化数据的捕捉和分发能力,且只需要很低的开销和时间延迟(不到1s)能够维护数据事务的一致性OLTP系统数据仓库
数据集成技术属性脚本ETLEAICDC数据量中等很高低高频率间歇性间歇性连续性连续性延迟中到高中到高低低数据集成无无保证保证转换中度高级基本基本处理开销高高中等低表不同数据集成技术的比较
6.3ETL
ETL简介和基本模块ETL工具ETL模式ETL基本模块ETL简介数据集成的关键技术
ETL简介和基本模块ETL简介将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据
ETL简介和基本模块ETL任务通常都是在“维护时间窗口”进行,数据源默认不会发生变化
ETL简介和基本模块3其他类型数据(消息队列)2文件1数据库
ETL简介和基本模块周期性的“拉”模式ETL支持基于数据整合的数据集成以批处理的方式工作“拉”模式采用在线方式工作“推”模式事件驱动的“推”模式
ETL简介和基本模块0102数据转换数据加载数据重构和整合数据内容清洗或集成刷新整个目标数据存储对目标数据存储进行增量更新
ETL简介和基本模块本地数据库和应用接口ODBCJDBCJMS
ETL简介和基本模块从平面文件和关系数据库中捕捉数据→并把这些数据整合到数据仓库中
ETL简介和基本模块遗产数据、应用打包XML文件、WEB日志、EAI源、WEB服务和非结构化数据额外的数据源EAI目标和WEB服务额外的目标用户自定义EXIT、数据剖析和数据质量管理、支持标准编程语言、DBMS引擎开发