数据仓库解决方案概述.ppt
数据抽取、转换、清洗、集成解决的方案手工编程实现使用工具设计和实施PowerMart/PowerCenter开发环境,一系列工具用于设计、执行和维护数据的抽取、转换和装载流程抽取转换引擎(服务器),自动执行集成:PowerMartSourceDatabasesTargetDatabaseDesignerServerManagerRepositoryManagerWarehouseDesignerMappingDesignerTransformationDeveloperSourceAnalyzerRepositoryServerEngineSybaseInformixOracleMicrosoftIBM/UDBODBCDB2SAPPeopleSoftVSAMFlatFilesWebLogsXMLIBMMQGatewaysSybaseInformixOracleMicrosoftODBCIBM/UDBSAPBWPeopleSoftEPMFlatFilesGateways议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具数据存储、管理挑战数据规模查询性能装载速度易于管理存取访问成功的关键快速,高效数据存储技术出色的查询性能-特殊的索引技术,并行查询可伸缩性-GB到TB级易于管理-方便,灵活,GUI存取访问-数据随时可用数据管理解决的方案通用的关系数据库系统专门的数据仓库服务器SybaseIQ专门为数据仓库/数据集市设计的关系型数据库专门针对OLAP/DSS而优化的索引和查询处理技术AdaptiveServerIQ数据存储:AdaptiveServerIQ无处不索引(IndexEVERYWHERE)数据压缩(通常达到原始数据的70-75%)垂直存储技术(VerticalPartitioning)专利的BitWise索引技术跨越Bitmap的限制多种索引类型:FP,LF,HNG,HG低级数的限制从100扩充到1000预连接的索引提供额外的显著提高性能手段(JoinIndex)支持任意设计模式星型、雪花、雪暴、星座模式普通关系模式支持任意加载方式文件、内部数据、外部数据库直接加载开放的接口计算“NY”州A类商店的平均销售额当表的记录数从几万条变为千万和上亿条时,传统RDBMS技术面对的问题:表扫描的性能极端低下冗余设计代价高昂、查询读取的无效字段过多低级数类型数据上索引的失效普通索引加载和空间代价,造成不能任意建造即席查询的SQL顺序对性能有显著影响数值型比较和运算,无恰当手段加速处理传统RDBMS不适合数据仓库IQ的特殊存储方式-垂直存储(按列存储)SybaseIQ:数据是按列存储的,而不是按行存储好处:只存取查询所需的数据数据类型是一致的,因而可以很容易被压缩数据库易于修改和管理SybaseIQ:只读完成查询所涉及到的列计算在纽约的“A”类商店的平均销售额好处:无须使用其他的技术,SybaseIQ就可以减少I/O超过90%IQ的特殊存储方式-垂直存储(按列存储)“HowmanyMALESareNOTINSUREDinCALIFORNIA?GenderMMFMM-800Bytes/Row10MROWSStateNY
CA
CT
MACA-RDBMSInsuredY
Y
NYNM Y CAM N CAF Y NYM N CA1243GenderInsuredState++11011101010110MBits10MBitsx3col/816KPage=235I/Os800Bytesx10M16KPage=500,000I/Os基本上只能使用表扫描查询过程读取了太多的无效数据IQExample:I/O的明显减少IQ的索引特点索引即是数据没有索引和数据的分别任何一列可以建立多个索引系统保证至少会存在一个索引(FP)索引的选择和设计主要基于:数据的级数(离散值的个数)在查询中的使用方式和SQL语句的顺序无关索引的种类FastProjection(FP)数据压缩存储根据数据的特点会自动使用三种方式中的一种L