DB2_数据仓库集群设计课件.ppt
文本预览下载声明
DB2数据仓库集群设计 日程 不同的并行类型 硬件 软件 DB2 DPF 并行架构 数据库分区-Database partitioning 服务器分区-Server partitioning IO 并行 物理数据库设计 分区键-Partitioning keys 对性能和扩展性的影响 应用并行 何时分区? 目标 通过本文介绍,您将能够: 理解不同种类的并行架构 理解DB2 MPP并行架构的原理 理解DB2是如何处理并行SQL的 理解并行机制是怎样影响BI架构设计的 知道何时需要进行数据库分区 了解IBM BCU 从单处理器到大规模并行处理 概念和术语 非共享体系架构-Shared-nothing 软件概念:应用(数据库/ETL等)并行处理单一任务的能力,每个子任务处理一部分数据 大规模并行处理 (MPP) 硬件概念: 一组服务器/节点,通过高速网络通讯,运行非共享应用(数据库、ETL等) 群集 大规模并行计算、各节点共享磁盘子系统;当一个节点宕掉,另一个能访问相同物理磁盘的节点将会接管失效节点的工作负荷。 扩展性 架构扩展能力: 垂直扩展 – 通过增加单节点组件(CPU内存等)来扩展 水平扩展– 通过增加更多的节点来扩展 线性 线性扩展 – 效率指标,增加资源将线性提升性能 DB2 – 非共享体系架构 DB2 数据库拓朴 数据库分区与节点关系 DPF 处理模型 I/O 层次 页面-Page 读写的基本单位 扩展块-Extent 分配的基本单位 页面数可定制 能且只能用于存放数据库的一个对象(表、索引) 通常为大的块I/O大小 容器-Container DB2从中分配扩展块 DMS文件 (‘/hello.dat) DMS 裸设备 (/dev/rhello) SMS:目录 (‘/hello’) 表空间-Tablespace 一组容器 总结: 并行 I/O 创建单节点Partition Group create database partition group sdpg on dbpartitionnums(0); create database partition group pdpg on dbpartitionnums(1 TO 8); 创建跨节点表空间 create tablespace ts_demo in database partition group pdpg pagesize 4k managed by database using ( file /database/zhouxzh/tbs_demo $N 20M) extentsize 16 prefetchsize automatic bufferpool bp4k autoresize yes no file system caching; DB2 表定义 –从逻辑到物理 Physical Data Model CREATE TABLE customer ( cust_id INTEGER NOT NULL, tel CHAR(20), zip CHAR(5) NOT NULL, birth_date DATE NOT NULL, PRIMARY KEY(cust_id) DISTRIBUTE BY HASH(cust_id)) COMPRESS YES IN data_tbs; CREATE TABLE sales ( cust_id INTEGER NOT NULL REFERENCES customer(cust_id),? Foreign key (确保存在) sales_date DATE NOT NULL, region CHAR(5) NOT NULL, prod_id INTEGER NOT NULL PRIMARY KEY(cust_id,sales_date)) ? Primary key (确保唯一) DISTRIBUTE BY HASH(cust_id) ? Partitionning key (分散数据) IN data_tbs; CREATE INDEX sales_cust ON sales (cust_id); ? Non unique index (加速查询) 使用哈希(Hashing)和分区位图( Partition Map)自动分布数据 数据分区 –目标 1: 保证数据跨所有分区平均分布 选择分区键 值多的字段 数据分布均匀 值
显示全部