文档详情

分布式并行数据库集群在海量数据处理上的应用.pdf

发布:2019-02-02约3.86万字共53页下载文档
文本预览下载声明
Insert Picture Here 分布式并行数据库集群在海量数据 处理上的应用 武新 - 南大通用数据技术有限公司 目 录 1 – 列存储 vs 行存储数据库性能特征分析 2 – GBase MPP并行数据库集群 3 – 海量数据统计、分析应用案例 4 – 总结 QA GBase 8a 分析型数据库产品形态 • GBase 8a 列存储数据库简介 • GBase 8a是南大通用公司面向海量数据分析型应用领域,以独特的列存 储、高效压缩、智能索引、并行架构等技术为基础,自主研发的一款极 高性能关系型数据库产品。具有满足各个数据密集型行业日益增大的数 据分析,数据挖掘,数据备份和即席查询的需求。 • GBase 8a Cluster 基于MPP的SN并行数据库集群简介 • GBase 8a Cluster是在GBase 8a列存储数据库基础上开发的,基于现代 云计算理念和shared nothing架构的并行数据库集群。以其独特的偏平 架构,高可用性和动态扩展能力,为超大规模数据管理提供一个高性价 比的通用平台。 架构特征 应用程序 SQL Interconnect 数据库节点 .. 无Master,节点对等的扁平架构。高性能,高密度节点。完全并行 的MPP架构,在线节点动态伸缩。多副本数据,透明高可用。 数据分发节点 外部数据来源 ftp, nfs etc 数据库系统一直面临的性能瓶颈问题 数据库性能优化的 核心思想是提升查询SQL的I/O效率 被动优化手段 – 硬件改进 1 - I/O 2 – 索引 效率 1. 系统扩容 怪圈 2. 系统升级、替换 3 – 性能 系统性能提升有限 与优化 的矛盾 主动优化手段 – 提升数据库效率 1. 修改数据模型、修改SQL、影响CB O、产生更有效SQL执行计划… 海量数据处理性能瓶颈 2. 使用Index ,MV ,Partitionning… 3. 使用并行,充分利用SMP特征 I/O 效率、传统Index 系统性能提升明显 与I/O 有关的2个定义 1 I/O 速度 = I/O数据量/时间 (MB/s) 2 I/O 效率 = 有效数据/实际I/O数据量 (%) I/O速
显示全部
相似文档