分布式并行数据库集群在海量数据处理上的应用.pdf
文本预览下载声明
Insert Picture Here
分布式并行数据库集群在海量数据
处理上的应用
武新 - 南大通用数据技术有限公司
目 录
1 – 列存储 vs 行存储数据库性能特征分析
2 – GBase MPP并行数据库集群
3 – 海量数据统计、分析应用案例
4 – 总结 QA
GBase 8a 分析型数据库产品形态
• GBase 8a 列存储数据库简介
• GBase 8a是南大通用公司面向海量数据分析型应用领域,以独特的列存
储、高效压缩、智能索引、并行架构等技术为基础,自主研发的一款极
高性能关系型数据库产品。具有满足各个数据密集型行业日益增大的数
据分析,数据挖掘,数据备份和即席查询的需求。
• GBase 8a Cluster 基于MPP的SN并行数据库集群简介
• GBase 8a Cluster是在GBase 8a列存储数据库基础上开发的,基于现代
云计算理念和shared nothing架构的并行数据库集群。以其独特的偏平
架构,高可用性和动态扩展能力,为超大规模数据管理提供一个高性价
比的通用平台。
架构特征
应用程序
SQL
Interconnect
数据库节点 ..
无Master,节点对等的扁平架构。高性能,高密度节点。完全并行
的MPP架构,在线节点动态伸缩。多副本数据,透明高可用。
数据分发节点
外部数据来源 ftp, nfs etc
数据库系统一直面临的性能瓶颈问题
数据库性能优化的
核心思想是提升查询SQL的I/O效率
被动优化手段 – 硬件改进
1 - I/O
2 – 索引 效率
1. 系统扩容
怪圈
2. 系统升级、替换
3 – 性能 系统性能提升有限
与优化
的矛盾
主动优化手段 – 提升数据库效率
1. 修改数据模型、修改SQL、影响CB
O、产生更有效SQL执行计划…
海量数据处理性能瓶颈 2. 使用Index ,MV ,Partitionning…
3. 使用并行,充分利用SMP特征
I/O 效率、传统Index 系统性能提升明显
与I/O 有关的2个定义
1 I/O 速度 = I/O数据量/时间 (MB/s)
2 I/O 效率 = 有效数据/实际I/O数据量 (%)
I/O速
显示全部