浅谈HBASE数据结构设计.pdf
2016年第11期信息通信2016
(总第167期)INFORMATIONCOUNICATIONS(Sum.No167)
浅谈HBASE数据结构设计
叶小飞
(福富软件,福建福州350003)
摘要:文章主要对HBase的数据结构进行研究分析。首先对HBase流程及模型进行分析,并结合HBase的特性与适用
场景,全面介绍了HBase数据模型中RowKey设计的要点,以及应用HBase的注意事项等。
关键词:HBase;Hdfs;RowKey;列族;数据模型;存储模型
中图分类号:TP3311文献标识码:A文章编号:1673-1131(2016)11-0104-02
0引言每个Cell中。
1.2.2存储模型TableRegion
我们处于一个信息爆炸的年代,2012年全球产生2.4ZB
HBase中Table和Region的关系,比较类似HDFSFile和
的数据,到2020年数据还将增加16倍,达到40ZB。在这种
Block的关系,在行的方向上,以Region为单位管理Region
大数据的时代背景下,原有的关系型数据库(DBMS)已经越
(startKey,endKey);一个表的所有region会分布在不同的region
来越不满足企业业务不断发展的需求,而非关系型数据库
服务器上。每个ColumnFamily单独存储:storeFile当某个
(NoSQL)的出现恰好补充了数据中心选型的多元性。Apache
ColumnFamily的region累积的大小某阈值时,自动分裂成
开源体系Hadoop中的NoSQL数据库HBase就是其中典型
两个Region。
的代表。
HBase中有两张特殊的Table,-ROOT-和.META.。
1HBase数据结构设计
-ROOT-:记录了.META.表的Region信息,-ROOT-只有
1.1HBase简介一份。
HBase,它是一个高可靠性、高性能、面向列、可伸缩的分.META.:记录了Table的Region信息,.META.可以有多
布式存储系统,利用它可以在廉价的PCServer上搭建起大个regoin。
规模结构化存储集群。HBase在Hadoop之上提供类似Goog-Zookeeper中记录了-ROOT-表的location。Client访问用
le的BigTable的能力,底层存储借助了Hadoop的分布式文户数据之前需要首先访问zookeeper,然后访问-ROOT-表,接
件系统HDFS,还借助了开源的分布式协调软件Zookeeper着访问.META.表,最后才能找到用户数据的位置。
来实现HMaster、HRegionServers、HRegion等分布式节点之1.3