文档详情

MapReduce海量数据并行处理ch.03.ppt

发布:2017-12-29约8.73千字共44页下载文档
文本预览下载声明
Google GFS的基本构架和工作原理 数据访问工作过程 特点:应用程序访问具体数据时部需要经过GFS Master,因此,避免了Master成为访问瓶颈 并发访问:由于一个大数据会存储在不同的ChunkServer中,应用程序可实现并发访问 Google GFS的基本构架和工作原理 GFS的系统管理技术 大规模集群安装技术:如何在一个成千上万个节点的集群上迅速部署GFS,升级管理和维护等 故障检测技术:GFS是构建在不可靠的廉价计算机之上的文件系统,节点数多,故障频繁,如何快速检测、定位、恢复或隔离故障节点 节点动态加入技术:当新的节点加入时,需要能自动安装和部署GFS 节能技术:服务器的耗电成本大于购买成本,Google为每个节点服务器配置了蓄电池替代UPS,大大节省了能耗。 BigTable的基本作用和设计思想 GFS是一个文件系统,难以提供对结构化数据的存储和访问管理。为此,Google在GFS之上又设计了一个结构化数据存储和访问管理系统—BigTable,为应用程序提供比单纯的文件系统更方便、更高层的数据操作能力 Google的很多数据,包括Web索引、卫星图像数据、地图数据等都以结构化形式存放在BigTable中 BigTable提供了一定粒度的结构化数据操作能力,主要解决一些大型媒体数据(Web文档、图片等)的结构化存储问题。但与传统的关系数据库相比,其结构化粒度没有那么高,也没有事务处理等能力,因此,它并不是真正意义上的数据库。 BigTable设计动机和目标 主要动机 需要存储多种数据 Google提供的服务很多,序处理的数据类型也很多,如URL,网页,图片,地图数据,email,用户的个性化设置等 海量的服务请求 Google是目前世界上最繁忙的系统,因此,需要有高性能的请求和数据处理能力 商用数据库无法适用 在如此庞大的分布集群上难以有效部署商用数据库系统,且其难以承受如此巨量的数据存储和操作需求 BigTable设计动机和目标 主要设计目标 广泛的适用性:为一系列服务和应用而设计的数据存储系统,可满足对不同类型数据的存储和操作需求 很强的可扩展性:根据需要可随时自动加入或撤销服务器节点 高吞吐量数据访问:提供P级数据存储能力,每秒数百万次的访问请求 高可用性和容错性:保证系统在各种情况下度能正常运转,服务不中断 自动管理能力:自动加入和撤销服务器,自动负载平衡 简单性:系统设计尽量简单以减少复杂性和出错率 BigTable数据模型 BigTable主要是一个分布式多维表,表中的数据通过: 一个行关键字(row key) 一个列关键字(column key) 一个时间戳(time stamp) 进行索引和查询定位的。 BigTable对存储在表中的数据不做任何解释,一律视为字符串,具体数据结构的实现有用户自行定义。 BigTable查询模型 (row:string, column:string,time:int64)? 结果数据字符串 支持查询、插入和删除操作 BigTable数据模型 BigTable数据存储格式 行(Row):大小不超过64KB的任意字符串。表中的数据都是根据行关键字进行排序的。 n.www就是一个行关键字,指明一行存储数据。URL地址倒排好处是:1)同一地址的网页将被存储在表中连续的位置,便于查找;2)倒排便于数据压缩,可大幅提高数据压缩率 子表(Tablet):一个大表可能太大,不利于存储管理,将在水平方向上被分为多个子表 BigTable数据模型 BigTable数据存储格式 列(Column): BigTable将列关键字组织成为“列族”(column family),每个族中的数据属于同一类别,如anchor时一个列族,其下可有不同的表示一个个超链的列关键字。一个列族下的数据会被压缩在一起存放。因此,一个列关键字可表示为: 族名:列名(family:qualifier) content、anchor都是族名;而和my.look.ca则是anchor族中的列名。 BigTable数据模型 BigTable数据存储格式 时间戳(time stamp): 很多时候同一个URL的网页会不断更新,而Google需要保存不同时间的网页数据,因此需要使用时间戳来加以区分。 为了简化不同版本的数据管理,BigTable提供给了两种设置: 保留最近的n个版本数据 保留限定时间内的所有不同版本数据 BigTable基本构架 BigTable 主服务器 BigTable客户端 BigTable客户端程序库 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 BigTable 子表服务器 …… 执行元
显示全部
相似文档