文档详情

基于文件的分布式存储与查询系统.doc

发布:2017-12-14约6.2千字共11页下载文档
文本预览下载声明
基于文件的分布式存储与查询系统 (武汉理工大学信息工程学院) 0 引言 2 1 文件的分布式的存储处理 2 1.1 分布式存储系统框架 3 1.2 数据分片分片分发策略 3 1.3 数据的写入过程 4 1.4 分布式存储中的复制策略 5 2 分布式查询 5 2.1 查询处理 6 2.2 数据的并行查询 7 2.3 数据的局部访问 8 3 结束语 8 [参考文献] (References) 9 摘要:现今的分布式存储系统,一般采用的是分布式数据库系统。分布式数据库技术较为复 杂,整个系统维护管理较为困难。本文根据实际的应用,结合分布式原理,设计和实现了一 种基于文件的分布式存储系统,把海量数据分成多个小的数据文件,存储于多个存储节点上, 并在此系统开发了一个快速查询应用,取得了较好的效果。 关键词: 分布式存储;分布式查询;并行计算 A distributed storage and query system based on file storage (School of Information Engineering, Wuhan University of Technology) Abstract: Nowdays, distributed storage system generally uses a distributed database system.The distributed database technology is relatively complex and the whole system maintenance and management is difficult. A distributed storage and query system based on file storage that massive data is splited into many small data files and stored on multiple data nodes is designed and implemented by combining the practical appllication and the principle of distributed system. A fast query application has been developed based on the system, and the results are promising. Key words: distributed storage; distributed query; parallel computing 0 引言 现代计算机的广泛使用,数字信息的迅速膨胀,在各种领域中,特别是在IT 领域中,每 天都可能会产生海量的原始数据,如何存储这些原始数据,如何快速查询自己想要知道的原 始记录,变得越来越重要。要完成对数据的查询,首先必须解决数据的存储问题,对于数据 的存储管理,一般采用的是数据库技术,对海量数据的存储采取的是分布式数据库系统,分 布式数据库系统的数据在逻辑是统一的,而在物理上却是分散的,进一步讲,分布式数据库 是把数据按照一定的规则分布在不同的站点(Site,又称节点Node)上,并且这些数据是建立 在统一的逻辑上的。本文根据分布式数据库的存储原理,设计了一个将海量的数据使用文本 文件进行分布式的存储系统,并在此系统上实现数据的快速查询。 1 文件的分布式的存储处理 分布式存储是将海量的数据分布存放于多个节点上,为了更适合分布式的应用,系统一 般可以简单地分为客户层、中间层和数据层。使用3 层的优点是可以把复杂的业务逻辑处理 放在中间层来处理,而业务逻辑发生变化时只要对中间层进行维护,而不用对其它逻辑进行 修改。分布式数据的存储结构,在一定的程度上决定着分布式系统的应用,所以存储方案的 设计决定着分布式应用的性能。 1.1 分布式存储系统框架 Google 的分布式文件系统是在下面的几个假设的条件下[1]:硬件故障是常态、支持大数据 的集、一次写入多次读取、高并发性。Google 的分布式文件系统平台是建立在大量的廉价 的,消费级的IT 部件上的,某些部件的可靠性并不能保障,所以系统必须较好容错处理与 恢复处理能力;该系统中可以支技海数据的存储,数据量可以是T 级的,甚至是PB 级别的; 这些数据一般是原始记录,所以写入后一般不会对其进行修改;高的并发性,是系统使用针 对多用户所设计的,在某一时刻可能有多个用户同时访问相同的数据。本文所设计的分布式 系主要是针对海量的数据存储与查询,所以系统结构可以简单的设计成图1 所示。将一个大 的数据文件分成若干不相关的小文件,并分发到各结点去存储,为了
显示全部
相似文档