文档详情

hadoop入门介绍讲解.ppt

发布:2017-04-18约1.03千字共31页下载文档
文本预览下载声明
Hadoop 交流;使用Hadoop的动因;数据的挑战;传统技术的局限;新解决方案要满足的新需求;新解决方案的需求;新解决方案的需求;Hadoop如何满足新需求;Hadoop如何满足新需求;Hadoop如何满足新需求; Hadoop生态圈;Hadoop1.0 与 hadoop2.0;Hadoop 主要内核组成;分布式存储系统HDFS;分布式存储系统HDFS;分布式存储系统HDFS;当文件系统客户端(client)进行写操作时,首先把它记录在修改日志中(edit log) 元数据节点在内存中保存了文件系统的元数据信息。在记录了修改日志后,元数据节点则修改内存中的数据结构。 每次的写操作成功之前,修改日志都会同步(sync)到文件系统。 fsimage文件,也即命名空间映像文件,是内存中的元数据在硬盘上的checkpoint,它是一种序列化的格式,并不能够在硬盘上直接修改。 同数据的机制相似,当元数据节点失败时,则最新checkpoint的元数据信息从fsimage加载到内存中,然后逐一重新执行修改日志中的操作。 从元数据节点就是用来帮助元数据节点将内存中的元数据信息checkpoint到硬盘上的 checkpoint的过程如下: 从元数据节点通知元数据节点生成新的日志文件,以后的日志都写到新的日志文件中。 从元数据节点用http get从元数据节点获得fsimage文件及旧的日志文件。 从元数据节点将fsimage文件加载到内存中,并执行日志文件中的操作,然后生成新的fsimage文件。 从元数据节点奖新的fsimage文件用http post传回元数据节点 元数据节点可以将旧的fsimage文件及旧的日志文件,换为新的fsimage文件和新的日志文件(第一步生成的),然后更新fstime文件,写入此次checkpoint的时间。 这样元数据节点中的fsimage文件保存了最新的checkpoint的元数据信息,日志文件也重新开始,不会变的很大了。 ;分布式存储系统HDFS;分布式存储系统HDFS;分布式存储系统HDFS;分布式存储系统HDFS;资源管理系统YARN;资源管理系统YARN;资源管理系统YARN;资源管理系统YARN;MapReduce 分布式计算框;MapReduce 分布式计算框;MapReduce流程;Hadoop 发行版;我们的选择--Cloudera;Thank You
显示全部
相似文档