文档详情

Hadoop技术原理总结.docx

发布：2017-02-01约6.83千字共7页下载文档

文本预览下载声明

1、Hadoop运行原理? Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：MapReduce和HDFS。基于?Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。基于MapReduce计算模型编写分布式并行程序相对简单，程序员的主要工作就是设计实现Map和Reduce类，其它的并行编程中的种种复杂问题，如分布式存储，工作调度，负载平衡，容错处理，网络通信等，均由?MapReduce框架和HDFS文件系统负责处理，程序员完全不用操心。换句话说程序员只需要关心自己的业务逻辑即可，不必关心底层的通信机制等问题，即可编写出复杂高效的并行程序。如果说分布式并行编程的难度足以让普通程序员望而生畏的话，开源的?Hadoop的出现极大的降低了它的门槛。2、Mapreduce原理?简单的说：MapReduce框架的核心步骤主要分两部分：Map和Reduce。当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce对数据做进一步处理之后，输出最终结果。 MapReduce是Hadoop的核心技术之一，为分布式计算的程序设计提供了良好的编程接口，并且屏蔽了底层通信原理，使得程序员只需关心业务逻辑本事，就可轻易的编写出基于集群的分布式并行程序。从它名字上来看，大致可以看出个两个动词Map和Reduce，“Map（展开）”就是将一个任务分解成为多个子任务并行的执行，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果并输出。?适合用?MapReduce来处理的数据集(或任务)有一个基本要求：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。 Map-Reduce的处理过程主要涉及以下四个部分： ?Client进程：用于提交Map-reduce任务job； ?JobTracker进程：其为一个Java进程，其main class为JobTracker； ?TaskTracker进程：其为一个Java进程，其main class为TaskTracker； ?HDFS：Hadoop分布式文件系统，用于在各个进程间共享Job相关的文件；其中JobTracker进程作为主控，用于调度和管理其它的TaskTracker进程, JobTracker可以运行于集群中任一台计算机上，通常情况下配置JobTracker进程运行在NameNode节点之上。TaskTracker负责执行JobTracker进程分配给的任务，其必须运行于?DataNode?上，即?DataNode?既是数据存储结点，也是计算结点。?JobTracker将Map任务和Reduce任务分发给空闲的TaskTracker,让这些任务并行运行，并负责监控任务的运行情况。如果某一个?TaskTracker出故障了，JobTracker会将其负责的任务转交给另一个空闲的TaskTracker重新运行。本地计算-原理数据存储在哪一台计算机上，就由这台计算机进行这部分数据的计算，这样可以减少数据在网络上的传输，降低对网络带宽的需求。在Hadoop这样的基于集群的分布式并行系统中，计算结点可以很方便地扩充，而因它所能够提供的计算能力近乎是无限的，但是由是数据需要在不同的计算机之间流动，故网络带宽变成了瓶颈，是非常宝贵的，“本地计算”是最有效的一种节约网络带宽的手段，业界把这形容为“移动计算比移动数据更经济”。3、HDFS存储的机制?Hadoop的分布式文件系统?HDFS是建立在Linux文件系统之上的一个虚拟分布式文件系统，它由一个管理节点?( NameNode )和N个数据节点?( DataNode )组成，每个节点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似，一样可以建目录，创建，复制，删除文件，查看文件内容等。但其底层实现上是把文件切割成Block（块），然后这些?Block分散地存储于不同的?DataNode?上，每个?Block还可以复制数份存储于不同的?DataNode上，达到容错容灾之目的。NameNode则是整个?HDFS的核心，它通过维护一些数据结构，记录了每一个文件被切割成了多少个?Block，这些?Block可以从哪些?DataNode中获得，各个?DataNode的状态等重要信息。 HDFS的数据块?每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位.构建于单个磁盘之上的文件系统通过磁盘块来

显示全部

相似文档