文档详情

大数据平台与编程第3章 Hadoop分布式文件系统.pptx

发布:2024-09-08约小于1千字共72页下载文档
文本预览下载声明

第3章Hadoop分布式文件系统;;?HDFS的基本特征和架构;;;;;HDFS架构;HDFS是一个分布式文件系统,具有高容错的特点。它可以部署在廉价的通用硬件上,提供高吞吐率的数据访问,适合需要处理海量数据集的应用程序。

HDFS1.0的架构总体采用了master/slave架构,主要由以下几个组件组成?:

Client、NameNode、SecondaryNameNode和DataNode?;NameNode:

整个Hadoop集群中只有一个NameNode。它是整个系统的“总管”,负责管理HDFS的目录树和相关的文件元数据信息。

这些信息是以“fsimage”(HDFS元数据镜像文件)和“editlog”(HDFS文件改动日志)两个文件形式存放在本地磁盘。

NameNode还负责监控各个DataNode的健康状态,一旦发现某个DataNode宕掉,则将该DataNode移出HDFS并重新备份其上面的数据。;SecondaryNameNode:

SecondaryNameNode最重要的任务并不是为NameNode元数据进行热备份,而是定期合并fsimage和edits日志,并传输给NameNode。;;HDFS的其他概念;命名空间;通信协议;客户端;块缓存;?HDFS可靠性设计;;;;?HDFS文件系统;;;;;detach目录:用于DataNode升级。;;;;;;;;;;;;在传输数据的过程中,如果发现某个DataNode失效(未联通,ACK超时),那么HDFS执行如下操作:

1)关闭数据传输的管道。

2)将等待ACK队列中的数据放到Data队列的头部。

3)更新正常DataNode中所有数据块的版本;当失效的DataNode重启之后,之前的数据块会因为版本不对而被清除。

4)在传输管道中删除失效的DataNode,重新建立管道并发送数据包。;?HDFS文件系统操作命令;;;;;;;;;;;;;;;;;?HDFS基本编程接口;;;;;;;;;;;;?本章小结;;?本章习题;

显示全部
相似文档