文档详情

大数据平台与编程第3章 Hadoop分布式文件系统.pptx

发布：2024-09-08约小于1千字共72页下载文档

文本预览下载声明

第3章Hadoop分布式文件系统;;?HDFS的基本特征和架构;;;;;HDFS架构;HDFS是一个分布式文件系统，具有高容错的特点。它可以部署在廉价的通用硬件上，提供高吞吐率的数据访问，适合需要处理海量数据集的应用程序。

HDFS1.0的架构总体采用了master/slave架构，主要由以下几个组件组成?：

Client、NameNode、SecondaryNameNode和DataNode?;NameNode:

整个Hadoop集群中只有一个NameNode。它是整个系统的“总管”，负责管理HDFS的目录树和相关的文件元数据信息。

这些信息是以“fsimage”（HDFS元数据镜像文件）和“editlog”（HDFS文件改动日志）两个文件形式存放在本地磁盘。

NameNode还负责监控各个DataNode的健康状态，一旦发现某个DataNode宕掉，则将该DataNode移出HDFS并重新备份其上面的数据。;SecondaryNameNode:

SecondaryNameNode最重要的任务并不是为NameNode元数据进行热备份，而是定期合并fsimage和edits日志，并传输给NameNode。;;HDFS的其他概念;命名空间;通信协议;客户端;块缓存;?HDFS可靠性设计;;;;?HDFS文件系统;;;;;detach目录：用于DataNode升级。;;;;;;;;;;;;在传输数据的过程中，如果发现某个DataNode失效（未联通，ACK超时），那么HDFS执行如下操作：

1）关闭数据传输的管道。

2）将等待ACK队列中的数据放到Data队列的头部。

3）更新正常DataNode中所有数据块的版本；当失效的DataNode重启之后，之前的数据块会因为版本不对而被清除。

4）在传输管道中删除失效的DataNode，重新建立管道并发送数据包。;?HDFS文件系统操作命令;;;;;;;;;;;;;;;;;?HDFS基本编程接口;;;;;;;;;;;;?本章小结;;?本章习题;

显示全部

相似文档