《Hadoop技术原理》课件——4.pptx
Hadoop技术原理
HDFS进阶
HDFS工作原理
hdfsdfs-put1.mp4/movie客户端
文件大小:160MB
1.创建文件请求
ClientDistributedFileSystem
7.创建输出流
FSDataOutputStream
9.水平复制,达到冗余度要求
8.上传第一个数据块
DataNode1DataNode2DataNode3
10.循环,上传所有数据块
服务端
4.缓存元信息5.满了?生成
fsimage1000M内存
LRU算法
3.创建元信息
DN1
DN2
2.请求创建文件先数据
NameNode
6.返回元信息文件名:1.mp4
路径:/movie大小:160MB数据块:2个数据块位置:
数据块1:DN1DN3数据块2:DN2DN3
HDFS工作原理
·数据上传过程
01
02HDFS工作原理
·数据读取过程
hdfsdfs-get/movie/1.mp4.客户端服务端
3.在内存中查找4.在fsimage查
1.请求2.获取文件元数据找
ClientDistributedFileSystemNameNode1000M内存
文件名:1.mp4
路径:/movie
大小:160MB
数据块:2个
数据块位置:
数据块1:DN1DN3DN1
数据块2:DN2DN3DN2
HDFS维护一个列表,都是访问不了的DataNode
DataNode1DataNode2DataNode3
5.返回元信息
6.创建输入流
FSDatalnputStream
7.多线程下载所有数据块
·HDFS的常见问题
HDFS具有较高的容错性,可以兼容廉价的硬件,它把硬件出错看作一种常态,而不是异常,并设计了相应的机制检测数据错误和进行自动恢复,主要包括以下几
种情形:
·名称节点出错
·数据节点出错
·数据出错
HDFS工作原理
03
·HDFS的容错性
NameNode出错:用SecondaryNameNode备份的fsimage恢复
HA(HighAvailability)高可用:多个NameNode
DataNode出错:DataNode与NameNode通过“心跳”报告状态,失效后会启动数据冗余复制。
数据出错:采用md5和sha1对数据块进行校验。
HDFS工作原理
04
02
HDFS高级功能
·安全模式
安全模式是HDFS所处的一种特殊状态,在处于这种状态时,文件系统只接受读数据请求,不能对文件进行写,删除等操作。
查看当前状态:
[root@single~]#hdfsdfsadmin-safemodeget
进入安全模式:
[root@single~]#hdfsdfsadmin-safemodeenter
强制离开安全模式:
[root@single~]#hdfsdfsadmin-safemodeleave
一直等待直到安全模式结束:
[root@single~]#hdfsdfsadmin-safemodewait
HDFS高级功能
02HDFS高级功能
·回收站
HDFS为每一个用户都创建了回收站,这个类似操作系统的回收站。位置是/user/用户名/.Trash/。
Hadoop回收站trash,默认是关闭的,可以通过配置core-site.xml文件开启此功能。·修改conf/core-site.xml,增加如下内容
property
namefs.trash.interval/name
value1440/value
/property
·快照
快照可以使某个损坏的目录或整个损坏的H