文档详情

hadoop大数据处理讲义-c4. hdfs.pdf

发布:2016-01-24约1.29万字共38页下载文档
文本预览下载声明
海量数据处理中的云计算 C4. 海量数据的云存储与HDFS 北京邮电大学信息与通信工程学院 刘军 liujun@ 2014年春季学期 Show Time  完成: – 建立Windows下的单机Hadoop环境 – 运行WordCount程序  要求: – 所有同学在下周2中午12点前将安装过程及运行WordCount程序结果截图,整理成 文档,发送到:liujun@  邮件标题:海量数据处理作业(姓名)  文档名:海量数据处理作业_hadoop安装_姓名 – 现场演示Hadoop环境、开发环境和WordCount程序结果 第2页 答疑  大部分同学遇到的问题都是在安装、启动过程中遇到异常  解决方法: – 坚信天上飘过的那五个字! – 脑海中随时带着几个三明治(部署、层次) – 仔细查看Linux命令错误信息、Hadoop日志信息(logs目录下的*.log ,*.out ) – 忘掉度娘,只用谷哥,强迫自己习惯英文阅读 – 搞定! 第3页 本节目录  HDFS基础  深入HDFS  继续课程设计主题讨论 第4页 海量数据的云存储需求  待处理数据的量级 – 百度: 200PB – Facebook : 100PB – Yahoo : 100PB – 淘宝: 15PB – ebay : 10PB  分布式存储技术成为大数据时代存储海量数据的必然选择  要点: – 低成本:大量廉价PC构成的集群作为硬件基础,单节点故障率较高 – 大文件:大量大尺寸的文件( ≥100MB – GB级) – 读写特性:顺序读写,极少随机读写;写入后 ,一般不会再修改 – 目标:要求系统整体高吞吐量,而非低时延 第5页 HDFS The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. However, the differences from other distributed file systems are significant. HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware. HDFS provides high throughput access to application data and is suitable for applications that have large data sets. Source :/docs/r1.2.1/hdfs_design.html#Introduction 第6页 HDFS架构 第7页 HDFS系统架构(1 )-角色划分 By Maneesh Varshney, mvarshney@ (后同) 第8页 HDFS系统架构 (2 )-Client
显示全部
相似文档