hadoop大数据平台部署及应用.pptx
文本预览下载声明
Hadoop大数据平台部署与应用;主要内容;1、Hadoop 生态系统概述以及版本演化;Hadoop 1.0 与 Hadoop 2.0;HDFS 架构;HDFS 架构;MapReduce;词频统计的 MapReduce 处理过程;Hadoop 构成:YARN(资源管理系统);Hadoop 生态系统:1.0 时代;Hive(基于MR的数据仓库);Pig(作业流引擎);WordCount:MapReduce 实现;WordCount:MapReduce 实现;WordCount:Hive 实现;WordCount:Pig 实现;Mahout(数据挖掘库);Hbase(分布式数据库);Hadoop 生态系统:2.0 时代;2、Hadoop 发行版介绍(开源版);Hadoop 发行版介绍(开源版);Hadoop 版本演化:HDP;Hadoop 版本演化:CDH;3、Hadoop 安装;Hadoop 安装 —— 软件准备;Hadoop 安装 —— 安装操作系统;Hadoop 安装 —— JDK;Hadoop 安装 —— 安装 Hadoop;5)修改 etc/hadoop/ 下的几个配置文件:
(1)hadoop-env.sh
可以在命令窗口中使用下面显示java安装目录:
echo $JAVA_HOME
将 export JAVA_HOME=${JAVA_HOME} 修改为
export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_45/
(2) hdfs-site.xml
将 .dir 和 dfs.datanode.data.dir 改成自己对应的路径
;6)启动 HDFS 和 YARN
(1) 启动 HDFS
格式化 HDFS (第一次使用前做一次就可以了):
bin/hadoop namenode -format
启动 namenode
sbin/hadoop-daemon.sh start namenode
启动 datanode
sbin/hadoop-daemon.sh start datanode
(2)启动 YARN
启动 resourcemanager:
sbin/yarn-daemon.sh start resourcemanager
启动 nodemanager:
sbin/yarn-daemon.sh start nodemanager
;(3)备注
停止 resourcemanager:
sbin/yarn-daemon.sh stop resourcemanager
停止 nodemanager:
sbin/yarn-daemon.sh stop nodemanager
7)验证安装成功
打开浏览器(比如 firefox),输入
(1)开启 HDFS 界面
http://localhost:50070/
(2) YARN 界面
http://localhost:8088/;8)使用 HDFS
(1)创建目录
bin/hdfs dfs -mkdir /tmp
bin/hdfs dfs -mkdir /tmp/input
(2)将本地文件上传到 HDFS 上
bin/hdfs dfs -put src/BUILDING.txt /tmp/input
(3)查看上传到 HDFS 中的文件
bin/hdfs dfs -ls /tmp/input
9)运行 MapReduce 程序
bin/hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.5.0-cdh5.2.0.jar pi 2 1000;4、HDFS 上机操作;HDFS shell 使用;使用 java 编程访问 HDFS;public static void testMkdirPath(String path) throws Exception {
FileSystem fs = null;
try {
System.out.println(Creating + path + on hdfs...);
Configuration conf = new Configuration();
// First create a new directory with mkdirs
Path myPath = new Path(path);
fs = myPath.getFileSystem(conf);
fs.mkdirs(myPath);
System.out.println(Create + path + on hdfs succe
显示全部