文档详情

hadoop大数据平台部署及应用.pptx

发布:2019-09-07约3.99千字共61页下载文档
文本预览下载声明
Hadoop大数据平台部署与应用;主要内容;1、Hadoop 生态系统概述以及版本演化;Hadoop 1.0 与 Hadoop 2.0;HDFS 架构;HDFS 架构;MapReduce;词频统计的 MapReduce 处理过程;Hadoop 构成:YARN(资源管理系统);Hadoop 生态系统:1.0 时代;Hive(基于MR的数据仓库);Pig(作业流引擎);WordCount:MapReduce 实现;WordCount:MapReduce 实现;WordCount:Hive 实现;WordCount:Pig 实现;Mahout(数据挖掘库);Hbase(分布式数据库);Hadoop 生态系统:2.0 时代;2、Hadoop 发行版介绍(开源版);Hadoop 发行版介绍(开源版);Hadoop 版本演化:HDP;Hadoop 版本演化:CDH;3、Hadoop 安装;Hadoop 安装 —— 软件准备;Hadoop 安装 —— 安装操作系统;Hadoop 安装 —— JDK;Hadoop 安装 —— 安装 Hadoop;5)修改 etc/hadoop/ 下的几个配置文件: (1)hadoop-env.sh 可以在命令窗口中使用下面显示java安装目录: echo $JAVA_HOME 将 export JAVA_HOME=${JAVA_HOME} 修改为 export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_45/ (2) hdfs-site.xml 将 .dir 和 dfs.datanode.data.dir 改成自己对应的路径 ;6)启动 HDFS 和 YARN (1) 启动 HDFS 格式化 HDFS (第一次使用前做一次就可以了): bin/hadoop namenode -format 启动 namenode sbin/hadoop-daemon.sh start namenode 启动 datanode sbin/hadoop-daemon.sh start datanode (2)启动 YARN 启动 resourcemanager: sbin/yarn-daemon.sh start resourcemanager 启动 nodemanager: sbin/yarn-daemon.sh start nodemanager ;(3)备注 停止 resourcemanager: sbin/yarn-daemon.sh stop resourcemanager 停止 nodemanager: sbin/yarn-daemon.sh stop nodemanager 7)验证安装成功 打开浏览器(比如 firefox),输入 (1)开启 HDFS 界面 http://localhost:50070/ (2) YARN 界面 http://localhost:8088/;8)使用 HDFS (1)创建目录 bin/hdfs dfs -mkdir /tmp bin/hdfs dfs -mkdir /tmp/input (2)将本地文件上传到 HDFS 上 bin/hdfs dfs -put src/BUILDING.txt /tmp/input (3)查看上传到 HDFS 中的文件 bin/hdfs dfs -ls /tmp/input 9)运行 MapReduce 程序 bin/hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.5.0-cdh5.2.0.jar pi 2 1000;4、HDFS 上机操作;HDFS shell 使用;使用 java 编程访问 HDFS;public static void testMkdirPath(String path) throws Exception { FileSystem fs = null; try { System.out.println(Creating + path + on hdfs...); Configuration conf = new Configuration(); // First create a new directory with mkdirs Path myPath = new Path(path); fs = myPath.getFileSystem(conf); fs.mkdirs(myPath); System.out.println(Create + path + on hdfs succe
显示全部
相似文档