文档详情

hadoop大数据平台部署及应用.pptx

发布：2019-09-07约3.99千字共61页下载文档

文本预览下载声明

Hadoop大数据平台部署与应用;主要内容;1、Hadoop 生态系统概述以及版本演化;Hadoop 1.0 与 Hadoop 2.0;HDFS 架构;HDFS 架构;MapReduce;词频统计的 MapReduce 处理过程;Hadoop 构成：YARN（资源管理系统）;Hadoop 生态系统：1.0 时代;Hive（基于MR的数据仓库）;Pig（作业流引擎）;WordCount：MapReduce 实现;WordCount：MapReduce 实现;WordCount：Hive 实现;WordCount：Pig 实现;Mahout（数据挖掘库）;Hbase（分布式数据库）;Hadoop 生态系统：2.0 时代;2、Hadoop 发行版介绍（开源版）;Hadoop 发行版介绍（开源版）;Hadoop 版本演化：HDP;Hadoop 版本演化：CDH;3、Hadoop 安装;Hadoop 安装 —— 软件准备;Hadoop 安装 —— 安装操作系统;Hadoop 安装 —— JDK;Hadoop 安装 —— 安装 Hadoop;5）修改 etc/hadoop/ 下的几个配置文件：（1）hadoop-env.sh 可以在命令窗口中使用下面显示java安装目录： echo $JAVA_HOME 将 export JAVA_HOME=${JAVA_HOME} 修改为 export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_45/ （2） hdfs-site.xml 将 .dir 和 dfs.datanode.data.dir 改成自己对应的路径 ;6）启动 HDFS 和 YARN （1）启动 HDFS 格式化 HDFS （第一次使用前做一次就可以了）： bin/hadoop namenode -format 启动 namenode sbin/hadoop-daemon.sh start namenode 启动 datanode sbin/hadoop-daemon.sh start datanode （2）启动 YARN 启动 resourcemanager： sbin/yarn-daemon.sh start resourcemanager 启动 nodemanager： sbin/yarn-daemon.sh start nodemanager ;（3）备注停止 resourcemanager： sbin/yarn-daemon.sh stop resourcemanager 停止 nodemanager： sbin/yarn-daemon.sh stop nodemanager 7）验证安装成功打开浏览器（比如 firefox），输入（1）开启 HDFS 界面 http://localhost:50070/ （2） YARN 界面 http://localhost:8088/;8）使用 HDFS （1）创建目录 bin/hdfs dfs -mkdir /tmp bin/hdfs dfs -mkdir /tmp/input （2）将本地文件上传到 HDFS 上 bin/hdfs dfs -put src/BUILDING.txt /tmp/input （3）查看上传到 HDFS 中的文件 bin/hdfs dfs -ls /tmp/input 9）运行 MapReduce 程序 bin/hadoop jar share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.5.0-cdh5.2.0.jar pi 2 1000;4、HDFS 上机操作;HDFS shell 使用;使用 java 编程访问 HDFS;public static void testMkdirPath(String path) throws Exception { FileSystem fs = null; try { System.out.println(Creating + path + on hdfs...); Configuration conf = new Configuration(); // First create a new directory with mkdirs Path myPath = new Path(path); fs = myPath.getFileSystem(conf); fs.mkdirs(myPath); System.out.println(Create + path + on hdfs succe

显示全部

相似文档