大数据导论实验2 Hadoop开发环境部署.docx
实验2、Hadoop开发环境部署
Hadoop是一个能够对大数据进行分布式处理的软件架构,其可以通过可靠、高效、可伸缩的方式进行数据处理。Hadoop技术是推动大数据应用的重要引擎之一,可以使用该技术收集、清洗和分析大量结构化、半结构化和非结构化数据。运行环境部署是一项技术要求较高,但必须掌握的技术。Hadoop是大数据分布式处理平台,在大数据离线处理方面,尤其是批处理中得到了广泛的应用。
1.实验目的
通过Hadoop环境部署实验练习,学生可以掌握Hadoop系统安装方法、伪分布式Hadoop的安装方法和Eclipse开发环境的安装具体过程与使用方法并能够灵活运用进而为解决大数据分析问题奠定环境构建与部署的基础不仅为后续的基于Hadoop环境的各个实验建立基础,而且可以提高工程实践能力。
2.实验要求
在理解本实验相关理论的基础上制订安装计划,独立完成Hadoop开发环境部署过程主要内容如下所述
(1)制订安装计划
(2)安装SSH协议
(3)安装OpenJDK1.8开发环境
(4)Hadoop系统部署
(5)伪分布式Hadoop环境部署
(6)Eclipse开发环境的安装
3.实验内容
(1)制订实验计划。
(2)完成SSH协议安装
(3)完成OpenJDK1.8安装
(4)完成Hadoop系统部署
(5)完成伪分布式Hadoop环境部署
(6)完成Eclipse开发环境的安装
4.实验总结
通过本实验,使学生了解Hadoop的特点和总体结构,理解MapReduce程序的执行过程,掌握伪分布式Hadoop的安装方法和Eclipse开发环境的安装与使用方法
5.思考拓展
(1)为什么需要安装SSH协议?说明SSH协议功能及安装方法
(2)为什么需要安装OpenJDK1.8软件?说明OpenJDK1.8功能及安装方法
(3)结合MapReduce程序执行过程,说明其并行处理的特性
(4)结合Hadoop的处理过程,说明其离线处理特点。
(5)说明分布式Hadoop处理与伪分布式Hadoop处理的区别
(6)说明Eclipse开发环境的优势。
答:Hadoop开发环境部署方法如下Hadoop伪分布式配置
1、创建Hadoop用户
sudouseradd-mhadoop-s/bin/bash#创建hadoop用户
sudopasswdhadoop#修改密码
3、sudoadduserhadoopsudo#增加管理员权限
注销并使用Hadoop用户登录,接着更新apt并且安装vim
1、sudoapt-getupdate#更新apt
2、sudoapt-getinstallvim#安装vim
安装SSH,配置无密码登录:
1、sudoapt-getinstallopenssh-server
2、cd~
3、mkdir.ssh#可能该文件已存在,不影响
4、cd~/.ssh/
5、
6、catid_rsa.pubauthorized_keys#加入授权
安装Java环境
1、sudoapt-getinstallopenjdk-7-jreopenjdk-7-jdk
2、vim~/.bashrc#设JAVAHOME
在文件最前面添加如下单独一行:
exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
使JAVAHOME变量生效
source~/.bashrc#使变量设置生效
2、安装Hadoop2:
1、cd~/下载
2、sudotar-zxvf./hadoop-2.6.0.tar.gz-C/usr/local#解压到/usr/loca/中
3、cd/usr/local/
4、sudomv./hadoop-2.6.0/./hadoop#将文件夹名欧为
5、hadoopsudochown-Rhadoop./hadoop#修改文件权限
进行伪分布式配置
修改配置文件core-site.xml(vim/usr/local/hadoop/etc/hadoop/core-site.xml):
configuration
property
namehadoop.tmp.dir/name
valuefile:/usr/local/hadoop/tmp/value
descriptionAbaseforothertemporarydirectories./description
/property
property
namefs.defaultFS/name
valuehdf