Hadoop安装与配置管理.pptx
文本预览下载声明
第2章 Hadoop安装与配置管理
Hadoop平台程序运行示例
安装环境
第2章
4
2019-5-27
安装虚拟机和Linux,虚拟机推荐使用vmware,Linux使用CentOS7。
所需软件:
jdk-7u79-linux-x64.tar.gz
hadoop-2.4.1.tar.gz
WinSCP
运行模式
第2章
5
2019-5-27
伪分布模式:在单节点上同时启动namenode、datanode、ResourceManager、NodeManager、secondarynamenode5个进程,模拟分布式运行的各个节点
完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成
集群
第2章
6
2019-5-27
计算机集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。
集群系统中的单个计算机通常称为节点,通常通过局域网连接。
集群技术的特点:
通过多台计算机完成同一个工作达到更高的效率。
两机或多机内容、工作过程等完全一样,一台死机,另一台可以起作用。
配置网络
VMware 提供了 3 种工作模式,分别是 bridged 模式、NAT 模式和 host-only 模式。建议选择 host-only。
(1)在brig桥接模式下,VMware 虚拟出来的操作系统就像是局域网中的一个独立的 主机,可以访问网内的任何一台机器,需要手工配置IP地址,和宿主主机在同一网段。(2)在 NAT 模式下,就是让虚拟系统借助 NAT 功能,通过宿主机器所在的网络来访问公网。(3)在 host-only 仅主机模式下,虚拟系统间可以相互通信,与真实的网络是隔离开的。
伪分布式模式的安装和配置步骤
第2章
8
2019-5-27
单机网络设置:若采用主机模式,需将ip设置为虚拟机网络设置窗口中VMnet1网卡的地址范围。宿主计算机VMnet1的ip设置为主节点的网关。
修改主机名: vi /etc/sysconfig/network
将主机与IP绑定: vi /etc/hosts
上传所需的Java和Hadoop软件包:可使用远程登录软件WinSCP(虚拟机如果安装了Virtualtools,也可直接在系统间复制、粘贴文件)。
安装和配置Java:查看(rpm -qa|grep jdk)并删除已有的Java版本(yum -y remove jdk版本),解压(tar -zxvf)、重命名(mv),配置环境变量/etc/profile并通过source命令使其生效,测试是否安装配置成功。
Hadoop环境:解压文件,导入环境变量,修改配置文件。
网络配置:
Hadoop启动与测试
格式化文件系统:hdfs namenode -format
启动HDFS:start-dfs.sh
启动Yarn:start-yarn.sh
查看启动的进程:jps
查看生成的文件夹
管理jobHistory server:
在浏览器中查看Hadoop运行情况
集群验证:执行mapreduce例程
完全分布式
11
2019-5-27
机器名
在slaves文件中添加子节点,如node1、node2
克隆主节点,修改子节点网络配置,修改主机名
关闭防火墙:systemctl stop firewalld.service
配置SSH免密码登录:ssh-keygen –t,连按四次回车键,生成公钥和私钥,执行cat id_rsa.pub authorized_keys创建权限文件,执行 chmod 600 authorized_keys设置权限(前面的操作每个节点都执行),复制公钥(node和node1节点执行):ssh-copy-id –i /.ssh/id_rsa.pub node2,最后复制到所有其他节点(node2节点执行):scp /root/.ssh/authorized_keys node:/root/.ssh/; scp /root/.ssh/authorized_keys node1:/root/.ssh/; scp /root/.ssh/authorized_keys node2:/root/.ssh/
Hadoop启动与测试
删除之前生成的本地文件,即hdfs文件夹中的所有文件
重新格式化文件系统:hdfs namenode -format
启动HDFS:start-dfs.sh
启动Yarn:start-yarn.sh
分别查看各节点启动的进程:jps
查看各节点生成的本地文件夹
管理jobHistory server:mr-jobhistory-daemon.sh start historyserver
在浏览器中查看Hadoop运行情况
集群验
显示全部