文档详情

MapReduce海量数据并行处理ch.05.ppt

发布:2019-10-11约1.43万字共57页下载文档
文本预览下载声明
集群分布方式下远程提交作业 1. 本地完成程序编写和调试 在自己本地安装了单机或伪分布Hadoop系统的机器上,完成程序编写和调试 2.创建用户账户 为了能访问Hadoop集群提交作业,需要为每个程序用户创建一个账户,获取用户名、密码等信息。 集群分布方式下远程提交作业 3.将数据和程序传送到Hadoop集群 准备好数据和程序目录 例如: me@local:~/workspace$ ls -R wordcount wordcount: wordcount.jar wordcount/files: file01.txt file02.txt 用scp命令传送至Hadoop平台主机上: me@local:~/workspace$ scp -r wordcount username@Master :workspace/wordcount username@ Master‘s password: [在此输入您的密码] 集群分布方式下远程提交作业 4.用SSH命令远程登录到Hadoop集群 me@local:~/workspace$ ssh username@Master username@Masters password: [在此输入您的密码] 5.将数据复制到HDFS中 进入到程序包所在目录: username@Master:~$ cd workspace/wordcount username@Master:~/workspace/wordcount$ ls files wordcount.jar ? 用hadoop dfs –put命令将数据从Linux文件系统中复制到HDFS: username@Master:~/workspace/wordcount$ hadoop dfs -put files test-in 集群分布方式下远程提交作业 6.用hadoop jar命令向Hadoop提交计算作业 username@Master:~/workspace/wordcount$ hadoop jar wordcount.jar test-in test-out 这里的test-in为被统计的文本文件的目录,test-out为指定的输出结果的目录,注意test-out目录事先不能存在,若存在需要先删除。 集群分布方式下远程提交作业 7. 查看运行结果 查看test-out目录,统计结果被输出到文件test-out/part-r-00000中 username@Master:~/workspace/wordcount$ hadoop dfs -ls test-out Found 2 items drwxr-xr-x - hadoopusr supergroup 0 2010-05-23 20:29 /user/hadoopusr/test-out/_logs -rw-r--r-- 1 hadoopusr supergroup 35 2010-05-23 20:30 /user/hadoopusr/test-out/part-r-00000 ?查看计算结果 username@Master:~/workspace/wordcount$ hadoop dfs -cat test-out/part-r-00000 GoodBye 1 Hadoop 2 Hello 2 World 1 ? 也可以把文件从HDFS中复制到Linux文件系统中查看 username@Master:~/workspace/wordcount$ hadoop dfs -get test-out/part-r-00000 test-out.txt username@Master:~/workspace/wordcount$ vi test-out.txt GoodBye 1 Hadoop 2 Hello 2 World 1 集群分布方式下远程提交作业 8. 用Hadoop的Web界面查看Hadoop集群和作业状态 在浏览器中打开http:// NameNode节点IP:50070/. 可看到集群的基本信息 集群分布方式下远程提交作业 8. 用Hadoop的Web界面查看Hadoop集群和作业状态 打开页面中的Namenode Logs链接,可以查看到大量的日志文件,
显示全部
相似文档