文档详情

Hadoop学习笔记—光环大数据培训.pdf

发布：2017-07-06约5.25千字共9页下载文档

文本预览下载声明

Hadoop 是什么？先问一下百度吧：【百度百科】一个分布式系统基础架构，由Apache 基金会所开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS 有高容错性的特点，并且设计用来部署在低廉的（low- cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS 放宽了（relax） POSIX 的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop 的框架最核心的设计就是：HDFS 和MapReduce。HDFS 为海量的数据提供了存储，则MapReduce 为海量的数据提供了计算。 Hadoop 主要用于一些分布式计算。在这个大数据年代，那这个的确是一个很不错的工具。所以很有必要来学一学。如何开展这个学习呢，不管怎样，学习一样新东西，我喜欢这样的顺序：先依葫芦画瓢，一步一步行将其运行起来，再来分析一些应用场景及运行的情况，然后深入看一下其高级应用，最后由于这个是一个开源产品，正好来借此机会来读一读大牛们的代码，学学其精华。好了，开始行动： 1.运行环境搭建首先，这个是需要运行在linux 系统中的，所以得安装个linux 才行，市面上有很多个linux 的版本，如红帽子、Fedra、Ubuntu。选哪种呢，对我这种习惯windows 的来说，当然要使用方便的，所以选择了Ubuntu。安装 Ubuntu，这里我就不多说了，在官网上有很多，其实也很简单，一路下一步。当然这里可以安装在Vmware 虚拟机上，也可以直接安装在硬盘上。我个人建议，可以直接安装在硬盘上，与现有windows 做个双系统。因为后面还要跑开发环境 eclipse，在虚拟机上会有点吃力。同时安装在硬盘上后，还可以这样玩，在进入windows 后，安装 vmware，然后新建虚拟机后，不要创建硬盘，直接使用硬盘的分区，这样，就可以在vmware 中启动安装在硬盘上的ubuntu 了。做到双系统，双启动。这样好处是，当要开发时，可以直接进ubuntu 系统，当只是看看代码，以及后面模拟分布式部署时，就可以用vmware 来启动，同时再建上几个虚拟机来进行分布式部署。操作系统准备好后，就需要一些组件了,hadoop 比较简单，只需要ssh 和java 环境，再加个下代码的SVN。先用 sudo apt-get install subversion ssh ant 这个命令，把SSH、Ant 和 SVN 安装起来。 java 环境，可以在网上下载一个JDK 安装包，如：jdk-6u24-linux-i586.bin 想拿高薪，选对行业很重要！学大数据开发，工资高，前景好，发展空间大！安装直接在目录下运行./jdk-6u24-linux-i586.bin 即可。然后配置jdk 目录：先进入安装目录 cd jdk-6u24-… 然后输入 PWD 就可以看到java 安装目录,复制下来：命令行执行：sudo gedit /etc/profile 在打开的文件里，追加： export JAVA_HOME=/home/administrator/hadoop/jdk1.6.0_27 //这里要写安装目录 export PATH=${JAVA_HOME}/bin:$PATH 执行source /etc/profile 立即生效验证是否安装完成，那比较容易了，在命令行下运行 java -version ant svn ssh 看是否找不到命令，如果都能找到，说明OK 了。 1.下载代码：这是个开源的系统，代码很方便用SVN 就可以下载到，版本也很多，在这里我选择0.20.2 版本，一个是网上好多书都基于这个版本的，另外是看源码，还是以前点版本吧，后面的版本里面肯定又加了很多。运行这个命令来下载： svn co /repos/asf/hadoop/common/tags/release- 0.20.2/ 下载完成后，会在当前文件夹内产生一个新文件夹 release-0.20.2，这里面就是代码了。为了后面方便操作，把这文件夹重命令一下： mv rele

显示全部

相似文档