文档详情

Hadoop学习笔记—光环大数据培训.pdf

发布:2017-07-06约5.25千字共9页下载文档
文本预览下载声明
Hadoop 是什么? 先问一下百度吧: 【百度百科】一个分布式系统基础架构,由Apache 基金会所开发。用户可以在 不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高 速运算和存储。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS 有高容错性的特点,并且设计用来部署在低廉的(low- cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数 据,适合那些有着超大数据集(large data set)的应用程序。HDFS 放宽了(relax) POSIX 的要求,可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop 的框架最核心的设计就是:HDFS 和MapReduce。HDFS 为海量的数据提供 了存储,则MapReduce 为海量的数据提供了计算。 Hadoop 主要用于一些分布式计算。在这个大数据年代,那这个的确是一个很不 错的工具。所以很有必要来学一学。 如何开展这个学习呢,不管怎样,学习一样新东西,我喜欢这样的顺序:先依葫 芦画瓢,一步一步行将其运行起来,再来分析一些应用场景及运行的情况,然后 深入看一下其高级应用, 最后由于这个是一个开源产品,正好来借此机会来读 一读大牛们的代码,学学其精华。 好了,开始行动: 1.运行环境搭建 首先,这个是需要运行在linux 系统中的,所以得安装个linux 才行,市面上有 很多个linux 的版本,如红帽子、Fedra、Ubuntu。选哪种呢,对我这种习惯windows 的来说,当然要使用方便的,所以选择了Ubuntu。 安装 Ubuntu,这里我就不多说了,在官网上有很多,其实也很简单,一路下一 步。当然这里可以安装在Vmware 虚拟机上,也可以直接安装在硬盘上。 我个人 建议,可以直接安装在硬盘上,与现有windows 做个双系统。因为后面还要跑开 发环境 eclipse,在虚拟机上会有点吃力。 同时安装在硬盘上后,还可以这样 玩,在进入windows 后,安装 vmware,然后新建虚拟机后,不要创建硬盘,直 接使用硬盘的分区,这样,就可以在vmware 中启动安装在硬盘上的ubuntu 了。 做到双系统,双启动。 这样好处是,当要开发时,可以直接进ubuntu 系统,当只是看看代码,以及后 面模拟分布式部署时,就可以用vmware 来启动,同时再建上几个虚拟机来进行 分布式部署。 操作系统准备好后,就需要一些组件了,hadoop 比较简单,只需要ssh 和java 环 境,再加个下代码的SVN。 先用 sudo apt-get install subversion ssh ant 这个命令,把SSH、Ant 和 SVN 安装起来。 java 环境,可以在网上下载一个JDK 安装包,如:jdk-6u24-linux-i586.bin 想拿高薪,选对行业很重要!学大数据开发,工资高,前景好,发展空间大! 安装直接在目录下运行./jdk-6u24-linux-i586.bin 即可。 然后配置jdk 目录: 先进入安装目录 cd jdk-6u24-… 然后输入 PWD 就可以看到java 安装目录,复制下来: 命令行执行:sudo gedit /etc/profile 在打开的文件里,追加: export JAVA_HOME=/home/administrator/hadoop/jdk1.6.0_27 //这里要写安 装目录 export PATH=${JAVA_HOME}/bin:$PATH 执行source /etc/profile 立即生效 验证是否安装完成,那比较容易了,在命令行下运行 java -version ant svn ssh 看是否找不到命令,如果都能找到,说明OK 了。 1.下载代码: 这是个开源的系统,代码很方便用SVN 就可以下载到,版本也很多,在这里我选 择0.20.2 版本,一个是网上好多书都基于这个版本的,另外是看源码,还是以 前点版本吧,后面的版本里面肯定又加了很多。 运行这个命令来下载: svn co /repos/asf/hadoop/common/tags/release- 0.20.2/ 下载完成后,会在当前文件夹内产生一个新文件夹 release-0.20.2,这里面就 是代码了。 为了后面方便操作,把这文件夹重命令一下: mv rele
显示全部
相似文档