EasyHadoop实战手册1.doc
文本预览下载声明
莇蚈螃肁芃蚇羆袃艿蚆
EasyHadoop 让你的Hadoop应用飞起来!
[EasyHadoop in action v1.1]
EasyHadoop集群部署入门
修订记录 日期 修改原因 描述 作者 2012/02/14 初稿 Hadoop部署文档 向磊 2012/07/14 完善细节 新基础环境配置,修改配置文件,修改架构图。 童小军 2012/07/16 完善细节 完善系统检查方法,完善目录结构和注释,添加封面 童小军 2012/07/16 添加图例 添加生产集群部署图,组件的依赖关系 童小军 2012/08/07 添加EasyHive 添加EasyHive 章节 童小军 2012/09/07 完善内容 添加机器配置详解,和配置文件详解 童小军 2012/09/07 完善内容 添加任务调度,机架感知 童小军 目录
EasyHadoop集群部署入门文档 2
目录 2
1. 文档概述 3
2. 背景 3
3. 名词解释 4
4. 服务器结构 4
#Hadoop试验集群的部署结构 4
#系统和组建的依赖关系 5
#生产环境的部署结构 6
5. Red hat Linux基础环境搭建 6
#linux 安装 (vm虚拟机) 6
#配置机器时间同步 6
#配置机器网络环境 7
#配置集群hosts列表 10
#下载并安装 JAVA JDK系统软件 10
#生成登陆密钥 11
#创建用户账号和Hadoop部署目录和数据目录 11
#检查基础环境 12
6. Hadoop 单机系统 安装配置 13
#Hadoop 文件下载和解压 13
#配置 hadoop-env.sh 环境变量 13
#Hadoop Common组件 13
#HDFS NameNode,DataNode组建配置 hdfs-site.xml 14
#配置MapReduce - JobTracker TaskTracker 启动配置 15
#Hadoop单机系统,启动执行和异常检查 17
#通过界面查看集群部署部署成功 18
#通过执行 Hadoop pi 运行样例检查集群是否成功 19
#安装部署 常见错误 20
7. Hadoop 集群系统 配置安装配置 20
#检查node节点linux 基础环境是否正常,参考 [ linux 基础环境搭建]一节。 20
#配置从master 机器到 node 节点无密钥登陆 20
#检查master到每个node节点在hadoop用户下使用密钥登陆是否正常 21
#配置master 集群服务器地址 stop-all.sh start-all.sh 的时候调用 21
#通过界面查看集群部署部署成功 22
#通过执行 Hadoop pi 运行样例检查集群是否成功 24
8. 自动化安装脚本 25
#master 服务器自动安装脚本 25
Hive仓库集群部署入门文档 27
1. 名词解释 27
2. Hive的作用和原理说明 27
数据仓库结构图 27
Hive仓库流程图 27
hive内部结构图 27
3. Hive 部署和安装 27
安装Hadoop集群,看EasyHadoop安装文档。 27
安装Mysql,启动Mysql,检查++包。 27
解压Hive包并配置JDBC连接地址。 27
启动Hive thrift Server。 27
启动内置的Hive UI。 27
4. Hive Cli 的基本用法 28
登陆查询 28
查询文件方式 28
命令行模式 28
5. HQL基本语法 (创建表,加载表,分析查询,删除表) 28
创建表 28
6. 使用Mysql构建简单数据集市 29
Mysql的两种引擎介绍 29
创建一个数据表使用Hive cli 进行数据分析 29
使用shell 编写Hsql 并使用HiveCli导出数据,使用Mysql命令加载到数据库中。 29
使用crontab 新增每日运行任务定时器 29
7. 使用FineReport 数据展现数据 29
安装FineReport,使用注册码! 29
使用FineReport,快速展现数据报表。 29
FineReport 的问题和局限 29
本文档是Hadoop部署文档,提供了Hadoop单机安装和Hadoop集群安装的方法和步骤,本文档希望让Hadoop安装部署更简单(Easy)。
本安装文档适用于 centos 5 /red hat 5.2 32位,64位版本,ubuntu 等操作系统 需要做部分修改。
背景
Hadoop为分布式文件系统和计算的基础框架系统,其中包含hadoop程序,hdfs系统等。
名词解释
Hadoop, Apache开源的分布式框架。
HDFS, hadoop的分布式文件系统
NameNode,
显示全部