《Hadoop技术原理》课件——10.数据仓库Hive.pptx
Hadoop技术原理
数据仓库Hive
01Hive简介
·Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce
任务进行运行。
02Hive简介
·Hive在Hadoop生态圈中的位置如下:
Ambari
(安装部署工具)
HivePigMahout
数据分析引擎机器学习算法库
MapReduce
(离线计算)
YARN
(资源调度框架)
HDFS
(分布式存储系统)
Hadoop生态圈
(数据库E7工具)(日志采集)
数据采集引擎
(分布式协调服务)
(分布式数据库)
Zookeeper
Flume
doobs
HBase
03Hive简介
·什么是Hive?
Hive是一个翻译器:SQL---Hive引擎---MapReduce程序Hive是构建在HDFS上的一个数据仓库(DataWarehouse)
Hive支持SQL(SQL99标准的一个子集)
Hive
HDFS
表
目录
分区
目录
数据
文件
桶
文件
·为什么使用Hive?
减低学习MapReduce的成功,使DBA、运维人员可以通过SQL来实现
ODBCApplication
ClientHiveODBCDriver
CLI
HiveServices
HiveStorage
AndCompute
JDBCApplication
HiveJDBCDriver
HiveServer2
HiveDriver
(编译器、优化器、执行器)
Hadoop集群
ThriftApplication
HiveThriftClient
HiveWebInterface
Metastore
RDBMS
04Hive体系结构
·Hive基本架构
Hive编译器
Hive分析器
Hive优化器
……
3,获取元信息
4.发送元信息Metastore
05Hive体系结构
·Hive工作原理
HiveDriver6.2Job完成
6.1提交Job9.获取结果
YARN
2.获取计划
Hive驱动程序
6.执行计划
Hive执
8.
行器
5.发送计划发送结果
1.执行查询7.获取结果
HiveWebInterface
HiveServer2
RDBMS
HDFS
CLI
HiveDriver
(编译器、优化器、执行器)
HiveDriver
(编译器、优化器、执行器)
HiveDriver
(编译器、优化器、执行器)
JVM
JVM
Metastore
Metastore
JVM
Metastore
JVM
06Hive的安装
·Metastore三种运行模式
Embedded
(嵌入)
Local
(本地)
Remote(远程)
Derby
MySQL
MySQL
属性名称类型默认值描述
hive.metastore.warehouse.dirURI/usr/hive/warehouse相对于fs.default.name的目录,托
管表就存储在这里
hive.metastore.uris逗号分隔
的URI
未设定如果未设置(默认值),则使用
当前的metastore,否则连接到由URI列表指定要连接的远程
metastore服务器。如果有多个远程服务器,则客户端便以轮询方式连接
javax.jdo.option.ConnectionURLURIjdbc:derby:;databaseName=metastore_dJDBCURL,
b;create=truemysql示例:
jdbc:mysql://localhost:3306/hive?useSSL=false
javax.jdo.option.ConnectionDriverNameStringorg.apache.derby.jdbc.EmbeddedD