文档详情

《Hadoop技术原理》课件——10.数据仓库Hive.pptx

发布:2025-01-22约4.81千字共22页下载文档
文本预览下载声明

Hadoop技术原理

数据仓库Hive

01Hive简介

·Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce

任务进行运行。

02Hive简介

·Hive在Hadoop生态圈中的位置如下:

Ambari

(安装部署工具)

HivePigMahout

数据分析引擎机器学习算法库

MapReduce

(离线计算)

YARN

(资源调度框架)

HDFS

(分布式存储系统)

Hadoop生态圈

(数据库E7工具)(日志采集)

数据采集引擎

(分布式协调服务)

(分布式数据库)

Zookeeper

Flume

doobs

HBase

03Hive简介

·什么是Hive?

Hive是一个翻译器:SQL---Hive引擎---MapReduce程序Hive是构建在HDFS上的一个数据仓库(DataWarehouse)

Hive支持SQL(SQL99标准的一个子集)

Hive

HDFS

目录

分区

目录

数据

文件

文件

·为什么使用Hive?

减低学习MapReduce的成功,使DBA、运维人员可以通过SQL来实现

ODBCApplication

ClientHiveODBCDriver

CLI

HiveServices

HiveStorage

AndCompute

JDBCApplication

HiveJDBCDriver

HiveServer2

HiveDriver

(编译器、优化器、执行器)

Hadoop集群

ThriftApplication

HiveThriftClient

HiveWebInterface

Metastore

RDBMS

04Hive体系结构

·Hive基本架构

Hive编译器

Hive分析器

Hive优化器

……

3,获取元信息

4.发送元信息Metastore

05Hive体系结构

·Hive工作原理

HiveDriver6.2Job完成

6.1提交Job9.获取结果

YARN

2.获取计划

Hive驱动程序

6.执行计划

Hive执

8.

行器

5.发送计划发送结果

1.执行查询7.获取结果

HiveWebInterface

HiveServer2

RDBMS

HDFS

CLI

HiveDriver

(编译器、优化器、执行器)

HiveDriver

(编译器、优化器、执行器)

HiveDriver

(编译器、优化器、执行器)

JVM

JVM

Metastore

Metastore

JVM

Metastore

JVM

06Hive的安装

·Metastore三种运行模式

Embedded

(嵌入)

Local

(本地)

Remote(远程)

Derby

MySQL

MySQL

属性名称类型默认值描述

hive.metastore.warehouse.dirURI/usr/hive/warehouse相对于fs.default.name的目录,托

管表就存储在这里

hive.metastore.uris逗号分隔

的URI

未设定如果未设置(默认值),则使用

当前的metastore,否则连接到由URI列表指定要连接的远程

metastore服务器。如果有多个远程服务器,则客户端便以轮询方式连接

javax.jdo.option.ConnectionURLURIjdbc:derby:;databaseName=metastore_dJDBCURL,

b;create=truemysql示例:

jdbc:mysql://localhost:3306/hive?useSSL=false

javax.jdo.option.ConnectionDriverNameStringorg.apache.derby.jdbc.EmbeddedD

显示全部
相似文档