文档详情

Hive编程入门-weibo-大数据文档资料.docx

发布:2025-02-21约7.72千字共80页下载文档
文本预览下载声明

Hive编程入门

集团技术平台部-核心系统-海量数据天

1

Agenda

Agenda

?简介

?部署/配置

?HiveQL编程

?HiveQLvs.SQL

什么是

什么是Hive?

建立在Hadoop上的数据仓库基础构架

什么是

什么是Hive?

?Hadoop

–OpenSourceMapReduceframework

–SponsoredbyYahoo!

?Hive

–支持SQL语义的大规模数据分析工具

–离线/数据仓库应用

–FileProcessor

–SponsoredbyFacebook

为什么选择

为什么选择Hive?

?为超大数据集设计的计算/扩展能力

–basedonHadoop

?支持SQLlike查询语言

?统一的元数据管理

为什么选择

为什么选择Hive?

?简单

selectword,count(*)

from(

select

explode(split(sentence.))word

fromarticle

)t

groupbyword

整体架构

Oracle备库爬虫数据

Oracle备库

爬虫数据

日志系统MySQL

日志系统

MySQL备库

天网调度系统DataSyncTimeTunnelDataExchange

天网调度系统

DataSync

TimeTunnel

DataExchange

HadoopMapReduceJava

Hadoop

MapReduceJavaJobs

HiveJobs

GatewayServers

Cluster:云梯1

StreamingJobs

StreamingJobs

数据平台广告BI搜索口碑B2B云梯

数据平台

广告

BI

搜索

口碑

B2B

云梯2

支付宝

数据魔方淘数据推荐系统搜索排行…量子统计

数据魔方

淘数据

推荐系统

搜索排行

量子统计

Architect

Architect

?Client端应用程序

?元数据

?编程接口

配置

配置/部署

?客户端

?元数据服务器

客户端部署

客户端部署

?依赖

–Linux

–Java1.6

–Hadoop0.18-0.20?安装

–yuminstallt_dp_dw_hive

–rpm-ivhhive.rpm

配置

配置

?环境变量

–HIVE_HOME

–HIVE_CONF_DIR

–HIVE_AUX_JARS_PATH

–HADOOP_HOME/HADOOP_CONF_DIR

?配置文件

–hive-default.xml(默认不做修改)/hive-site.xml(用户的配

置)

–perties

元数据服务器

元数据服务器

?配置

–javax.jdo.option.ConnectionURL

–javax.jdo.option.ConnectionUserName

–javax.jdo.option.ConnectionPassword

?选择一个元数据服务器

–Derby

–MySQL(推荐)

–javax.jdo.option.ConnectionDriverName

Single

SingleUserMode(Default)

Multi

MultiUserMode

HiveQL

HiveQL编程

?SQLlike,butnotthesame

数据模型

数据模型

?Database

?Table

?Partition

?File

数据类型

数据类型

?Primitive

–int/bigint/smallint/tinyint

–boolean

–double/float

–string

?Array?Map

?Struct

?没有精度/长度设定

?没有date/datetime类型

DDL

DDL

CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name

(col_namedata_type,...)

[PARTITIONEDBY(col_namedata_type,...)]

[[ROWFORMATrow_format][STOREDAS

file_format]|[WITHSER

显示全部
相似文档