《基于新信息技术的Hadoop大数据技术》课件_项目8 Hive的安装部署.pptx
湖南软件职业技术大学
Hive概述
湖南软件职业技术大学
Hive是什么
Hive是由faceBook开源,最初用于解决海量结构化的日志数据统计问题,
它可以作为ETL工具。
Hive最初是构建在Hadoop之上的数据仓库。
数据计算是MapReduce
数据存储是HDFS
Hive定义了一种类SQL的查询语言——HQL
Hive适合离线数据处理
Hive是将HQL转换为MR的语言翻译器。
湖南软件职业技术大学
Hive产生的背景
Hive的诞生源于Facebook的日志分析需求,面对海量的结构化数
据,Hive能够以较低的成本完成以往需要大规模数据库才能完成的任务,并且
学习门槛相对较低,应用开发灵活且高效。
后来Facebook将Hive开源给了Apache,成为Apache的一个顶级项目,
至此Hive在大数据应用方面得到了快速的发展和普及。
湖南软件职业技术大学
Hive的优缺点
Hive的优点
Hive适合数据的批处理,解决了传统关系型数据库在海量数据处理上的瓶颈。
Hive构建在Hadoop之上,充分利用了集群的存储资源、计算资源。
Hive学习使用成本低,支持标准的SQL语法,这样就免去了编写
MapReduce程序的过程,减少了开发成本。
具有良好的扩展性,且能够实现与其他组件的集成开发。
Hive的缺点
HQL的表达能力依然有限,不支持迭代计算,有些复杂的运算用HQL不易
表达,还需要单独编写MapReduce来实现。
Hive的运行效率低、延迟高,这是因为Hive底层计算引擎默认为
MapReduce,而MapReduce是离线计算框架。
Hive的调优比较困难,由于HQL语句最终会转换为MapReduce任务,所以
Hive的调优还需要考虑MapReduce层面的优化。
湖南软件职业技术大学
Hive在Hadoop生态系统中的位置
湖南软件职业技术大学
Hive和Hadoop的关系
Hive利用HDFS来存储数据,利用MapReduce来查询分析数据,那么Hive
与Hadoop之间的关系总结如下。
Hive需要构建在Hadoop集群之上。
Hive中的所有数据都存储在Hadoop分布式文件系统中。
对HQL查询语句的解释、优化、生成查询计划等过程均是由Hive完成的,而
查询计划被转化为MapReduce任务之后需要运行在Hadoop集群之上。
湖南软件职业技术大学
Hive原理及架构
湖南软件职业技术大学
Hive的设计原理
Hive的原理
Hive是一种构建在Hadoop之上的数据仓库工具,可以使用HQL语句对数
据进行分析和查询,而Hive的底层数据都存储在HDFS中。Hive在加载数据过
程中不会对数据进行任何的修改,只是将数据移动到指定的HDFS目录下,因此,
Hive不支持对数