云计算-第10章 开源云计算系统介绍.docx
文本预览下载声明
? 1
? 1
? 1
? 1
第10章开源云计算系统介绍
3
3
【教学内容】
开源云计算系统Hadoop
开源云计算软件Eucalyptus
开源虚拟化云计算平台OpenStack
【教学要求】
掌握Hadoop的体系架构、技术原理和应用方案
掌握Eucalyptus的体系架构、技术原理和应用方案
掌握OpenStack的体系架构、技术原理和应用方案
【重点难点】
Hadoop的分布式计算框架MapReduce、OpenStack的核
.心开源项目(Nova、Swift Glance)
主要内容
-?10.1开源云计算系统Hadoop
10.2开源云计算软件Eucalyptus
10.3开源虚拟化云计算平台OpenStack
? Hadoop 背景介绍
Hadoop是有Apache软件基金会下的一个开源分布式计算平台。
Hadoop以分布式文件系统HDFS和MapReduce ( Google MapReduce的开
源实现)为核心,为用户提供了系统底层细节透明的分布式基础架构。
HDFS的高容错性、高伸缩性等优点允许 用户将Hadoop部署在低廉的硬件上,形 成分布式系统。
MapReduce分布式编程模型允许用户在不 了解分布式系统底层细节的情况下开发 并行应用程序。
?
? Hadoop2.X的生态系统
?
? Hadoop2.X的生态系统
?Hadoop
?Hadoop背景介绍
Hadoop目前除了社区版,还有众多厂商的发行版本,如华为发行版、 Intel发行版、Cloudera发行版(CDH )、Hortonworks发行版(HDP )、 MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的。
cloudera ?最成型的发行版本,拥有最多的咅階案例;提供强大的部 署、管理和监控工具。
?不拥有任何私有(非开源)修改地使用了 100%开 u点統1
、〃 丄」d 丄口 j亠 Hortonworks
源Apache Hadoop的唯一提供商。
AAAPR?为了获取更好的性能和易用性而支持本地UNIX文 件系统而不是HDFS (使用非开源的组件)。
AAAPR
Hadoop是一个能够对大量数据进行分布式处理的软件框架,具有 可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce ,在Hadoop2.X中还包括YARN。
Ambari
(安装部署工具)
MapReduce(高线计算)(*睡羿金憫黑歪)
MapReduce
(高线计算)
(*睡羿金憫黑歪) 」od$,ooz
Oozie(作业流调度系统)
Tez(DAG计算)
YARN
(分布式计算?R)
E?2S*IAJ—? 岑 根
E
?2
S*
IAJ
—
? 岑 根
QI
Spark
(内存计算)
?Hadoop2.X
?Hadoop2.X的生态系统
8
8
?Hadoop2.X
?Hadoop2.X的生态系统
8
8
?Hadoop2.X
?Hadoop2.X的生态系统
Hive ( STHadoop的数据仓库)用于
Hive ( STHadoop的数据仓库)
Hbase (分布式列存数据库)?
Hbase (分布式列存数据库)
Pig (基于
Pig (基于Hadoop的数据流系统)
Sqoop (数据同步工具
Sqoop (数据同步工具)
,用于Apache Hadoop和结构化数据存
储库如关系型数据库之间的数据传输。
Flume (
Flume (日志收集工具)
高效搜集、汇总、移动大量日志数据。
Zookeeper (分布式协作服务
Zookeeper (分布式协作服务)
Mahout (数据挖掘算法库)
Spark
? 一种集中服务,用于维护配置信息、
、提供分布式同步以及提供分组服务。
?一种基于Hadoop的机器学习和数据挖掘的 分布式计算框架算法集,实现了多种 MapReduce模式的数据挖掘算法。
? 一个开源数据分析集群计算框架。与
Hadoop—样用于构建大规模、低延时的
数据分析应用。
?
? PAGE #
?
? PAGE #
?Hadoop2.X的生态系统
Storm?属于流处理平台,多用于实时计算并更新数据库;也可以用于 连续计算”对数据流做连续查询;还可以用于分布式RPC” 以并行的方式运行大型的运算。
Storm
Shark?即Hive on Spark ,—个专门为Spark打造的大规模数据仓库 系统,兼容Apache Hiveo无需修改现有的数据或者查询, 就可以用100倍的速度执行Hive QLo
Shark
Phoenix? 一个构建在Apache HBase之上的SQL中间层,完全使用Java编 写,提供了一个客户端可嵌入的JDBC驱动。Ph
显示全部