文档详情

Hadoop大数据开发实例教程:Spark的安装与基础应用PPT教学课件.pptx

发布:2025-03-28约1.33万字共65页下载文档
文本预览下载声明

Spark的安装与基础应用1010.1了解Spark10.2Spark集群模式和Scala10.3本地模式安装与配置10.4集群模式——HadoopYARN模式的安装与配置10.5集群模式——Standalone模式的安装与配置10.6配置JupyterNotebook运行PythonSpark程序10.7PySpark运行WordCount10.8实训10部署并应用Spark

(1)了解Spark存在的原因和生态圈;(2)掌握Spark集群的部署和启动,以及使用HDFS的方法;(3)掌握JupyterNotebook的安装与部署;(4)熟练使用pyspark和sparksubmit执行程序;(5)熟练使用JupyterNotebook进行Python程序编写;(6)能编写PySpark版的WordCount,并能执行代码和分析执行过程。本模块先对Spark和Scala进行了介绍,也进行了Spark与Hadoop的比较。对Spark进行了本地模式和集群模式的安装,本地模式的搭建比较容易,测试也比较简单;而集群模式又进行了YARNclient和Standalone模式的安装与配置,每一种模式都通过pyspark方式进行了测试。为了更方便地操作Python,进行了JupyterNotebook的安装,并在之前所配置的三种模式下进行了测试。通过pyspark和sparksubmit方式运行WordCount.py,进行了单词统计,并对WordCount.py中的每一条命令进行了解释。目标和要求Spark的安装与基础应用

10.1了解Spark10.1.1Spark简介YARN的出现很好地解决了MapReduce任务的并行性和容错性问题,不过MapReduce的框架使得每个MapReduce任务都需要读写磁盘,进而增加了迭代型机器学习任务的时间。内存的读写速度远远高于磁盘,为了更充分地利用内存,避免MapReduce框架中多次读写磁盘的消耗,加州大学伯克利分校AMP实验室提出了一种新的基于内存计算的并行计算框架,这就是Spark。Spark是用于大规模数据处理的统一分析引擎,也用于人工智能。它扩展了广泛使用的MapReduce计算模型,高效地支撑更多计算模式,包括交互式查询和流处理。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

10.1了解Spark10.1.1Spark简介Spark的特点如下:(1)高效性(2)通用性(3)易用性(4)兼容性

10.1了解Spark10.1.2Scala简介安装Spark之前,需要安装一种编程语言环境——Scala。Spark是用Scala语言实现的,而且主要支持Scala语言进行应用开发(也支持Python、Java和R语言等)。Spark的设计目的之一就是使程序的编写更快、更容易,因此选择了Scala,以下是Scala具有的突出优点:(1)Scala具备强大并发性,支持函数式编程,更好地支持分布式系统。(2)Scala语法简洁,可提供简洁的API。(3)Scala兼容Java,运行速度快,且能融合到Haoop生态圈中。

10.1了解Spark10.1.3Spark与Hadoop的比较Hadoop虽然已成为大数据技术的事实标准,但其本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,启动非常慢,有时甚至启动时间比执行时间还长,这是因为框架最初是为批处理而设计的,因此无法胜任实时、快速计算的需求,一般只适用于离线批处理的应用场景。与大多数数据处理框架不同,Spark并没有利用MapReduce作为计算框架,而是使用自己的分布式集群环境进行并行化计算。由于Spark是基于内存计算的并行计算框架,因此,利用它对数据集做的任何计算都会非常快,在大规模作业时可以大大节省时间。尽管Spark相对于Hadoop而言具有较大的优势,但Spark并不能完全替代Hadoop,它主要用于替代Hadoop中的MapReduce计算模型。其实,Spark已经很好地融入了Hadoop生态圈,成为其中的重要一员,它可以借助YARN实现资源调度管理,借助HDFS实现分布式存储。此外,Hadoop可以使用廉价的、异构的机器来进行分布式存储与计算,但是Spark对硬件、CPU及内存都有一定的要求。

10.2Spark集群模式和Scala在Spark官网文件(/docs/latest/cluster-overview.html)中,可以看到Spark的集群模式架构,如图10-1所示。10.2.1了解Spark的集群模式图10-1Spark的集群模式架构

1

显示全部
相似文档