文档详情

《Spark大数据技术与应用案例教程》教案 第4课 读取学生成绩创建RDD.pdf

发布:2025-04-28约9.8千字共6页下载文档
文本预览下载声明

课题读取学生成绩创建RDD

课时2课时(90min)

知识技能目标:

(1)掌握RDD的执行过程和依赖关系

(2)掌握SparkRDD的创建方法

教学目标

素质目标:

促使学生学习SparkRDD的执行过程、RDD之间的依赖关系,以及创建RDD的不同方法,培养学

生创建SparkRDD——弹性分布式数据集,使用Spark分析和统计学生成绩

教学重点:RDD的执行过程和依赖关系,SparkRDD的创建方法

教学重难点

教学难点:能读取数据创建RDD

教学方法案例分析法、问答法、讨论法、讲授法

教学用电脑、投影仪、多媒体课件、教材

教学过程主要教学内容及步骤

【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课

前任务

课前任务

请大家了解RDD的相关知识。

【学生】完成课前任务

【教师】使用APP进行签到

考勤

【学生】班干部报请假人员及原因

【教师】提出以下问题:

问题导入假如让你用Spark分析和统计一个班级的成绩数据,你会如何做?

【学生】思考、举手回答

【教师】通过学生的回答引入新知,介绍SparkRDD的执行过程、SparkRDD之间的依赖关系和

SparkRDD的创建等知识

一、SparkRDD的执行过程

【教师】利用多媒体展示“RDD的特性”和“RDD典型的执行过程”图片,并进行讲解

传授新知

弹性分布式数据集(resilientdistributeddatasets,RDD)是Spark中最基本的抽象概念之一,它是一个

不可变的、弹性的、可分区的分布式数据集合。每个RDD可以分成多个分区,每个分区就是一个数据集

片段。一个RDD的不同分区可以存储在集群的不同节点上,从而实现分布式计算。RDD的特性如图2-1

所示。

1

RDD的每个元素都可以

被序列化,并且RDD本

RDD一旦创建,就不能修

身也可以序列化的,可序列化

不可变性改,只能通过转换操作生成

这使得RDD可以在网络

新的RDD

上传输

当某个节点或任务发生RDD只支持粗粒度修改,即

故障时,RDD可以自动RDD的只针对整个数据集进行转换

容错性粗粒度性

恢复到正常状态,保证特性操作,不能针对数据集中的

了Spark的容错性某个元素

显示全部
相似文档