文档详情

《Spark大数据技术与应用案例教程》教案第4课读取学生成绩创建RDD.pdf

发布：2025-04-28约9.8千字共6页下载文档

文本预览下载声明

课题读取学生成绩创建RDD

课时2课时（90min）

知识技能目标：

（1）掌握RDD的执行过程和依赖关系

（2）掌握SparkRDD的创建方法

教学目标

素质目标：

促使学生学习SparkRDD的执行过程、RDD之间的依赖关系，以及创建RDD的不同方法，培养学

生创建SparkRDD——弹性分布式数据集，使用Spark分析和统计学生成绩

教学重点：RDD的执行过程和依赖关系，SparkRDD的创建方法

教学重难点

教学难点：能读取数据创建RDD

教学方法案例分析法、问答法、讨论法、讲授法

教学用电脑、投影仪、多媒体课件、教材

教学过程主要教学内容及步骤

【教师】布置课前任务，和学生负责人取得联系，让其提醒同学通过APP或其他学习软件，完成课

前任务

课前任务

请大家了解RDD的相关知识。

【学生】完成课前任务

【教师】使用APP进行签到

考勤

【学生】班干部报请假人员及原因

【教师】提出以下问题：

问题导入假如让你用Spark分析和统计一个班级的成绩数据，你会如何做？

【学生】思考、举手回答

【教师】通过学生的回答引入新知，介绍SparkRDD的执行过程、SparkRDD之间的依赖关系和

SparkRDD的创建等知识

一、SparkRDD的执行过程

【教师】利用多媒体展示“RDD的特性”和“RDD典型的执行过程”图片，并进行讲解

传授新知

弹性分布式数据集（resilientdistributeddatasets,RDD）是Spark中最基本的抽象概念之一，它是一个

不可变的、弹性的、可分区的分布式数据集合。每个RDD可以分成多个分区，每个分区就是一个数据集

片段。一个RDD的不同分区可以存储在集群的不同节点上，从而实现分布式计算。RDD的特性如图2-1

所示。

RDD的每个元素都可以

被序列化，并且RDD本

RDD一旦创建，就不能修

身也可以序列化的，可序列化

不可变性改，只能通过转换操作生成

这使得RDD可以在网络

新的RDD

上传输

当某个节点或任务发生RDD只支持粗粒度修改，即

故障时，RDD可以自动RDD的只针对整个数据集进行转换

容错性粗粒度性

恢复到正常状态，保证特性操作，不能针对数据集中的

了Spark的容错性某个元素

显示全部

相似文档

《Spark大数据技术与应用案例教程》教案 第4课 读取学生成绩创建RDD.pdf

《Spark大数据技术与应用案例教程》教案第4课读取学生成绩创建RDD.pdf