《Spark大数据技术与应用案例教程》教案 第4课 读取学生成绩创建RDD.pdf
课题读取学生成绩创建RDD
课时2课时(90min)
知识技能目标:
(1)掌握RDD的执行过程和依赖关系
(2)掌握SparkRDD的创建方法
教学目标
素质目标:
促使学生学习SparkRDD的执行过程、RDD之间的依赖关系,以及创建RDD的不同方法,培养学
生创建SparkRDD——弹性分布式数据集,使用Spark分析和统计学生成绩
教学重点:RDD的执行过程和依赖关系,SparkRDD的创建方法
教学重难点
教学难点:能读取数据创建RDD
教学方法案例分析法、问答法、讨论法、讲授法
教学用电脑、投影仪、多媒体课件、教材
教学过程主要教学内容及步骤
【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课
前任务
课前任务
请大家了解RDD的相关知识。
【学生】完成课前任务
【教师】使用APP进行签到
考勤
【学生】班干部报请假人员及原因
【教师】提出以下问题:
问题导入假如让你用Spark分析和统计一个班级的成绩数据,你会如何做?
【学生】思考、举手回答
【教师】通过学生的回答引入新知,介绍SparkRDD的执行过程、SparkRDD之间的依赖关系和
SparkRDD的创建等知识
一、SparkRDD的执行过程
【教师】利用多媒体展示“RDD的特性”和“RDD典型的执行过程”图片,并进行讲解
传授新知
弹性分布式数据集(resilientdistributeddatasets,RDD)是Spark中最基本的抽象概念之一,它是一个
不可变的、弹性的、可分区的分布式数据集合。每个RDD可以分成多个分区,每个分区就是一个数据集
片段。一个RDD的不同分区可以存储在集群的不同节点上,从而实现分布式计算。RDD的特性如图2-1
所示。
1
RDD的每个元素都可以
被序列化,并且RDD本
RDD一旦创建,就不能修
身也可以序列化的,可序列化
不可变性改,只能通过转换操作生成
这使得RDD可以在网络
新的RDD
上传输
当某个节点或任务发生RDD只支持粗粒度修改,即
故障时,RDD可以自动RDD的只针对整个数据集进行转换
容错性粗粒度性
恢复到正常状态,保证特性操作,不能针对数据集中的
了Spark的容错性某个元素