文档详情

《Spark大数据技术与应用案例教程》教案 第13课 读取电影评分数据创建DStream.pdf

发布:2025-04-25约1.26万字共7页下载文档
文本预览下载声明

课题读取电影评分数据创建DStream

课时2课时(90min)

知识技能目标:

(1)熟悉基础数据源

(2)熟悉高级数据源

教学目标

(3)掌握读取数据创建DStream的方法

素质目标:

培养自我学习和持续学习能力,能够及时掌握新技术和工具,并将其应用到实际项目中

教学重点:基础数据源、高级数据源

教学重难点

教学难点:读取数据创建DStream

教学方法案例分析法、问答法、讨论法、讲授法

教学用具电脑、投影仪、多媒体课件、教材

教学过程主要教学内容及步骤

【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课

前任务

课前任务

请大家了解什么是数据源,什么是DStream。

【学生】完成课前任务

【教师】使用APP进行签到

考勤

【学生】班干部报请假人员及原因

【教师】提出以下问题:

问题导入

什么是数据源?数据源可分为哪些类型?

(5min)

【学生】思考、举手回答

【教师】通过学生的回答引入新知,介绍基础数据源和高级数据源的相关知识

一、基础数据源

【教师】介绍基础数据源的概念和类型

在SparkStreaming中,基础数据源指的是可以用来读取实时数据并创建DStream的常见数据源。这

些数据源已经被广泛使用和测试,并且被集成到了SparkStreaming框架中,用户只需调用相应的API即

可读取数据。基础数据源包括文件流、套接字流和RDD队列流等。

1.文件流

在SparkStreaming中,文件流(filestream)是一种可以从本地文件系统或分布式文件系统(如

HDFS)中读取数据的输入流。它允许将一个目录视为一个数据源,并读取目录中实时生成或更新的文件。

传授新知

在SparkStreaming中,可以使用textFileStream()方法创建DStream,定义一个输入流,用于监视Hadoop

兼容的文件系统中的新文件,并将其作为文本文件读取。文件必须通过同一文件系统中的另一个位置移

动到监视目录中。该方法的基本格式如下。

textFileStream(directory)

其中,参数directory表示指定的目录。

读取不同文件流创建DStream的参考示例如下。

ssc=StreamingContext(sc,10)

1

#读取本地文件流

dstream_text=ssc.textFileStream(file:///spark_dstream)

#读取HDFS文件流

dstream_hdfs=ssc.textFileStream(hdfs:///spark_dstream)

【教师】通过例子,帮助学生掌握文件流的应用

【例4-1】以读取HDFS文件为例,编写SparkStreaming应用程序实时监视HDFS文件目录,

显示全部
相似文档