文档详情

《Spark大数据技术与应用案例教程》教案第13课读取电影评分数据创建DStream.pdf

发布：2025-04-25约1.26万字共7页下载文档

文本预览下载声明

课题读取电影评分数据创建DStream

课时2课时（90min）

知识技能目标：

（1）熟悉基础数据源

（2）熟悉高级数据源

教学目标

（3）掌握读取数据创建DStream的方法

素质目标：

培养自我学习和持续学习能力，能够及时掌握新技术和工具，并将其应用到实际项目中

教学重点：基础数据源、高级数据源

教学重难点

教学难点：读取数据创建DStream

教学方法案例分析法、问答法、讨论法、讲授法

教学用具电脑、投影仪、多媒体课件、教材

教学过程主要教学内容及步骤

【教师】布置课前任务，和学生负责人取得联系，让其提醒同学通过APP或其他学习软件，完成课

前任务

课前任务

请大家了解什么是数据源，什么是DStream。

【学生】完成课前任务

【教师】使用APP进行签到

考勤

【学生】班干部报请假人员及原因

【教师】提出以下问题：

问题导入

什么是数据源？数据源可分为哪些类型？

（5min）

【学生】思考、举手回答

【教师】通过学生的回答引入新知，介绍基础数据源和高级数据源的相关知识

一、基础数据源

【教师】介绍基础数据源的概念和类型

在SparkStreaming中，基础数据源指的是可以用来读取实时数据并创建DStream的常见数据源。这

些数据源已经被广泛使用和测试，并且被集成到了SparkStreaming框架中，用户只需调用相应的API即

可读取数据。基础数据源包括文件流、套接字流和RDD队列流等。

1．文件流

在SparkStreaming中，文件流（filestream）是一种可以从本地文件系统或分布式文件系统（如

HDFS）中读取数据的输入流。它允许将一个目录视为一个数据源，并读取目录中实时生成或更新的文件。

传授新知

在SparkStreaming中，可以使用textFileStream()方法创建DStream，定义一个输入流，用于监视Hadoop

兼容的文件系统中的新文件，并将其作为文本文件读取。文件必须通过同一文件系统中的另一个位置移

动到监视目录中。该方法的基本格式如下。

textFileStream(directory)

其中，参数directory表示指定的目录。

读取不同文件流创建DStream的参考示例如下。

ssc=StreamingContext(sc,10)

#读取本地文件流

dstream_text=ssc.textFileStream(file:///spark_dstream)

#读取HDFS文件流

dstream_hdfs=ssc.textFileStream(hdfs:///spark_dstream)

【教师】通过例子，帮助学生掌握文件流的应用

【例4-1】以读取HDFS文件为例，编写SparkStreaming应用程序实时监视HDFS文件目录，

显示全部

相似文档

《Spark大数据技术与应用案例教程》教案 第13课 读取电影评分数据创建DStream.pdf

《Spark大数据技术与应用案例教程》教案第13课读取电影评分数据创建DStream.pdf