第4章 Spark SQL结构化数据处理模块-教学设计.doc
博学谷——让IT教学更简单,让IT学习更有效
PAGE12
PAGE2
《Spark大数据分析与实战(第2版)》
教学设计
课程名称:
授课年级:
授课学期:
教师姓名:
年月
课题名称
第4章SparkSQL结构化数据处理模块
计划课时
6课时
教学引入
对于不熟悉Scala语言或SparkAPI的用户,SparkSQL提供了一种基于SQL语句处理结构化数据的能力。该模块通过熟悉的SQL语法降低了分布式计算的学习门槛,使开发者无需深入掌握编程接口即可利用Spark框架的分布式计算能力。本章将针对SparkSQL的基本原理和使用方式进行详细讲解。
教学目标
使学生了解SparkSQL,能够说出SparkSQL的特点
使学生熟悉SparkSQL架构,能够说明Catalyst内部组件的运行流程
使学生熟悉DataFrame的基本概念,能够说明DataFrame与RDD在结构上的区别
使学生掌握DataFrame的创建,能够通过读取数据文件创建DataFrame
使学生掌握DataFrame的常用操作,能够使用DSL风格和SQL风格操作DataFrame
使学生掌握DataFrame的函数操作,能够使用标量函数和聚合函数操作DataFrame
使学生掌握RDD与DataFrame的转换,能够通过反射机制和编程方式将RDD转换成DataFrame
使学生了解Dataset,能够说出RDD、DataFrame与Dataset的区别
使学生掌握Dataset的创建,能够通过读取数据文件创建Dataset
使学生掌握SparkSQL操作数据源,能够使用SparkSQL操作MySQL和Hive
教学重点
DataFrame的创建
DataFrame的常用操作
DataFrame的函数操作
反射机制推断Schema
编程方式定义Schema
Dataset的创建
SparkSQL操作MySQL
SparkSQL操作Hive
教学难点
SparkSQL架构
DataFrame的函数操作
反射机制推断Schema
编程方式定义Schema
教学方式
课堂教学以PPT讲授为主,并结合实际操作进行教学
教
学
过
程
第一、二课时
(SparkSQL的简介、SparkSQL架构、DataFrame简介、DataFrame的创建、DataFrame的常用操作、DataFrame的函数操作)
一、复习巩固
教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲解。
二、通过直接导入的方式导入新课
SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作DataFrame的编程抽象结构数据模型,即带有元数据信息的RDD。SparkSQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrameAPI和DatasetAPI3种方式实现对结构化数据的处理。在本节课中,我们针对SparkSQL和DataFrame的基础知识,以及DataFrame基础操作进行讲解。
三、新课讲解
知识点1-SparkSQL的简介
教师通过PPT的方式讲解SparkSQL的简介。
介绍SparkSQL的特点
支持多种数据源
支持标准连接
支持无缝集成
知识点2-SparkSQL架构
教师通过PPT的方式讲解SparkSQL架构。
介绍SparkSQL底层架构
介绍Catalyst中各组件的运行流程
知识点3-DataFrame简介
教师通过PPT的方式讲解DataFrame简介。
介绍DataFrame的概念,以及它与RDD在结构上的区别
知识点4-DataFrame的创建
教师通过PPT结合实际操作的方式讲解DataFrame的创建。
介绍创建SparkSession对象的两种方式
演示基于YARN集群的运行模式启动SparkShell查看默认创建的SparkSession
介绍常见读取数据创建DataFrame的方法
演示通过读取JSON文件创建DataFrame
知识点5-DataFrame的常用操作
教师通过PPT结合实际操作的方式讲解DataFrame的常用操作。
DSL风格
SQL风格
知识点6-DataFrame的函数操作
教师通过PPT结合实际操作的方式讲解DataFrame的函数操作。
标量函数操作
内置标量函数
自定义标量函数
聚合函数操作
内置聚合函数
自定义聚合函数
四、归纳总结
教师回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。
五、布置作业
教师通过高校教辅平台