《分布式计算框架》课程教学大纲.docx
PAGE4
《分布式计算框架》课程教学大纲
(实验课程)
一、课程基本信息
课程号
3023S06019
开课单位
国际学院
课程名称
(中文)分布式计算框架
(英文)DistributedComputingFramework
课程性质
选修
考核类型
考试
课程学分
3
课程学时
17+51周
课程类别
专业发展课程(专业拓展课)
先修课程
程序设计基础、Java程序设计语言、数据结构
适用专业(类)
软件工程
二、课程描述及目标
(一)课程简介
《分布式计算框架》是本专业(类)的一门专业拓展就业创业方向程,重点讲授流行的大数据分布式计算框架HADOOP和SPARK,使学生掌握大数据编程基础知识,能够运用这两个框架解决简单的大数据处理问题。该课程以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域的进一步发展奠定基础、指明方向。课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式并行编程模型MapReduce、基于内存的大数据处理架构Spark及基于这两种框架的简单大数据处理应用案例,本课程的重点是Hadoop、HDFS、MapReduce、Spark,难点是大数据编程。
通过本课程的学习,使学生理解并掌握两个大数据开源框架的使用。
通过本实验课程的训练,使学生加深对课堂教学内容与分布式计算框架Hadoop和Spark的应用,同时培养学生实际的动手能力。
(二)教学目标
通过本课程的学习,使学生掌握大数据的相关概念和大数据处理的基础知识,掌握大数据分布式计算框架Hadoop和Spark的核心构成组件及其应用,掌握用这两个框架解决一些基本的大数据处理问题,如大数据排序,大数据查询等。课程目标包括4个:
课程目标1:掌握大数据的相关概念和技术方法,理解并掌握分布式计算框架HADOOP和SPARK的原理,能用这两个框架解决简单的大数据处理问题。
课程目标2:掌握Hadoop的应用,重点掌握HDFS和MapReduce的应用。
课程目标3:掌握Spark的应用。
课程目标4:培养学生的终身学习能力、创新意识和创新能力以及职业和专业素养。
三、课程目标对毕业要求的支撑关系
毕业要求指标点
课程目标
权重
1-1:分布式开源框架的基础知识及使用方法。
课程目标1
0.6
2-1:求学能力;2-5:创新能力;3-2:创新意识;3-3:职业素养;3-4:专业素养。
课程目标2
0.1
2-3:信息获取能力。
课程目标3
0.1
2-6:组织协调能力;3-4:专业素养。
课程目标4
0.2
四、教学方式与方法
教学方式:课堂讲授+实验指导,案例驱动+学生编程实现。
教学方法:采用理论与实践相结合的教学方法和案例驱动的教学模式,在完成大数据分布式计算框架基本概念、原理、技术的基础上,以具体的案例引导学生掌握大数据分布式计算框架的使用,使学生能够应用大数据分布式计算框架解决一个简单的大数据处理问题,提高学生应用大数据分布式计算框架的能力。
五、教学重点与难点
(一)教学重点
(1)大数据相关概念,包括大数据的5V特征、分布式文件系统、MapReduce编程框架、弹性分布式数据集、内存计算等;(2)大数据分布式计算框架Hadoop;(3)大数据分布式计算框架Hadoop。
(二)教学难点
Hadoop性能优化、Shuffle过程、MapReduce程序调试、弹性分布式数据集RDD的设计与运行原理。
六、教学内容、基本要求与学时分配
序号
教学内容
基本要求
学时
教学
方式
对应课程目标
1
第1章大数据概述
介绍大数据的基本概念和应用领域,并阐述大数据、云计算。
1
讲授
课程目标1-3
2
第2章Spark设计与运行原理
介绍Spark生态系统、运行架构、部署方式等
2
讲授
课程目标1-4
3
第3章Spark环境搭建与使用方法
介绍Spark的安装、运行、应用程序设计及集群环境搭建等
2
讲授
课程目标1
课程目标2
4
第4章RDD编程
介绍RDD编程基础、键值对RDD、数据读写、应用案例
3
讲授
案例
讨论
课程目标1
课程目标2
5
第5章SparkSQL
DataFrame的创建、保存与常用操作;RDD与DataFrame间的转换;数据库读写
2
讲授
讨论
课程目标1
课程目标2
6
第6章Spark
Streaming
DStream的操作使用;基本输入源举例;高级数据源举例;转换与输出
2
讲授
案例
讨论
课程目标3
课程目标4
7
第7章SparkMLlib
介绍机器学习工作流;机器学习中的特征提前、转化与选择;分类和回归举例
3
讲授
案例
讨论
课程目标3
课程目标4
8
第8章Spark架构再