《大数据平台核心技术》课程教学大纲.docx
《大数据平台核心技术》课程教学大纲
课程名称:大数据平台核心技术英文名称:HadoopSpark
课程编码:621010970
学 分:3
学 时:45
开课学期:第二学年春季学期适用专业:信息管理与信息系统专业、电子商务专业、计算机科学与技术等相关专业课程类别:专业学位必修课先修课程:Linux基础、Java面向对象程序设计、操作系统、计算机网络
建议教材:《Hadoop+Spark生态系统操作与实战指南》,第1版,余辉,清华大学出版社,
201709
课程教学目标
以习近平新时代中国特色社会主义思想为指导,贯彻落实立德树人根本任务,将课程思政作为一流课程建设的必要条件。《大数据核心平台与技术》课程在教学过程中,立足本国国情和本校教学实践,充分挖掘本课程的思政元素,系统有机地把思政元素融入线上线下教学全过程,形成技术与思政协同育人效应,培养具有家国情怀、具有全面的数据处理能力的高素质人才。
课程主要目标是让学生熟悉大数据软件生态,掌握以Hadoop和Spark为代表的大数据处理框架。对抽象文件系统HDFS,资源调度系统Yarn,以及计算框架MapReduce有充分的理解和感知。
课程注重培养学生的实验能力,需要学生在云环境或者本地虚拟机中配置好分布式集群,
搭建Hadoop框架,并编写相关的Java程序实现任务需求。
课程教学基本要求
1.教学要求
大数据核心平台与技术这门课程强调锻炼学生的环境配置能力,编程能力,与信息搜集、
分析的能力。在教学过程中需要不断地设计相关的实验训练学生发现问题、解决问题、总结问题地能力,从而掌握足够的大数据相关的技术与知识,可以找到与之相关的就业岗位。2.教学重点
本课程的教学重点内容是HDFS安装与使用、Yarn的安装与使用、ZooKeeper的安装与使用、MapReduce的理解与配置、HBase的理解、Hive的理解、Spark的理解。Java应用程序的编写,Maven的使用。
3.与先后课程的联系
本课程需要学生熟练掌握Linux操作系统、具备较好的Java编程能力,对分布式系统有较好的基础。本课程学习完成之后可以进一步深入学习分布式系统相关课程,也可以编写大型Web/数据库应用程序,与实际工作内容紧密对接。
4.主要教学环节安排
主要教学环节为理论讲解、结果解读以及上机实训。其中以上机实训为主,在操作中讲解理论与方法。
5、教学方法
理论课主要讲解HBase、Yarn、MapReduce、Hive、HDFS的架构与实现逻辑。
实验课主要是实验前的难点进行演示,实验中对学生进行指导,启发学生的手脑并用,培养学生通过实验独立获取知识和操作技能的能力,注重随堂考查,点评学生实验作品和实验报告,不断强化学生的动手能力。
指导学生利用各种途径学习查阅资料,综合利用所学知识和技能,对现实中碰到
的问题进行统计分析;勇于探索和实践,发扬团队精神,培养学生的创新意识。
三、课程教学内容
第一章.大数据理论Hadoop软件生态体系介绍教学内容:介绍大数据技术的发展现状和Hadoop软件生态的组成,架构,发展历史。
教学要求:
向学生介绍大数据技术的发展历史和相关技术,以及在工业界的发展现状。Hadoop基础组件HDFS和计算框架MapReduce介绍,结合运行案例和图示架构进行解说。
教学重点:
HDFS与普通文件系统之间的区别、MapReduce计算逻辑、Hadoop主要组件教学难点:
HDFS和MapReduce第二章.VMware虚拟机软件、CentOS、HDFS教学内容:
VMware虚拟机安装CentOS操作系统、配置主机名和IP地址之间的映射、配置静态IP地址。XShell软件和FileZilla软件介绍与使用,Java环境安装与配置,Hadoop软件包上传到虚拟机。HDFS存储、读写文件的基本逻辑。
教学要求:
解释虚拟机运行Linux操作系统配置操作、教会学生Java环境安装与配置、让学生理解HDFS原理与机制
教学重点:
虚拟机环境配置、HDFS原理
教学难点:
HDFS原理、环境配置
第三章伪分布式Hadoop搭建教学内容:
Hadoop环境变量配置,core-site.xml文件编写,NameNode与DataNode设置,
ResourceManager与NodeManager设定教学要求:掌握伪分布式Hadoop的意义,配置文件表示的含义,物理与逻辑分离的概念教学重点:每个配置文件表示什么意义
教学难点:
XML配置文件的编写
第四章分布式Hadoop集群搭建教学内容:
三台虚拟机环境搭建、SSH免密码登录配置、虚拟机克隆与通信、HDFS服务脚本启动、
Yarn服务脚本启动、Windows端查看集群文件存储。
教学要求:
需要让学生掌握配置的原理