《Python网络爬虫技术案例教程》课程标准.pdf
《Python网络爬虫技术案例教程》
课程标准
【课程名称】Python网络爬虫【课程编码】
【课程类别】专业必修课
【适用专业】计算机、大数据、人工智能等相关专业
【授课单位】【总学时】56
【编写执笔人】【编写日期】
一、课程性质和课程设计
1.1课程制定依据
随着大数据和人工智能技术的快速发展,网络爬虫技术在数据获取、信息检索、市场分
析等领域扮演着越来越重要的角色。因此,该课程的制定首先需要考虑行业对爬虫技术人才
的需求,以及如何通过课程培养具备爬虫技术能力的专业人才。
在制定课程时,需要参考计算机科学和相关学科的知识体系,确保课程内容涵盖网络爬
虫的基本原理、技术方法、实践应用等方面。同时,还需要遵循教学大纲的要求,合理安排
课程的学时、学分、教学内容和教学方法等。
1.2课程性质与作用
本课程是计算机、大数据、人工智能等相关专业的专业必修课,课程全面地介绍了Python
网络爬虫在不同场景下采用不同技术爬取网络数据的方法,内容包括网络爬虫入门、爬虫基
础、网页解析基础、爬取动态加载数据、反爬虫策略、模拟登录和处理验证码、爬取App
和PC客户端数据、爬虫框架Scrapy、分布式爬虫等。课程强调实践操作,让学生在完成具
体项目的过程中学会使用Python进行网络爬虫开发,并构建相关理论知识,提升解决实际
问题的能力。
本课程的前续课程为:“Python程序设计基础”“HTML5基础”“数据库技术”;与本课程
可以平行开展的课程为web后台技术类课程如:“PHP开发基础”“Web应用开发技术”等
相关课程;本课程的后续课程为“Python数据分析技术”。
1.3课程设计思路
本课程首先以计算机、大数据、人工智能等专业相关的岗位职业能力分析为基础,课程
设计面向整个直接对应的工作岗位,并围绕工作过程,将从业所需要的知识、技能、态度有
机地整合在一起,以切实培养学生的职业岗位技能。因此,课程的设计以典型工作任务为逻
辑起点,特别强调在培养职业专门技能的同时,兼顾到学生将来可持续发展能力的培养,形
成了“岗位+职业发展”的基于工作过程的课程设计理念。
二、课程目标
2.1知识目标
(1)理解网络爬虫的原理、分类和应用。
(2)掌握网络爬虫的工作流程。
(3)了解网络爬虫协议。
(4)理解HTTP的基本原理。
(5)了解urllib库的使用方法。
(6)掌握requests库的使用方法。
(7)了解Python中的字符编码。
(8)理解网页基础知识。
(9)掌握lxml库的使用方法。
(10)掌握beautifulsoup4库的使用方法。
(11)了解正则表达式的使用方法。
(12)掌握存储数据至JSON或CSV文件的方法。
(13)理解什么是动态加载数据。
(14)掌握使用逆向分析请求页面爬取动态加载数据的方法。
(15)掌握使用Selenium模拟浏览器爬取动态加载数据的方法。
(16)掌握将数据存储至MySQL数据库和MongoDB数据库的方法。
(17)理解反爬虫的原因。
(18)了解反爬虫策略。
(19)掌握应对反爬虫的措施。
(20)理解Session会话机制。
(21)掌握使用Session模拟登录并保持登录状态的方法。
(22)掌握处理图片验证码、点触验证码和滑动拼图验证码的方法。
(23)掌握使用Fiddler爬取Android手机App数据的方法。
(24)掌握使用Fiddler和Proxifier爬取PC客户端数据的方法。
(25)理解Scrapy框架的构成。
(26)掌握使用Scrapy框架创建爬虫程序获取所需数据的方法。
(27)理解分布式爬虫原理。
(2