文档详情

《网络爬虫项目实践》课件_项目一:网页数据获取(教案).docx

发布:2025-02-13约1.55千字共5页下载文档
文本预览下载声明

项目一网页数据获取

教案

课程名称:网络爬虫项目实践

课程类别:必修

适用专业:大数据技术类相关专业

总学时:64学时(其中理论28学时,实验36学时)

总学分:4.0学分

本章学时:3学时

材料清单

《网络爬虫项目实践》教材。

配套PPT。

引导性提问。

探究性问题。

拓展性问题。

教学目标与基本要求

教学目标

网页数据爬取是互联网行业的一项重要的基础能力,“网页数据”包括网页上的文字、图像、声音、视频和动画等。本项目网页数据获取将通过三个任务由浅入深来完成如何爬取网页数据。任务1,通过读书网信息爬取任务,介绍正则表达式爬取数据方法,以及处理数据乱码和爬取链接不完整的方法。任务2,通过今日头条数据爬取任务,阐述关键字搜索、重定向网页过滤、MongoDB数据库使用方法。最后,任务3,通过京东动态渲染页面的信息爬取,讲授了动态渲染页面的爬取过程、Selenium构造自定义浏览器渲染引擎搜索关键字和模拟翻页、PyQuery分析页面源代码获取商品内容,最后保存数据信息至MongoDB。

、基本要求

熟练掌握第三方库的安装方法

熟练掌握requests库的使用

熟练掌握re库的使用

熟练掌握JOSN数据爬取方式

熟练掌握Selenium、PyMongo、PyQuery模块的使用方法

熟练使用Python的多进程数据爬取方式

熟练掌握爬虫结果乱码处理方式

问题

引导性提问

引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。

网页数据获取能够做什么?

网页数据获取都使用了哪些技术?

Python进行网页数据获取的优势?

探究性问题

探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。

网页数据获取能够应用在哪些场景?

不同页面的数据获取方法有什么不同?

拓展性问题

拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。

网页数据获取可以应用在哪些行业?

网页数据获取得到的数据如何进行数据分析?

主要知识点、重点与难点

主要知识点

requests库的使用。

re库的使用。

JOSN数据爬取方式。

Selenium、PyMongo、PyQuery模块的使用方法。

Python的多进程数据爬取方式。

爬虫结果乱码处理方式。

重点

第三方库的安装。

第三方库的使用。

JSON数据爬取。

中文乱码问题的处理。

难点

第三方库的使用方法。

JSON数据爬取。

教学过程设计

理论教学过程

网页数据获取的概念和意义。

不同网页数据获取的流程。

网页数据获取的应用场景。

网页数据获取常用工具的安装和使用方法。

网页数据获取的常用类库。

实验教学过程

网页结构分析

第三方库安装

解决爬虫中文乱码

网页数据爬取

爬取网页数据

获取搜索结果

详情解析详情页

数据保存数据

搜索关键字

分析页面并翻页

分析提取商品内容

信息保存至MongoDB

教材与参考资料

教材

李程文,唐建生,冯欣悦.网络爬虫项目实践[M].西安:西安电子科技大学出版社.2023.

参考资料

[1] 赵国生,王健.python网络爬虫技术与实战[M].北京:机械工业出版社.2021.

[2] 黑马程序员.Python网络爬虫基础教程[M].北京:人民邮电出版社.2022.

[3] 罗刚,王振东.Python网络爬虫从入门到精通[M].北京:清华大学出版社.2023.

显示全部
相似文档