山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》【精选】.doc
文本预览下载声明
大学课件
PAGE
大学教育
大学课件
大学教育
山东建筑大学
课 程 设 计 成 果 报 告
题 目: 基于Python的网络爬虫设计
课 程: 计算机网络A
院 (部): 管理工程学院
专 业: 信息管理与信息系统
班 级:
学生姓名:
学 号:
指导教师:
完成日期:
大学教育
目 录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc1984 1 设计目的 PAGEREF _Toc1984 1
HYPERLINK \l _Toc21183 2 设计任务内容 PAGEREF _Toc21183 1
HYPERLINK \l _Toc31377 3 网络爬虫程序总体设计 PAGEREF _Toc31377 1
HYPERLINK \l _Toc3037 4 网络爬虫程序详细设计 PAGEREF _Toc3037 1
HYPERLINK \l _Toc5152 4.1 设计环境和目标分析 PAGEREF _Toc5152 1
HYPERLINK \l _Toc913 4.1.1 设计环境 PAGEREF _Toc913 1
HYPERLINK \l _Toc9857 4.1.2 目标分析 PAGEREF _Toc9857 2
HYPERLINK \l _Toc3097 4.2 爬虫运行流程分析 PAGEREF _Toc3097 2
HYPERLINK \l _Toc18826 4.3 控制模块详细设计 PAGEREF _Toc18826 3
HYPERLINK \l _Toc31291 4.3 爬虫模块详细设计 PAGEREF _Toc31291 3
HYPERLINK \l _Toc21002 4.3.1 URL管理器设计 PAGEREF _Toc21002 3
HYPERLINK \l _Toc19372 4.3.2 网页下载器设计 PAGEREF _Toc19372 3
HYPERLINK \l _Toc10307 4.3.3 网页解析器设计 PAGEREF _Toc10307 3
HYPERLINK \l _Toc21226 4.4数据输出器详细设计 PAGEREF _Toc21226 4
HYPERLINK \l _Toc16859 5 调试与测试 PAGEREF _Toc16859 4
HYPERLINK \l _Toc22474 5.1 调试过程中遇到的问题 PAGEREF _Toc22474 4
HYPERLINK \l _Toc8042 5.2测试数据及结果显示 PAGEREF _Toc8042 5
HYPERLINK \l _Toc22319 6 课程设计心得与体会 PAGEREF _Toc22319 5
HYPERLINK \l _Toc17183 7 参考文献 PAGEREF _Toc17183 6
HYPERLINK \l _Toc18437 8 附录1 网络爬虫程序设计代码 PAGEREF _Toc18437 6
HYPERLINK \l _Toc6111 9 附录2 网络爬虫爬取的数据文档 PAGEREF _Toc6111 9
1 设计目的
本课程设计是信息管理与信息系统专业重要的实践性环节之一,是在学生学习完《计算机网络》课程后进行的一次全面的综合练习。本课程设计的目的和任务:
1.巩固和加深学生对计算机网络基本知识的理解和掌握;
2.培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力;
3.提高学生进行技术总结和撰写说明书的能力。
2 设计任务内容
网络爬虫是从web中发现,下载以及存储内容,是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
参照开放源码分析网络爬虫实现方法,给出设计方案,画出设计流程图。
选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。
3 网络爬虫程序总体设计
URL管理器
URL管理器
数据输出器网页下载器网页解析器爬虫控制器
数据输出器
网页下载器
网页解析器
爬虫控制器
在本爬虫程序中共有三个模块:
爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况
爬虫模块:包含三个小模块,URL管理器、网页下载器、网页解析器。
URL管理器:对需要
显示全部