《Python网络爬虫技术案例教程》PPT完整全套教学课件.pptx
Python网络爬虫;
第6章模拟登录和处理验证码
第7章爬取App和PC客户端第8章爬虫框架Scrapy
第9章分布式爬虫
第10章项目实战;
第1章网络爬虫入门;
三本章导读
在当今这个数据大爆炸的信息时代,用户与网络的沟通本质上是数据的交换,这导致了互联网信息数据量的爆发式增长。海量的互联网数据蕴含着巨大的价值,用户如何自动高效地从互联网中获取感兴趣的信息并有效地应用是一个亟待解决的问题。在这样的环境和需求的影响下,网络爬虫应运而生,它为互联网数据的采集提供了新的方法。
本章从网络爬虫概述入手,介绍网络爬虫的相关基础知识,包括网络爬虫的原理、分类和应用,网络爬虫工作流程,网络爬虫协议,以及搭建Python开发环境等内容。;
鼾玲fuoy1人d中装泛SMopu!M王得;
1.2网络爬虫工作流程
1.3网络爬虫协议
1.4搭建Python开发环境;
.Python网络爬虫Python
网络爬虫
SectionTitle;
1.1网络爬虫概述
1.1.1网络爬虫原理
网络爬虫又称为“网络蜘蛛”,是一个用来实现自动采集网络数据的程序。如果将互联网比作一张蜘蛛网,互联网上的一个个网页比作蜘蛛网上的一个个节点,那么网页与网页之间的链接关系可以比作节点间的连线,
而网络爬虫就可以比作在网上爬来爬去的蜘蛛。蜘蛛爬到一个节点相当于访问了该网页,提取了信息,然后顺着节点间的连线继续爬行到下一个节点,这样周而复始,蜘蛛就可以爬遍整个网络的所有节点,抓取数据。;
URL列表
为空或满足停
止条件?
否
读取URL并加入已爬取URL列表
新URL是否
已爬取?
下载网页
解析网页并存储数据
获取新URL;
1.1网络爬虫概述
(1)预先设定一个或若干个初始网页的URL,将初始URL加入待爬取URL列表中。
(2)从待爬取列表中逐个读取URL,并将URL加入已爬取URL列表中,然后下载网页。
(3)解析已下载的网页,提取所需的数据和新的URL,并存储提取的数据。
(4)将新的URL与已爬取的URL??表进行比对,检查该网页是否已爬取,如果网页没有被爬取,则将新的URL放入待爬取URL列表的末尾,等待读取。
(5)如此往复,直到待爬取URL列表为空或者满足设定的终止条件,最终达到遍历网页的目的。;
统一资源定位符(UniformResourceLocator,URL)是对可以从互联网上得到的资源位置和访问方法的一种简洁表示,是互联网上标准资源的地址。;
1.1网络爬虫概述
1.1.2网络爬虫分类
网络爬虫按照系统结松积工作原理的不同,大致平以分为四类:;
(1)通用网络爬虫又称全网爬虫,是
根据网络爬虫的基本原理实现的,它所爬取的目标会从初始设定的URL扩充到全网。通用网络爬虫主要应用于门户网站、搜索引擎和大型网络服务提供商的数据采集。;
(2)聚焦网络爬虫爬取的目标是与预先定义好
的主题相关的网页。与通用网络爬虫相比,聚焦网络爬虫只选择爬取与主题相关的网页,极大地节省了硬件和网络资源,它主要应用于对特定领域信息有需求的场景。聚焦网络爬虫在通用网络爬虫的基础上,需要对提取的新URL进行过滤处理,过滤掉与目标主题无关的网页,且根据一定的相关性搜索策略,确定待爬取URL列表的读取顺序。;
(3)增量式网络爬虫爬取的目标是有更新的已
下载网页和新产生的网页。爬虫程序监测网站数据更新的情况,然后在需要的时候只爬取发生更新或新产生的网页。这样,可有效减少数据下载量,及时更新已爬取的网页,但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫主要应用于网页内容会时常更新的网站,或者不断有新网页出现的网站。;
(4)深层网络爬虫爬取的目标是不能通过静态
链接获取的,隐藏在搜索表单后的,只有用户提交一些关键词才能获得的网页,如用户注册后才可显示内容的网页。;
1.1网络爬虫概述
1.1.3网络爬虫应用
每个独立的搜索引擎都有自己的爬虫程序,爬虫程序每天连续地爬取相关网站,提取信息保存到索引数据库中,如Google爬虫Googlebot、百度爬虫Baidusp