文档详情

基于Python爬虫设计的豆瓣数据采集.docx

发布:2024-06-23约2.71万字共36页下载文档
文本预览下载声明

PAGEI

基于Python爬虫设计的豆瓣数据采集

摘要

Python爬虫技术是近几年写出现的一种通过系统访问网址并且通过程序指令的方式由网页源代码上模拟人类访问网页的方式下载相关内容的新技术。具体执行方式与人类访问网址有相似的地方也与许多不同。因为爬虫本身也可以说是一种机器人系统,所以高效和高针对性都是人较之不及的。并且在庞大互联网上,人类能处理的数据已经极为渺小了。

Python程序中的request模块将自身程序通过修改useragent头文件的形式模拟成正常计算机访问网页,后又通过获取网页源文件的形式将整个网页捕捉到,之后进行XPath和正则表达式检索数据,最后将检索出的数

显示全部
相似文档