文档详情

Python爬虫大数据采集与挖掘-微课视频版-课件全套 曾剑平 第二版-1--12 概述、 Web页面及相关技术 ---互联网大数据获取技术的应用.ppt

发布:2025-04-16约4.39万字共541页下载文档
文本预览下载声明

?必选类型及范围说明access_tokentruestring采用OAuth授权方式为必填参数,OAuth授权后获得。idtrueint64需要获取的微博ID。返回值字段字段类型字段说明created_atString微博创建时间Idint64微博IDreposts_countInt转发数comments_countInt评论数TextString微博信息内容识别过程爬虫对表单项的标签、HTML编码中的id、name进行模式识别,一旦发现与库中的概念相同或者接近的,则可以先与概念关联起来。可以使用启发式规则,规则依赖于当前中英文的WEB表单。按照从上往下,从左往右的阅读习惯,可以在表单字段域的左边或者上面获得提示信息和字段标签填写表单按照字段与领域本体知识库中概念相似程度进行匹配,将本体知识库中的属性值作为表项值。由于表单项一般会不只一个,因此在填写表单时应当考虑到,优先选择哪个表单项进行填写。主要的目的是要确保提交的表单查询次数尽量少,并且查询到数据记录之间避免重复。结果处理HTTP的返回内容则需要进行格式、结构、关键字校验对返回的结果进行自动提取时,需要将每个记录的内容与字段对应起来。(1)记录集的样式判断,记录集可以按照横向、纵向来组织,需要分析字段名称是显示在第一行或第一列。(2)结果集中的字段名称与表单项可能不完全一致,也可能出现新的字段名称,需要对字段标签进行再分析。提纲相关概念DeepWeb特征和采集要求技术架构图书信息采集例子/advsearch确认没有被disallow图书查询目标使用“出版社”进行查询自动寻找“出版社”所在的位置(因今后版面可能调整)自动填写出版社名称自动提交命令自动解析结果#定位input标签:寻找“出版社”对应的参数名称

input_tag_name=

conditions=soup.select(.box2.detail_conditionlabel)

print(共找到%d项基本条件,正在寻找input标签%len(conditions))

foriteminconditions:

text=item.select(span)[0].string

iftext==出版社:

input_tag_name=item.select(input)[0].get(name)

print(已经找到input标签,name:,input_tag_name)

提交方式的分析查询提交的表单的源代码#图书查询表单formid=form1method=GETaction=name=form1.../formmethod=GET表明这个表单使用get方式提交。通过URL:对应get方式。get提交表单会将表单内的数据转化为url参数进行提交。在提交表单后,可以在浏览器内的url显示表单的name/value值。#填写’新星出版社’并提交表单后/?medium=01key3=%D0%C2%D0%C7%B3%F6%B0%E6%C9%E7category_path=01.00.00.00.00.00黑体部分即为提交的参数值完整流程见教材8.4Python爬虫大数据采集与挖掘(9)

--微博信息采集与Python实现《Python爬虫大数据采集与挖掘》第二版.微课视频版(清华大学出版社,2025)教材《Python爬虫大数据采集与挖掘》及配套公众号

(当当、京东可购书)提纲微博信息采集方法概述微博开放平台授权与测试使用Python调用微博API采集数据通过爬虫采集微博常见的SNS平台的信息采集途径主要可以分为如下两种:通过平台提供的开放API获取数据和通过爬虫方式采集数据。微博API是微博官方开放的一组程序调用接口,通过这些API能够获得微博的博文、用户信息及用户关系信息等数据。但是在非商业授权下有较大的使用限制,能够获取的数据量有限。通过爬虫方式采集数据的方法,具体又可以分为两种,即,通过模拟用户行为进行页面分析与数据采集、通过模拟移动终端客户端进行数据采集。通过平台开放API获取数据的方式与爬虫方式的主要区别在于前者需要注册平台开发者身份。在获取数据前使用平台约定的方式进行身份认证。后者本质上是模拟终端或者用户的方式,主要思路是通过平台公开的页面编码内容进行请求命令的构造,并对返回的数据进行分析和提取,具体方法与前面第五章介绍的方法类似。提纲微博信息

显示全部
相似文档