文档详情

Python网络爬虫项目式教程 课后习题及答案汇总 钱游 项目1--7(1).doc

发布:2024-12-15约1.38万字共19页下载文档
文本预览下载声明

复习题

一、单项选择题

1、以下哪些是爬虫技术可能存在风险(D)

A、大量占用爬去网站的资源

B、网站敏感信息的获取造成的不良后果

C、违背网站爬去设置

D、以上都是

2、下列不是urllib库的四大模块的是(C)

A、urllib.requestB、urllib.error

C、urllib.session

D、urllib.robotparser

二、判断题

1、urllib是python内置的处理HTTP请求的库。(对)

2、urllib的request模块可以非常方便地抓取URL内容,可以通过发送一个GET

请求,获取到网页的内容。(对)

3、MongoDB是关系型数据库。(错)

4、爬取网页数据的时候必须遵守robots.txt协议。(错)

5、定期更改网站结构进行可以一定程度上防止网页数据被爬取。(对)

三、简答题

1、请简要回答什么网络爬虫。

网络爬虫,又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动请

求万维网网站并提取网络数据的程序或脚本。

2、请回答开发和使用网络爬虫的好处。

爬虫的出现在一定的程度上代替了手工访问网页,能够实现自动化采集互联

网的数据,以更高地效率去利用互联网中的有效信息。

复习题

一、单项选择题

1、HTTP协议的全称是(D)

A、文件传输协议

B、邮件传输协议

C、远程登录协议

D、超文本传输协议

2、正则表达式R+[0-9]{3},能匹配出以下哪个字符串(D)

A、R3B、039C、R09D、RR093

3、以下正则表达式中,属于非贪婪匹配,且允许出现0次的是(C)

A、.B、.*C、.*?D、.+?

4、下列选项中,发起HTTP请求成功后,服务器响应的状态码是(A)

A、200B、303C、404D、500

二、判断题

1、在python中,一般我们会使用re模块来实现Python正则表达式的功能。(对)2、re.search(pattern,string,flags=0)函数是扫描整个整个字符串,并返回第

一个匹配成功的。(对)

3、re.findall(pattern,string,flags=0)函数是扫描整个字符串,并将结果以

字典形式返回。(错)

4、sub(pattern,repl,string,count=0,flags=0)函数用于字符串中的匹配

项,该函数将匹配上的字符串替换成指定的字符串,返回新的字符串。(对)

5、re.I表示做多行匹配.(错)

三、编程题

1、拆分字符串,将下面诗中的每一句话分别提取出来。

shici=李白乘舟将欲行,忽闻岸上踏歌声。桃花潭水深千尺,不及汪伦送我情。’

参考代码:

shici=李白乘舟将欲行,忽闻岸上踏歌声。桃花潭水深千尺,不及汪伦送我情。

result=shicisplit(r,)

result=shici.split(r。)

foriteminresult:

print(item)

2、提取用户输入数据中的数据(数值包含正数和负数在内的实数)并求和,例

如字符串为:str1=-6.94hello87nice100bye,则和为-6.94+87+100=180.06,请编写程

序实现。

importre

#str1=-3.14good87nice1qbye

nums=re.findall(r-?\d+\.?\d*,strI)

result=sum([float(x)forxinnums])

print(result)

复习题

一、单项选择题

1、关于HTTP相关协议,以下说法错误的是(C)

A、HTTPS在HTTP的基础上加入了SSL协议

B、HTTP全过程分为请求和响应两个阶段

C、HTTP响应状态码404代表服务器正常响应

D、HTTP是应用层协议

2、用HTML标记语言编写一个简单的网页,网页最基本的结构是(D)

A、htmlhead…/headframe…/frame/html

B、htmltitle…/titlebody…/body/html

C、htmltitle…/titleframe…/frame/html

D、htmlhead…/headbody…/body/html

3、下面哪个不是HTML标签名称(D)

A、link

B、table

C、form

D、List

4、如果当前网页请求的url是

/test/images/abc.jpg,那么执行

request.url.split(/)[-1]代码的结果是(A)

A

显示全部
相似文档