《数据采集与网络爬虫》考试复习题库(含答案) .pdf
《数据采集与网络爬虫》考试复习题库(含答案)
_、单选题
L使用()语句捕相应的异常。
A、try-except
B、try-catch
C、try-exception
D、try-catcherror
答案:A
2.在python中将字典转化为json,以下选项正确的是()。
A、json.load()
B、json.loads()
C、json.dumpO
D、json.dumpsO
答案:D
.下列选项中,主要负责解析JSON文稿的技术是()。
A、正则表达式
B、XPath
C、BeautifutSoup
D、JSONPath
答案:D
4.Python语言中用来定义函数的关键字是()o
A、return
B、def
C、function
D、efine
答案:B
5.伪造用户headers访问网页主要是伪造()属性。
A、ccept
B、user-agent
C、host
D、accept-encoding
答案:B
6.()是安全的SSL加密传输协议,访问远程网络资源。
A、File
B、FTP
C、HTTP
D、HTTPS
答案:D
7.selenium中,()能关闭浏览器的是。
A、exit()
B、quit()
Cslose()
D、stop()
答案:B
8.threading.Thread()中的target参数用于()°
A、必须为None,目前未实现,是为以后的扩展功能保留的预留参数
B、表示子线程的功能函数,用于为子线程分派任务
C、线程的名称
D、表示是否将线程设为守护线程
答案:B
9.re模块中,以迭代形式返回多个匹配对象的是()。
A、re.finditer()
B、re.findall()
C、re.search()
D、re.pile()
答案:A
lO.Scrapy框架中,属于核心引擎的模块是()。
A、Spiders
B、Scheduler
C、Engine
D、ItemPipeline
答案:C
ll.selenium中,()能实现页面后退。
A、back()
B、next()
C、forwardQ
D、prev()
答案:A
12.,ullillili2lililili4lixli5lili6liul,,
()能取内容为奇数的节点。
A、soup.select(ulli:nth-child⑴)
B、soup.select(,ulli:nth-child(ln),)
C、soup.select(,ulli:[l])
D、soup・select(ulli:[ln]‘)
答案:B
1.bs4中,()表示HTML中的标签,是最基本的信息组织单元。
A、bs4.element.Tag类
B、s4.element.NavigableString类
C、bs4.BeautifulSoup类
D、bs4.element.ment类
答案:A
14.response对象中的encoding,用于()。
A、取请求方式
B、取响应头
C、设置或取响应内容的编码格式,与text属性搭配使用
D、取字符串形式的响应内容
答案:C
15.re.findall(,,A\d[sz]+.,7,8sy)的结果是()。
A、FALSE
B、[”8sy“]
C、null
D、TRUE
答案:B
16.Python提供了()库通过该库可以模拟用户在浏览器上执行诸如单击按钮、
输入文本等行为,取网页上动态加载的数据。
A、requests
B、urlib
C、urlib
D、selenium
答案:D
17.以下关于列表操作的描述,错误的是()。
A、通过append方法可以向列表添加元素
B、通过extend方法可以将另一个列表中的元素逐一添加到列表中
C、通过insert(index,object)方法,在指定位置index前插入元素object
D、通过add方法可以向列表添加元素
答案:D
18.img标签中的()属性,用于指图片地址。()o
A、src
B、