《网络爬虫与信息提取》20春期末考核(参考答案)南开大学 答案

[复制链接]
查看: 986|回复: 2

23万

主题

23万

帖子

32万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
329392
发表于 2020-9-3 16:51:28 | 显示全部楼层 |阅读模式
《网络爬虫与信息提取》20春期末考核-00001
试卷总分:100  得分:10
一、单选 (共 20 道试题,共 40 分)
1.如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()
A.列表
B.元组
C.字典
D.集合
正确答案:

2.使用UI Automatorr输入文字的操作是得到相应控件后使用命令()
A.settext
B.set
C.set_text
D.text
正确答案:

3.在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
正确答案:

4.HTTP常用状态码表明服务器正忙的是()
A.500
B.503
C.403
D.404
正确答案:

5.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
A.XSS
B.DOS
C.DDOS
D.跨域
正确答案:

.使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()
A.exist
B.exists
C.isnull
D.contains
正确答案:

1.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
A.Cookie
B.Html
C.Headers
D.CSS
正确答案:

8.Redis中查看一个列表长度,使用关键字()
A.len
B.length
C.llen
D.count
正确答案:

9.使用Xpath获取文本使用()
A.text
B.text()
C.content
D.content()
正确答案:

10.使用python定制mitmproxy,下面的语句请求的是()。{re .headers[& uot;User-Agent& uot;]}
A.headers
B.文本内容
C.目标网站
D.user-agent
正确答案:

11.Python中Object={1, 2, 3, 4, 5},则Objcet是()
A.列表
B.元组
C.字典
D.集合
正确答案:

12.在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
正确答案:

13.Redis是一个开源的使用()语言编写
A.ANSI C
B.C++
C.JAVA
D.Python
正确答案:

14.某些网站在发起Ajax请求时会携带()字符串用于身份验证
A.Token
B.Cookie
C.Re Time
D.sum
正确答案:

15.使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令()
A.wakeup
B.light
C.bright
D.sleep
正确答案:

1 .Chrome的开发者工具中哪个选项可以查找到cookies
A.Elements
B.Sources
C.Network
D.Peformance
正确答案:

11.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表
B.元组
C.字典
D.集合
正确答案:

18.以下哪个命令是创建文件夹命令()
A.curl
B.tar -zxvf
C.mkdir
D.cp
正确答案:

19.可以通过()绕过网站登录。
A.session
B.cookies
C.moonpies
D.localstorage
正确答案:

20.Python中把列表转换为集合需要使用##函数
A.set
B.list
C.convert
D.change
正确答案:

二、多选题 (共 5 道试题,共 10 分)
21.Python中的容器有()
A.列表
B.元组
C.字典
D.集合
正确答案:BCD

22.HTTP常用状态码表明表明服务器本身发生错误的有()
A.403
B.404
C.500
D.503
正确正确答案:

23.Python中哪种容器生成后可以修改内容
A.列表
B.元组
C.字典
D.集合
正确正确正确答案:

24.最常见的HTTP请求类型有()
A.GET
B.POST
C.SEND
D.RECEIVE
正确答案:B

25.BS4可以用来从()中提取数据
A.HTML
B.XML
C.数据库
D.JSON
正确答案:B

三、答案来源:雅宝题库交流网(www.ybaotk.com) (共 10 道试题,共 20 分)
2 .在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
答案:错误

21.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
答案:正确

28.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
答案:错误

29.Robo 3T与RoboMongo是完全不一样的软件
答案:错误

30.Python正则表达式中& uot;.*?& uot;是非贪婪模式,获取最短的能满足条件的字符串。
答案:正确

31.Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
答案:错误

32.爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
答案:错误

33.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
答案:错误

34.middlewares.py是下载器中间件
答案:错误

35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
答案:错误

四、主观填空题 (共 4 道试题,共 8 分)
3 .使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控##中的数据,并不读取start_urls中的数据。
答案:Redis

31.一般通过##表达式来解析网页数据
答案:正则

38.实现异步加载需要利用##技术
正确答案:jax

39.Python中定义函数关键字为##
正确答案:ef

五、更多答案下载:雅宝题库交流网(www.ybaotk.com) (共 2 道试题,共 10 分)
40.Python正则表达式中search和findall方法比较
答案:search()的用法和findall()的用法一样,但是search()只会返回第1个满足要求的字符串。一旦找到符合要求的内容,它就会停止查找。<br><br>

41.在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?
答案:可以使用一些代理工具来让网络变得稳定,例如ProxyChains。

六、更多答案下载:雅宝题库交流网(www.ybaotk.com) (共 4 道试题,共 12 分)
42.multiprocessing
答案:multiprocessing本身是Python的多进程库,用来处理与多进程相关的操作

43.URI
答案:Uniform Resource Identifier,统一资源标志符<br><br>

44.CSS
正确答案:ascading Style Sheets,层叠样式表<br><br>

45.HTML
答案:HTML是一种结构化的标记语言,可以描述一个网页的结构信息<br><br>





上一篇:《药物分析学》20春期末考试南开大学 答案
下一篇:《职业生涯管理》20春期末考试南开大学 答案
回复

使用道具 举报

0

主题

5万

帖子

8万

积分

论坛元老

Rank: 8Rank: 8

积分
82777
发表于 2020-9-3 16:52:07 | 显示全部楼层
不错,雅宝题库交流网很信誉
回复

使用道具 举报

0

主题

2万

帖子

2万

积分

论坛元老

Rank: 8Rank: 8

积分
26902
发表于 2020-9-3 16:53:03 | 显示全部楼层
不错,雅宝题库交流网很信誉
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图