[南开大学]20秋学期《网络爬虫与信息提取》在线作业拿答案加微信：1144766066-1

123456aa · 发表于 2020-10-17 11:55:36

答案来源：雅宝题库交流网（www.ybaotk.com）-[南开大学]20秋学期（1109、1803、1809、1903、1909、2003、2009 ）《网络爬虫与信息提取》在线作业拿答案加微信：1144766066
试卷总分拿答案加微信:100 得分拿答案加微信:100
第1题,()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具
A、Scrapyd
B、ScrapyDeploy
C、Deploy
D、Scrapy_Deploy
正确答案:

第2题,当爬虫创建好了之后,可以使用& uot;scrapy()& uot; 命令运行爬虫。
A、startup
B、starwar
C、drawl
D、crawl
正确答案:

第3题,在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:

第4题,使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
A、swipe
B、move
C、scroll
D、fly
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,windows中创建定时任务的命令为
A、task
B、schtasks
C、createtasks
D、maketasks
正确答案:

第题,MongoDB中数据存储的形式类似于()
A、列表
B、元组
C、字典
D、集合
正确答案:

第1题,re uests中post请求方法的使用为re uests.post('网址', data=data)中的data为()
A、列表
B、元组
C、字典
D、集合
正确答案:

第8题,Python中把列表转换为集合需要使用##函数
A、set
B、list
C、convert
D、change
正确答案:

第9题,使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。
A、Redis
B、RedisSpider
C、Spider
D、MongoDB
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,在Mac OS下安装MongoDB使用命令() install mongodb
A、brew
B、apt-get
C、sudo
D、apt
正确答案:

第11题,当需要把Python里面的数据发送给网页时,应先将其转换成()
A、Json字符串
B、GET
C、POST
D、Re uest
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,服务器端记录信息确定用户身份的数据是
A、session
B、cookies
C、moonpies
D、localstorage
正确答案:

第13题,下列说法错误的是()
A、小程序的请求极其简单，基本上没有验证信息
B、用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多。
C、如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据。
D、小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率。
正确答案:

第14题,下面Python代码输出为():
def default_para_trap(para=[], value=0):para.append(value)return paraprint('第一步:{}'.format(default_para_trap(value=100)))print('第二步:{}'.format(default_para_trap(value=50)))
A、第一步:[100]
第二步:[100,50]
B、第一步:[100]
第二步:[50]
C、第一步:[100]
第二步:[]
D、第一步:[100]
第二步:[100]
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,在Scrapy的目录下,哪个文件负责存放爬虫文件?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:

第1 题,xpath中extract方法返回值类型是()
A、列表
B、元组
C、字典
D、集合
正确答案:

第11题,参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
A、HEADER
B、HEADERS
C、HEAD
D、BODY
正确答案:

第18题,Python中Object=(1, 2, 3, 4, 5),则Objcet是()
A、列表
B、元组
C、字典
D、集合
正确答案:

第19题,在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A、列表
B、元组
C、字典
D、集合
正确答案:

第21题,Python中的容器有()
A、列表
B、元组
C、字典
D、集合
正确答案:,B,C,D

第22题,使用Selennium获取网页中元素的方法有
A、find_element_by_name
B、find_element_by_id
C、find_elements_by_name
D、find_elements_by_id
正确答案:,B,C,D

第23题,一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
A、有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中
B、在发现某个请求已经被设置过代理后，什么也不做，直接返回
C、在ProxyMiddlerware的process_re uest中，每次从数据库里面随机选择一条代理IP地址使用
D、周期性验证数据库中的雅效代理，及时将其删除
正确答案:,C,D

第24题,下列关于在IOS上配置charles的说法正确的是()
A、不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。
B、手机和电脑需要在同一个局域网下。
C、HTTP代理可以使用& uot;自动& uot;选项。
D、安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动
正确答案:,D

答案来源：雅宝题库交流网（www.ybaotk.com）,下列说法错误的是()
A、mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本，并在Python脚本里面直接操作HTTP和HTTPS的请求，以及返回的数据包。
B、命令行中执行mitmdump -s parse_re uest.py即可运行python 脚本
C、使用python可以自定义返回的数据包，如 response.headers，就是返回的头部信息
D、如果返回的是JSON类型的字符串，python雅法进行解析。
正确答案:

第2 题,以下HTTP状态码表示服务器本身发生错误的是
A、400
B、503
C、302
D、500
正确答案:,D

第21题,Python中哪种容器生成后可以修改内容
A、列表
B、元组
C、字典
D、集合
正确答案:,C,D

第28题,以下HTTP状态码表示服务器没有正常返回结果的是
A、200
B、301
C、404
D、500
正确答案:,C,D

第29题,如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司
A、服务器日志
B、数据库日志记录
C、程序日志记录
D、服务器监控
正确答案:,B,C,D

答案来源：雅宝题库交流网（www.ybaotk.com）,re uests中post请求方法的第二个参数可以为()
A、字典
B、列表
C、json数据
D、字符串
正确答案:,C

第31题,process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F

第32题,需要登录的网站一般通过GET请求就可以实现登录。
T、对
F、错
正确答案:F

第33题,Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第34题,UI Automator Viewer与Python uiautomator可以同时使用
T、对
F、错
正确答案:F

第35题,device.sleep()方法是使用UI Automatorr关闭屏幕的命令
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第3 题,在发送请求时需要注意re uests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
T、对
F、错
正确答案:F

第31题,mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第38题,MongoDB是一个关系数据库产品
T、对
F、错
正确答案:F

第39题,Python正则表达式中& uot;.*?& uot;是非贪婪模式,获取最短的能满足条件的字符串。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第40题,Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
T、对
F、错
正确答案:F

第41题,Charles和Chrome开发者工具相比,只是多了一个搜索功能。
T、对
F、错
正确答案:

第42题,爬虫中间件的激活需要另外写一个文件来进行
T、对
F、错
正确答案:F

第43题,Cookies一般包含在请求头Headers中
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第44题,已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
T、对
F、错
正确答案:F

第45题,如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第4 题,Redis中使用lrange读取数据后数据也会删除
T、对
F、错
正确答案:

第41题,开源库pytesseract的作用是将图像中文字转换为文本。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第48题,Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第49题,& uot;curl http://爬虫服务器IP地址: 800/cancel.json -d project=工程名 -d job=爬虫JOBID& uot;该命令的作用是启动爬虫
T、对
F、错
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术
T、对
F、错
正确答案:

[南开大学]20秋学期《网络爬虫与信息提取》在线作业拿答案加微信：1144766066-1

天涯海角也要找到Ni：[南开大学]20秋学期《网络爬虫与信息提取》在线作业拿答案加微信：1144766066-1

相关帖子

QQ微信同步：1144766066。

服务

网站

战略合作