[南开大学]20秋学期《网络爬虫与信息提取》在线作业拿答案加微信：1144766066

bb20920d · 发表于 2020-10-17 11:26:38

答案来源：雅宝题库交流网（www.ybaotk.com）-[南开大学]20秋学期（1109、1803、1809、1903、1909、2003、2009 ）《网络爬虫与信息提取》在线作业拿答案加微信：1144766066
试卷总分拿答案加微信:100 得分拿答案加微信:100
第1题,当爬虫创建好了之后,可以使用& uot;scrapy()& uot; 命令运行爬虫。
A、startup
B、starwar
C、drawl
D、crawl
正确答案:

第2题,以下哪个命令是复制文件或者文件夹命令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:

第3题,Python中哪种容器一旦生成就不能修改
A、列表
B、元组
C、字典
D、集合
正确答案:

第4题,在Scrapy的目录下,哪个文件负责定义需要爬取的数据?()
A、spiders文件夹
B、item.py
C、pipeline.py
D、settings.py
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
A、swipe
B、move
C、scroll
D、fly
正确答案:

第题,xpath中extract方法返回值类型是()
A、列表
B、元组
C、字典
D、集合
正确答案:

第1题,以下哪个命令是linux下解压缩命令()
A、curl
B、tar -zxvf
C、mkdir
D、cp
正确答案:

第8题,Python中定义函数关键字为()
A、def
B、define
C、func
D、function
正确答案:

第9题,下列说法错误的是()
A、小程序的请求极其简单，基本上没有验证信息
B、用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多。
C、如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据。
D、小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率。
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,当需要把Python里面的数据发送给网页时,应先将其转换成()
A、Json字符串
B、GET
C、POST
D、Re uest
正确答案:

第11题,Redis中从集合中查看有多少个值,用关键字()
A、scard
B、card
C、count
D、distinct
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,Python中把集合转换为列表需要使用##函数
A、set
B、list
C、convert
D、change
正确答案:

第13题,lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据
A、etree.tostring
B、etree.convertBytes
C、etree.toBytes
D、etree.convertstring
正确答案:

第14题,Python操作CSV文件可通过()容器的方式操作单元格
A、列表
B、元组
C、字典
D、集合
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题
A、s
B、c
C、d
D、r
正确答案:

第1 题,如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A、列表
B、元组
C、字典
D、集合
正确答案:

第11题,HTTP常用状态码表明服务器正忙的是()
A、500
B、503
C、403
D、404
正确答案:

第18题,使用xpath方法的返回类型是()
A、列表
B、元组
C、字典
D、集合
正确答案:

第19题,下面Python代码输出为():
def default_para_trap(para=[], value=0):para.append(value)return paraprint('第一步:{}'.format(default_para_trap(value=100)))print('第二步:{}'.format(default_para_trap(value=50)))
A、第一步:[100]
第二步:[100,50]
B、第一步:[100]
第二步:[50]
C、第一步:[100]
第二步:[]
D、第一步:[100]
第二步:[100]
正确答案:

答案来源：雅宝题库交流网（www.ybaotk.com）,下面Python代码输出为():
def default_para_without_trap(para=[], value=0):if not para:para = []para.append(value)return para
print('第一步:{}'.format(default_para_trap(value=100)))print('第二步:{}'.format(default_para_trap(value=50)))
A、第一步:[100]
第二步:[100,50]
B、第一步:[100]
第二步:[50]
C、第一步:[100]
第二步:[]
D、第一步:[100]
第二步:[100]
正确答案:

第21题,使用Selennium获取网页中元素的方法有
A、find_element_by_name
B、find_element_by_id
C、find_elements_by_name
D、find_elements_by_id
正确答案:,B,C,D

第22题,下列关于在IOS上配置charles的说法正确的是()
A、不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。
B、手机和电脑需要在同一个局域网下。
C、HTTP代理可以使用& uot;自动& uot;选项。
D、安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动
正确答案:,D

第23题,Python中有哪些实现多线程方法()
A、multiprocess.dummy
B、threading.Thread
C、process
D、PyMongoDB
正确答案:,B

第24题,Redis中的值可以支持()
A、列表
B、哈希
C、集合
D、有序集合
正确答案:,B,C,D

答案来源：雅宝题库交流网（www.ybaotk.com）,cookies的缺点是
A、实现自动登录
B、跟踪用户状态
C、http中明文传输
D、增加http请求的流量
正确答案:,D

第2 题,Python中通过Key来从字典object中读取对应的Value的方法有()
A、object[key]
B、object.get(key)
C、object.pop(key)
D、object.pop()
正确答案:,B

第21题,为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
A、仔细检查代码
B、开发爬虫中间件
C、开发下载器中间件
D、等待
正确答案:,B

第28题,Python中()与元组由类似的数据读取方式
A、字符串
B、列表
C、字典
D、集合
正确答案:,B

第29题,HTTP常用状态码表明请求被正常处理的有()
A、200
B、301
C、302
D、204
正确答案:,D

答案来源：雅宝题库交流网（www.ybaotk.com）,PyMongo更新操作有()
A、update
B、update_all
C、update_one
D、update_many
正确答案:,D

第31题,在发送请求时需要注意re uests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
T、对
F、错
正确答案:F

第32题,如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第33题,Redis中使用lrange读取数据后数据也会删除
T、对
F、错
正确答案:

第34题,Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
T、对
F、错
正确答案:F

第35题,如果通过爬虫抓取某公司网站的公开数据,分拿答案加微信析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法的。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第3 题,HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
T、对
F、错
正确答案:F

第31题,process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
T、对
F、错
正确答案:F

第38题,通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
T、对
F、错
正确答案:F

第39题,在使用多线程处理问题时,线程池设置越大越好
T、对
F、错
正确答案:F

第40题,需要登录的网站一般通过GET请求就可以实现登录。
T、对
F、错
正确答案:F

第41题,process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Re uest()的时候调用
T、对
F、错
正确答案:F

第42题,Python中函数返回值的个数可以是多个
T、对
F、错
正确答案:

第43题,爬虫的源代码通过公开不会对被爬虫网站造成影响
T、对
F、错
正确答案:F

第44题,通用网络爬虫通常采用串行工作方式
T、对
F、错
正确答案:F

第45题,虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

第4 题,爬虫中间件的激活需要另外写一个文件来进行
T、对
F、错
正确答案:F

第41题,在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
T、对
F、错
正确答案:F

第48题,Redis中查询列表长度命令llen中l代表left,即从左侧开始数
T、对
F、错
正确答案:

第49题,Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
T、对
F、错
正确答案:F

答案来源：雅宝题库交流网（www.ybaotk.com）,mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本
T、对
F、错
更多答案下载：雅宝题库交流网（www.ybaotk.com）

scout · 发表于 2020-10-17 11:26:47

雅宝题库交流网还可以！

CarolynSaura · 发表于 2022-3-14 01:32:50

贵州电大形考作业有答案吗？

[南开大学]20秋学期《网络爬虫与信息提取》在线作业拿答案加微信：1144766066

天涯海角也要找到Ni：[南开大学]20秋学期《网络爬虫与信息提取》在线作业拿答案加微信：1144766066

相关帖子

浏览过的版块

QQ微信同步：1144766066。

服务

网站

战略合作