南开大学《《网络爬虫与信息提取》20春期末考核.docx

上传人:b****3 文档编号:4984968 上传时间:2022-12-12 格式:DOCX 页数:12 大小:18.33KB
下载 相关 举报
南开大学《《网络爬虫与信息提取》20春期末考核.docx_第1页
第1页 / 共12页
南开大学《《网络爬虫与信息提取》20春期末考核.docx_第2页
第2页 / 共12页
南开大学《《网络爬虫与信息提取》20春期末考核.docx_第3页
第3页 / 共12页
南开大学《《网络爬虫与信息提取》20春期末考核.docx_第4页
第4页 / 共12页
南开大学《《网络爬虫与信息提取》20春期末考核.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

南开大学《《网络爬虫与信息提取》20春期末考核.docx

《南开大学《《网络爬虫与信息提取》20春期末考核.docx》由会员分享,可在线阅读,更多相关《南开大学《《网络爬虫与信息提取》20春期末考核.docx(12页珍藏版)》请在冰豆网上搜索。

南开大学《《网络爬虫与信息提取》20春期末考核.docx

南开大学《《网络爬虫与信息提取》20春期末考核

《网络爬虫与信息提取》20春期末考核

一、单选题共20题,40分

12分

如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()

∙A列表

∙B元组

∙C字典

∙D集合

22分

使用UIAutomatorr输入文字的操作是得到相应控件后使用命令()

∙Asettext

∙Bset

∙Cset_text

∙Dtext

32分

在Scrapy的目录下,哪个文件负责存放爬虫文件?

()

∙Aspiders文件夹

∙Bitem.py

∙Cpipeline.py

∙Dsettings.py

42分

HTTP常用状态码表明服务器正忙的是()

∙A500

∙B503

∙C403

∙D404

52分

如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击

∙AXSS

∙BDOS

∙CDDOS

∙D跨域

62分

使用UIAutomatorr判断元素是否存在的操作是得到相应控件后使用命令()

∙Aexist

∙Bexists

∙Cisnull

∙Dcontains

72分

带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率

∙ACookie

∙BHtml

∙CHeaders

∙DCSS

82分

Redis中查看一个列表长度,使用关键字()

∙Alen

∙Blength

∙Cllen

∙Dcount

92分

使用Xpath获取文本使用()

∙Atext

∙Btext()

∙Ccontent

∙Dcontent()

102分

使用python定制mitmproxy,下面的语句请求的是()。

{req.headers["User-Agent"]}

∙Aheaders

∙B文本内容

∙C目标网站

∙Duser-agent

112分

Python中Object={1,2,3,4,5},则Objcet是()

∙A列表

∙B元组

∙C字典

∙D集合

122分

在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?

()

∙Aspiders文件夹

∙Bitem.py

∙Cpipeline.py

∙Dsettings.py

132分

Redis是一个开源的使用()语言编写

∙AANSIC

∙BC++

∙CJAVA

∙DPython

142分

某些网站在发起Ajax请求时会携带()字符串用于身份验证

∙AToken

∙BCookie

∙CReqTime

∙Dsum

152分

使用UIAutomatorr点亮屏幕的操作是得到相应控件后使用命令()

∙Awakeup

∙Blight

∙Cbright

∙Dsleep

162分

Chrome的开发者工具中哪个选项可以查找到cookies

∙AElements

∙BSources

∙CNetwork

∙DPeformance

172分

Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成

∙A列表

∙B元组

∙C字典

∙D集合

182分

以下哪个命令是创建文件夹命令()

∙Acurl

∙Btar-zxvf

∙Cmkdir

∙Dcp

192分

可以通过()绕过网站登录。

∙Asession

∙Bcookies

∙Cmoonpies

∙Dlocalstorage

202分

Python中把列表转换为集合需要使用函数

∙Aset

∙Blist

∙Cconvert

∙Dchange

二、多选题共5题,10分

12分

Python中的容器有()

∙A列表

∙B元组

∙C字典

∙D集合

22分

HTTP常用状态码表明表明服务器本身发生错误的有()

∙A403

∙B404

∙C500

∙D503

32分

Python中哪种容器生成后可以修改内容

∙A列表

∙B元组

∙C字典

∙D集合

42分

最常见的HTTP请求类型有()

∙AGET

∙BPOST

∙CSEND

∙DRECEIVE

52分

BS4可以用来从()中提取数据

∙AHTML

∙BXML

∙C数据库

∙DJSON

三、判断题共10题,20分

12分

在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装

∙A对

∙B错

22分

使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码

∙A对

∙B错

32分

process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用

∙A对

∙B错

42分

Robo3T与RoboMongo是完全不一样的软件

∙A对

∙B错

52分

Python正则表达式中“.*?

”是非贪婪模式,获取最短的能满足条件的字符串。

∙A对

∙B错

62分

Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取

∙A对

∙B错

72分

爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行

∙A对

∙B错

82分

在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exeredis.windows.conf启动Redis

∙A对

∙B错

92分

middlewares.py是下载器中间件

∙A对

∙B错

102分

在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

∙A对

∙B错

四、主观填空题共4题,8分

12分

使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控中的数据,并不读取start_urls中的数据。

1、学生作答:

22分

一般通过表达式来解析网页数据

1、学生作答:

32分

实现异步加载需要利用技术

1、学生作答:

刷新

42分

Python中定义函数关键字为

1、学生作答:

def

五、简答题共2题,10分

15分

Python正则表达式中search和findall方法比较

当前已输入0个字符,您还可以输入2000个字符。

25分

在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?

当前已输入189个字符,您还可以输入1811个字符。

六、名词解释共4题,12分

13分

multiprocessing

∙multiprocessing,英语单词,主要用作名词,作名词时译为“多重处理”。

当前已输入41个字符,您还可以输入1959个字符。

23分

URI

∙​在电脑术语中,统一资源标识符(UniformResourceIdentifier,URI)是一个用于标识某一互联网资源名称的字符串。

该种标识允许用户对任何(包括本地和互联网)的资源通过特定的协议进行交互操作。

URI由包括确定语法和相关协议的方案所定义。

当前已输入129个字符,您还可以输入1871个字符。

33分

CSS

∙层叠样式表(英文全称:

CascadingStyleSheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。

CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。

当前已输入132个字符,您还可以输入1868个字符。

43分

HTML

∙HTML称为超文本标记语言,是一种标识性的语言。

它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。

HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1