南开大学《《网络爬虫与信息提取》20春期末考核Word格式.docx
《南开大学《《网络爬虫与信息提取》20春期末考核Word格式.docx》由会员分享,可在线阅读,更多相关《南开大学《《网络爬虫与信息提取》20春期末考核Word格式.docx(12页珍藏版)》请在冰豆网上搜索。
∙Aspiders文件夹
∙Bitem.py
∙Cpipeline.py
∙Dsettings.py
42分
HTTP常用状态码表明服务器正忙的是()
∙A500
∙B503
∙C403
∙D404
52分
如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
∙AXSS
∙BDOS
∙CDDOS
∙D跨域
62分
使用UIAutomatorr判断元素是否存在的操作是得到相应控件后使用命令()
∙Aexist
∙Bexists
∙Cisnull
∙Dcontains
72分
带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率
∙ACookie
∙BHtml
∙CHeaders
∙DCSS
82分
Redis中查看一个列表长度,使用关键字()
∙Alen
∙Blength
∙Cllen
∙Dcount
92分
使用Xpath获取文本使用()
∙Atext
∙Btext()
∙Ccontent
∙Dcontent()
102分
使用python定制mitmproxy,下面的语句请求的是()。
{req.headers["
User-Agent"
]}
∙Aheaders
∙B文本内容
∙C目标网站
∙Duser-agent
112分
Python中Object={1,2,3,4,5},则Objcet是()
122分
在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?
132分
Redis是一个开源的使用()语言编写
∙AANSIC
∙BC++
∙CJAVA
∙DPython
142分
某些网站在发起Ajax请求时会携带()字符串用于身份验证
∙AToken
∙BCookie
∙CReqTime
∙Dsum
152分
使用UIAutomatorr点亮屏幕的操作是得到相应控件后使用命令()
∙Awakeup
∙Blight
∙Cbright
∙Dsleep
162分
Chrome的开发者工具中哪个选项可以查找到cookies
∙AElements
∙BSources
∙CNetwork
∙DPeformance
172分
Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
182分
以下哪个命令是创建文件夹命令()
∙Acurl
∙Btar-zxvf
∙Cmkdir
∙Dcp
192分
可以通过()绕过网站登录。
∙Asession
∙Bcookies
∙Cmoonpies
∙Dlocalstorage
202分
Python中把列表转换为集合需要使用函数
∙Aset
∙Blist
∙Cconvert
∙Dchange
二、多选题共5题,10分
Python中的容器有()
HTTP常用状态码表明表明服务器本身发生错误的有()
∙A403
∙B404
∙C500
∙D503
Python中哪种容器生成后可以修改内容
最常见的HTTP请求类型有()
∙AGET
∙BPOST
∙CSEND
∙DRECEIVE
BS4可以用来从()中提取数据
∙AHTML
∙BXML
∙C数据库
∙DJSON
三、判断题共10题,20分
在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
∙A对
∙B错
使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
Robo3T与RoboMongo是完全不一样的软件
Python正则表达式中“.*?
”是非贪婪模式,获取最短的能满足条件的字符串。
Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exeredis.windows.conf启动Redis
middlewares.py是下载器中间件
在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
四、主观填空题共4题,8分
使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控中的数据,并不读取start_urls中的数据。
1、学生作答:
一般通过表达式来解析网页数据
实现异步加载需要利用技术
刷新
Python中定义函数关键字为
def
五、简答题共2题,10分
15分
Python正则表达式中search和findall方法比较
∙
当前已输入0个字符,您还可以输入2000个字符。
25分
在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?
当前已输入189个字符,您还可以输入1811个字符。
六、名词解释共4题,12分
13分
multiprocessing
∙multiprocessing,英语单词,主要用作名词,作名词时译为“多重处理”。
当前已输入41个字符,您还可以输入1959个字符。
23分
URI
∙在电脑术语中,统一资源标识符(UniformResourceIdentifier,URI)是一个用于标识某一互联网资源名称的字符串。
该种标识允许用户对任何(包括本地和互联网)的资源通过特定的协议进行交互操作。
URI由包括确定语法和相关协议的方案所定义。
当前已输入129个字符,您还可以输入1871个字符。
33分
CSS
∙层叠样式表(英文全称:
CascadingStyleSheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。
当前已输入132个字符,您还可以输入1868个字符。
43分
HTML
∙HTML称为超文本标记语言,是一种标识性的语言。
它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。
HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。