ImageVerifierCode 换一换
格式:DOCX , 页数:12 ,大小:18.33KB ,
资源ID:4984968      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/4984968.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(南开大学《《网络爬虫与信息提取》20春期末考核.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

南开大学《《网络爬虫与信息提取》20春期末考核.docx

1、南开大学网络爬虫与信息提取20春期末考核网络爬虫与信息提取20春期末考核一、单选题共20题,40分12分如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()A列表B元组C字典D集合22分使用UI Automatorr输入文字的操作是得到相应控件后使用命令()AsettextBsetCset_textDtext32分在Scrapy的目录下,哪个文件负责存放爬虫文件?()Aspiders文件夹Bitem.pyCpipeline.pyDsettings.py42分HTTP常用状态码表明服务器正忙的是()A500B503C403D40452分如果很多爬虫同时对一个网站全速爬取

2、,那么其实就是对网站进行了()攻击AXSSBDOSCDDOSD跨域62分使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令()AexistBexistsCisnullDcontains72分带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率ACookieBHtmlCHeadersDCSS82分Redis中查看一个列表长度,使用关键字()AlenBlengthCllenDcount92分使用Xpath获取文本使用()AtextBtext()CcontentDcontent()102分使用python定制mitmproxy,下面的语

3、句请求的是()。req.headersUser-AgentAheadersB文本内容C目标网站Duser-agent112分Python中Object=1, 2, 3, 4, 5,则Objcet是()A列表B元组C字典D集合122分在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()Aspiders文件夹Bitem.pyCpipeline.pyDsettings.py132分Redis是一个开源的使用()语言编写AANSI CBC+CJAVADPython142分某些网站在发起Ajax请求时会携带()字符串用于身份验证ATokenBCookieCReqTimeDsum152分使用U

4、I Automatorr点亮屏幕的操作是得到相应控件后使用命令()AwakeupBlightCbrightDsleep162分Chrome的开发者工具中哪个选项可以查找到cookiesAElementsBSourcesCNetworkDPeformance172分Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成A列表B元组C字典D集合182分以下哪个命令是创建文件夹命令()AcurlBtar -zxvfCmkdirDcp192分可以通过()绕过网站登录。AsessionBcookiesCmoonpiesDlocalstorage202分Python中把列表转

5、换为集合需要使用函数AsetBlistCconvertDchange二、多选题共5题,10分12分Python中的容器有()A列表B元组C字典D集合22分HTTP常用状态码表明表明服务器本身发生错误的有()A403B404C500D50332分Python中哪种容器生成后可以修改内容A列表B元组C字典D集合42分最常见的HTTP请求类型有()AGETBPOSTCSENDDRECEIVE52分BS4可以用来从()中提取数据AHTMLBXMLC数据库DJSON三、判断题共10题,20分12分在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新

6、安装A对B错22分使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码A对B错32分process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用A对B错42分Robo 3T与RoboMongo是完全不一样的软件A对B错52分Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。A对B错62分Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取A对B错72分爬虫登录需要识别验证码可以先把程序关闭,肉眼

7、识别以后再重新运行A对B错82分在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动RedisA对B错92分middlewares.py是下载器中间件A对B错102分在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。A对B错四、主观填空题共4题,8分12分使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控中的数据,并不读取start_urls中的数据。1、学生作答:22分一般通过表达式来解析网页数据1、学生作答:32分实现异步加载需要利用技术1、学生作答:

8、刷新42分Python中定义函数关键字为1、学生作答:def五、简答题共2题,10分15分Python正则表达式中search和findall方法比较当前已输入0个字符, 您还可以输入2000个字符。25分在MacOS下安装Scrapy,当pip的网络受到干扰导致安装的速度很慢时,应该如何应对?当前已输入189个字符, 您还可以输入1811个字符。六、名词解释共4题,12分13分multiprocessingmultiprocessing,英语单词,主要用作名词,作名词时译为“多重处理”。当前已输入41个字符, 您还可以输入1959个字符。23分URI在电脑术语中,统一资源标识符(Unifor

9、m Resource Identifier,URI)是一个用于标识某一互联网资源名称的字符串。 该种标识允许用户对任何(包括本地和互联网)的资源通过特定的协议进行交互操作。URI由包括确定语法和相关协议的方案所定义。当前已输入129个字符, 您还可以输入1871个字符。33分CSS层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。当前已输入132个字符, 您还可以输入1868个字符。43分HTMLHTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1