[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx

上传人:b****9 文档编号:137484 上传时间:2022-10-04 格式:DOCX 页数:8 大小:11.44KB
下载 相关 举报
[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx_第1页
第1页 / 共8页
[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx_第2页
第2页 / 共8页
[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx_第3页
第3页 / 共8页
[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx_第4页
第4页 / 共8页
[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx

《[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx》由会员分享,可在线阅读,更多相关《[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx(8页珍藏版)》请在冰豆网上搜索。

[南开大学]《网络爬虫与信息提取》19秋期末考核(答案参考).docx

如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击

A.XSSB.DOSC.DDOS

D.跨域

正确答案:

C

以下哪个HTML标签表示分区或节()A.

B.

C.D.

正确答案:

A

使用UIAutomator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()A.content

B.text

C.titleD.body

正确答案:

B

Python操作CSV文件可通过()容器的方式操作单元格

A.列表B.元组C.字典D.集合

正确答案:

C

Python中Object=(1,2,3,4,5),则Objcet是()A.列表

B.元组C.字典D.集合

正确答案:

B

HTTP常用状态码表明服务器正忙的是()A.500

B.503

C.403D.404

正确答案:

B

使用UIAutomator打开微信的操作是获取相应图标后使用命令()A.touch

B.click

C.pushD.hover

正确答案:

B

Python中Object={'obj_1':

'1','obj_2':

'2'},则Objcet.get('boj_1','3')是()A.1

B.2

C.3

D.无输出

正确答案:

A

采用以下()技术可以实现异步加载

A.HTMLB.AJAXC.CSSD.HTTP

正确答案:

B

网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。

A.robot.txtB.robot.htmlC.robots.txtD.robots.html

正确答案:

C

Chrome的开发者工具中哪个选项可以查找到cookies

A.ElementsB.SourcesC.NetworkD.Peformance

正确答案:

C

以下哪个命令是linux下解压缩命令()A.curl

B.tar-zxvf

C.mkdirD.cp

正确答案:

B

MongoDB中数据存储的形式类似于()A.列表

B.元组C.字典D.集合

正确答案:

C

以下哪个HTML标签表示定义列表项目()A.

    B.

  • C.D.

    正确答案:

    B

    python中可以用来将图片中的文字转换为文本的第三方类库是

    A.lxmlB.requestsC.beautifulsoupD.pytesseract

    正确答案:

    D

    下列哪项不是HTTP的请求类型()A.GET

    B.POST

    C.PUTD.SET

    正确答案:

    D

    以下哪个HTML标签表示定义HTML表格中的标准单元格()A.

      B.

    • C.D.

      正确答案:

      D

      当爬虫创建好了之后,可以使用"scrapy()"命令运行爬虫。

      A.startupB.starwarC.drawlD.crawl

      正确答案:

      D

      参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。

      A.HEADERB.HEADERSC.HEADD.BODY

      正确答案:

      B

      以下哪个命令是利用URL语法在命令行下工作的文件传输工具()A.curl

      B.tar-zxvf

      C.mkdirD.cp

      正确答案:

      A

      MongoDB中获取名字为db的库的语句为()A.client.db

      B.client('db')

      C.client['db']

      D.client{'db'}

      正确答案:

      AC

      以下哪些方法属于Python写CSV文件的方法()A.writeheaders

      B.writeheader

      C.writerrowsD.writerow

      正确答案:

      ACD

      下载器中间件的作用有哪些?

      A.更换代理IP

      B.更换Cookies

      C.更换User-AgentD.自动重试

      正确答案:

      ABCD

      如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()

      A.非法侵入计算机系统罪

      B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪

      D.非法获取系统罪正确答案:

      AB

      Python中()容器有推导式

      A.列表B.元组C.字典D.集合

      正确答案:

      ACD

      通用网络爬虫通常采用串行工作方式

      T.对

      F.错

      正确答案:

      B

      需要登录的网站一般通过GET请求就可以实现登录。

      T.对

      F.错

      正确答案:

      B

      代理中间件的可用代理列表一定要写在settings.py里面

      T.对

      F.错

      正确答案:

      B

      requests中get请求方法的使用为requests.get('网址',data=data)T.对

      F.错

      正确答案:

      B

      所有的异步加载都会向后台发送请求

      T.对

      F.错

      正确答案:

      B

      在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server

      文件启动redis服务

      src/redis-serverT.对

      F.错

      正确答案:

      B

      爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。

      T.对

      F.错

      正确答案:

      B

      爬虫中间件的激活需要另外写一个文件来进行

      T.对

      F.错

      正确答案:

      B

      已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行

      T.对

      F.错

      正确答案:

      B

      Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。

      T.对

      F.错

      正确答案:

      A

      在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于##开发的。

      正确答案:

      C语言

      爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是##

      正确答案:

      IAA

      在Windows下运行Redis命令为##redis.windows.conf

      正确答案:

      redis-server.exe

      MongoDB如果需要从外网访问数据库,那么需要修改安装MongoDB时用到的配置文件##

      正确答案:

      mongod.conf

      lxml库中etree模块的etree.tostring()方法是做什么用的

      正确答案:

      把Selector对象转换为bytes型的源代码数据

      请描述爬虫中的深度优先搜索过程

      正确答案:

      在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。

      深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。

      当不再有其他超链可选择时,说明搜索已经结束。

展开阅读全文
相关搜索

当前位置:首页 > 农林牧渔 > 农学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1