奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx

资源描述

奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx

《奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx》由会员分享，可在线阅读，更多相关《奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx（11页珍藏版）》请在冰豆网上搜索。

奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料.docx

奥鹏南开大学《网络爬虫与信息提取》19秋期末考核参考答案资料

2020年南开大学《网络爬虫与信息提取》19秋期末考核参考答案

1.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了（）攻击

【选项】：

AXSS

BDOS

CDDOS

D跨域

【答案】：

CDDOS|

2.可以通过（）绕过网站登录。

【选项】：

Asession

Bcookies

Cmoonpies

Dlocalstorage

【答案】：

Bcookies
|

3.使用UIAutomator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令（）

【选项】：

Acontent

Btext

Ctitle

Dbody

【答案】：

Btext|

4.Python操作CSV文件可通过（）容器的方式操作单元格

【选项】：

A列表

B元组

C字典

D集合

【答案】：

C字典|

5.Python中Object=（1,2,3,4,5）,则Objcet是（）

【选项】：

A列表

B元组

C字典

D集合

【答案】：

B元组|

6.HTTP常用状态码表明服务器正忙的是（）

【选项】：

A500

B503

C403

D404

【答案】：

B503|

7.使用UIAutomator打开微信的操作是获取相应图标后使用命令（）

【选项】：

Atouch

Bclick

Cpush

Dhover

【答案】：

Bclick|

8.Python中Object={'obj_1':

'1','obj_2':

'2'},则Objcet.get（'boj_1','3'）是（）

【选项】：

D无输出

【答案】：

A1|

9.采用以下（）技术可以实现异步加载

【选项】：

AHTML

BAJAX

CCSS

DHTTP

【答案】：

BAJAX|

10.网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的（）。

【选项】：

Arobot.txt

Brobot.html

Crobots.txt

Drobots.html

【答案】：

Crobots.txt|

11.Chrome的开发者工具中哪个选项可以查找到cookies

【选项】：

AElements

BSources

CNetwork

DPeformance

【答案】：

CNetwork|

12.以下哪个命令是linux下解压缩命令（）

【选项】：

Acurl

Btar-zxvf

Cmkdir

Dcp

【答案】：

Btar-zxvf|

13.MongoDB中数据存储的形式类似于（）

【选项】：

A列表

B元组

C字典

D集合

【答案】：

C字典|

14.以下哪个HTML标签表示定义列表项目（）

【选项】：

C
D
【答案】：
B
|
15.python中可以用来将图片中的文字转换为文本的第三方类库是
【选项】：
Alxml
Brequests
Cbeautifulsoup
Dpytesseract
【答案】：
Dpytesseract|
16.下列哪项不是HTTP的请求类型（）
【选项】：
AGET
BPOST
CPUT
DSET
【答案】：
DSET|
17.以下哪个HTML标签表示定义HTML表格中的标准单元格（）
【选项】：
A
- C
  D
  【答案】：
  D|
  18.当爬虫创建好了之后,可以使用"scrapy（）<爬虫名>"命令运行爬虫。
  【选项】：
  Astartup
  Bstarwar
  Cdrawl
  Dcrawl
  【答案】：
  Dcrawl|
  19.参数headers=（）,把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。
  【选项】：
  AHEADER
  BHEADERS
  CHEAD
  DBODY
  【答案】：
  BHEADERS|
  20.以下哪个命令是利用URL语法在命令行下工作的文件传输工具（）
  【选项】：
  Acurl
  Btar-zxvf
  Cmkdir
  Dcp
  【答案】：
  Acurl|
  21.MongoDB中获取名字为db的库的语句为（）
  【选项】：
  Aclient.db
  Bclient（'db'）
  Cclient['db']
  Dclient{'db'}
  【答案】：
  Aclient.db|Cclient['db']|
  22.以下哪些方法属于Python写CSV文件的方法（）
  【选项】：
  Awriteheaders
  Bwriteheader
  Cwriterrows
  Dwriterow
  【答案】：
  Awriteheaders|Cwriterrows|Dwriterow|
  23.下载器中间件的作用有哪些?
  【选项】：
  A更换代理IP
  B更换Cookies
  C更换User-Agent
  D自动重试
  【答案】：
  A更换代理IP|B更换Cookies|C更换User-Agent|D自动重试|
  24.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成（）
  【选项】：
  A非法侵入计算机系统罪
  B非法获取计算机信息系统数据罪
  C非法获取计算机数据罪
  D非法获取系统罪
  【答案】：
  A非法侵入计算机系统罪|B非法获取计算机信息系统数据罪|
  25.Python中（）容器有推导式
  【选项】：
  A列表
  B元组
  C字典
  D集合
  【答案】：
  A列表|C字典|D集合|
  26.通用网络爬虫通常采用串行工作方式
  【选项】：
  T对
  F错
  【答案】：
  F错|
  27.需要登录的网站一般通过GET请求就可以实现登录。
  【选项】：
  T对
  F错
  【答案】：
  F错|
  28.代理中间件的可用代理列表一定要写在settings.py里面
  【选项】：
  T对
  F错
  【答案】：
  F错|
  29.requests中get请求方法的使用为requests.get（'网址',data=data）
  【选项】：
  T对
  F错
  【答案】：
  F错|
  30.所有的异步加载都会向后台发送请求
  【选项】：
  T对
  F错
  【答案】：
  F错|
  31.在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务
  src/redis-server
  【选项】：
  T对
  F错
  【答案】：
  F错|
  32.爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。
  【选项】：
  T对
  F错
  【答案】：
  F错|
  33.爬虫中间件的激活需要另外写一个文件来进行
  【选项】：
  T对
  F错
  【答案】：
  F错|
  34.已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行
  【选项】：
  T对
  F错
  【答案】：
  F错|
  35.Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。
  【选项】：
  T对
  F错
  【答案】：
  T对|
  36.在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于##开发的。
  【选项】：
  【答案】：
  C语言
  37.爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是##
  【选项】：
  【答案】：
  
  38.在Windows下运行Redis命令为##redis.windows.conf
  【选项】：
  【答案】：
  路径运行命令
  39.MongoDB如果需要从外网访问数据库，那么需要修改安装MongoDB时用到的配置文件##
  【选项】：
  【答案】：
  
  40.lxml库中etree模块的etree.tostring（）方法是做什么用的
  【选项】：
  【答案】：
  
  41.请描述爬虫中的深度优先搜索过程
  【选项】：
  【答案】：
  深度优先搜索属于图算法的一种，是一个针对图和树的遍历算法，英文缩写为DFS即DepthFirstSearch。
  深度优先搜索是图论中的经典算法，利用深度优先搜索算法可以产生目标图的相应拓扑排序表，利用拓扑排序表可以方便的解决很多相关的图论问题，如最大路径问题等等。
  一般用堆数据结构来辅助实现DFS算法。
  其过程简要来说是对每一个可能的分支路径深入到不能再深入为止，而且每个节点只能访问一次。

展开阅读全文