南开大学21春学期《网络爬虫与信息提取》在线作业2Word格式文档下载.docx

资源描述

南开大学21春学期《网络爬虫与信息提取》在线作业2Word格式文档下载.docx

《南开大学21春学期《网络爬虫与信息提取》在线作业2Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《南开大学21春学期《网络爬虫与信息提取》在线作业2Word格式文档下载.docx（10页珍藏版）》请在冰豆网上搜索。

南开大学21春学期《网络爬虫与信息提取》在线作业2Word格式文档下载.docx

scroll

scroll_up

scroll_forword

scroll_back

下面Python代码输出为（）:

defdefault_para_without_trap（para=[],value=0）:

ifnotpara:

para=[]

para.append（value）

returnpara

print（'

第一步:

{}'

.format（default_para_trap（value=100）））

第二步:

.format（default_para_trap（value=50）））

[100]

[100,50]

[50]

[]

MongoDB中可以将（）数据结构插入集合中

Python中跳过本次循环应用关键字（）

break

continue

exit

return

可以通过（）绕过网站登录。

br>

session<

cookies<

moonpies

localstorage

Python中把列表转换为集合需要使用##函数

set

list

convert

change

下列关于mitmproxy的安装说法错误的是（）

对于MacOS系统，使用Homebrew安装mitmproxy，命令为：

brewinstallmitmproxy

在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本

在windows系统中无法使用linux的命令，只能通过下载安装包来安装

UBUNTU中执行命令sudopip3installmitmproxy进行安装

启动MongoDB使用命令mongod--（）usr/local/etc/mongod.conf

config

install

start

begin

在Linux中哪个命令是添加权限的（）

chmod

sudo

mkdir

PyMongo中逻辑查询表示小于的符号是（）

$gt

$lt

$gte$$lte

Python中退出循环应用关键字（）

HTTP常用状态码表明服务器正忙的是（）

500

503

403

404

Redis中往集合中读数据,使用关键字（）

pop

spop

lpop

range

Redis是一个开源的使用（）语言编写

ANSIC

C++

JAVA

Python

使用xpath方法的返回类型是（）

Python并导入uiautomator来操作设备的语句是fromuiautomatorimport（）

Device

Devices

Jobs

Job

采用以下（）技术可以实现异步加载

HTML

AJAX

CSS

HTTP

HTTP常用状态码表明服务器内部资源出故障了的是（）

PyMongo删除操作有（）

delete

delete_all

delete_one

delete_many

C,D

在配置ios使用Charles的操作中,正确的有（）

对于苹果设备，首先要保证计算机和苹果设备联在同一个Wi-Fi上。

选择“HTTP代理”下面的“手动”选项卡，在“服务器”处输入计算机的IP地址，在“端口”处输入8888

输入完成代理以后按下苹果设备的Home键，设置就会自动保存。

安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任

A,B,C,D

常用的会话跟踪技术是

session

A,B

MongoDB中获取名字为db的库的语句为（）

client.db

client（'

db'

）

client['

]

client{'

}

A,C

如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成（）

非法侵入计算机系统罪

非法获取计算机信息系统数据罪

非法获取计算机数据罪

非法获取系统罪

如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据（）来起诉使用爬虫的公司

服务器日志

数据库日志记录

程序日志记录

服务器监控

以下HTTP状态码表示服务器本身发生错误的是

400

302

B,D

使用BeautifulSoup对象后可以使用（）来查找内容

find_all

find

search_all

Redis中的值可以支持（）

哈希

有序集合

以下哪些方法属于Python写CSV文件的方法（）

writeheaders

writeheader

writerrows

writerow

A,C,D

使用异步加载技术的网站,被加载的内容可以在源代码中找到

对

错

在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务

src/redis-server

通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

process_spider_input（response,spider）是在爬虫运行yielditem或者yieldscrapy.Request（）的时候调用

chrome开发者工具没法对数据进行搜索。

如果想知道一个特定的异步加载内容来自哪个请求,必须在“Network”选项卡里面一个请求一个请求地进行查看.

XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。

在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

自己能查看的数据,允许擅自拿给第三方查看

引用中间件时后面的数字代表的是中间件的执行顺序,例如'

AdvanceSpider.middlewares.ProxyMiddleware'

543中的543

虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。

Python可以将列表或字典转换成Json字符串

Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取

Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。

30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次

Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库

Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本

所有的异步加载都会向后台发送请求

HTTP状态码302表示资源永久重定向。

RoboMongo是MongoDB的管理软件

cookies在http请求中是明文传输的。

在对XPath返回的对象再次执行XPath的时候,子XPath开头需要添加斜线

展开阅读全文