10293 数据采集与管理Word文档格式.docx

资源描述

10293 数据采集与管理Word文档格式.docx

《10293 数据采集与管理Word文档格式.docx》由会员分享，可在线阅读，更多相关《10293 数据采集与管理Word文档格式.docx（27页珍藏版）》请在冰豆网上搜索。

10293 数据采集与管理Word文档格式.docx

C.一次请求和一次响应

D.两次请求

5单选在HTTP请求中，通过（）方法发送的表单数据，会放在URL之后，以?

分割URL和传输数据，参数之间以&

相连，可能会造成信息泄露问题。

a.GET

B.POST

C.PUT

D.CONNECT

6单选HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

a.Host

B.Referer

C.User-agent

D.Content-Length

7单选发送了一个HTTP请求后，客户端收到一个200的响应，这表示（）。

a.拒绝访问

B.登录失败

C.重定向到其他URL

D.请求成功

8单选如果要采集指定的数据，则需要使用到（），又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

a.增量式网络爬虫

B.聚焦网络爬虫

C.DeepWeb爬虫

D.全网爬虫

9单选（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。

a.广度优先

B.深度优先

C.基于目标特征

D.基于领域

10单选在使用Java实现网络爬虫时，由于InputStream类型默认是字节流，无法处理中文，将会出现乱码。

要解决中文乱码的问题，需将其转换为（），这样就可以读取中文。

a.无符号数字

B.UNICODE编码

C.字节流

D.字符流

在正则表达式中\d匹配（）

a.数字

B.字母、数字、下划线

C.任意字符

D.转义字符

2单选在正则表达式中?

匹配（）

a.字符出现0次以上

B.字符出现一次以上

C.字符出现0次或1次

D.字符出现1次

3单选使用正则表达式时，使用（）设置匹配规则。

a.Matcher

B.Pattern

C.find

D.group

4单选因数据库本身限制，在采集海量数据时存在性能瓶颈，因此海量数据建议用（）的方式保存，也方便与大数据底层交互。

a.文本

B.图像

C.数字

D.记录

5多选以下哪些是Matcher类的方法（）

a.start（）

B.end（）

C.find（）

D.group（）

6单选在整站采集时，一般从源地址出发，使用（）算法实现。

a.差分

B.线性

C.分治

D.递归

7单选整站采集的步骤一般是（）

a.匹配href连接地址；

与原本地址拼接；

读取网页中的a标签；

找到关联网页并爬取

B.读取网页中的a标签；

匹配href连接地址；

C.找到关联网页并爬取；

匹配href连接地址

D.找到关联网页并爬取；

读取网页中的a标签

8多选保存采集的数据的方式有（）

B.XML文件

C.音频

D.数据库

Hertrix默认的运行端口是（）

a.80

B.8080

C.10

D.1010

2单选运行Hertrix前首先要搭建（）运行环境。

a.Java

B.C++

C.Python

D.C#

无

3单选配置Hertrix的爬取设置是在（）模块。

a.Logs

B.Help

C.Profiles

D.Reports

4单选配置了Hertrix爬取设置后，在（）模块可以新建任务并运行。

B.Jobs

C.Reports

D.Setup

5单选使用Hertrix爬取网页时建议使用（）模式。

a.Mirror

B.KW3

C.aRC

D.TXT

6单选网站一般在（）文件中描述被爬取的规则。

a.License.txt

B.robots.txt

C.ReadMe.txt

D.hentrix.txt

7单选（）是Hadoop的前身，是一种分布式爬虫工具，更适合集群爬取。

a.Crawler

B.Jsoup

C.Hertrix

D.Nutch

8单选以下哪种说法是正确的（）

a.Hertrix爬取过程中进度会自动刷新

B.在Hertrix中建立了爬取任务后会自动开始

C.Hertrix是不可扩展的

D.可通过修改配置文件更改使用时的用户名和密码

Hertrix默认的运行端口是（）

HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

选择一项：

a.WWW-authenticate

b.Connection

c.Refresh

d.Location

正确本题标准答案是是：

Refresh

通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。

我们称这个客户端叫（）。

a.源服务器

b.用户代理

c.播放器

d.数据库

用户代理

（）爬行过程中最重要部分就是表单填写及处理。

a.深层网络爬虫

b.增量式网络爬虫

c.通用网络爬虫

d.聚焦网络爬虫

深层网络爬虫

以下哪个HTTP响应状态表示服务器端错误（）

a.300

b.403

c.200

d.500

500

在HTTP响应信息中，若状态信息码是404则表示（）。

a.没有找到请求的页面

b.所请求的页面已经转移至新的url

c.登录失败

d.访问被禁止

没有找到请求的页面

在HTP响应信息中，若状态信息码是200则表示（）。

a.登录失败

b.请求成功

c.访问被禁止

d.所请求的页面已经转移至新的url

请求成功

HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。

a.GET

b.POST

c.PUT

d.TRaCE

POST

HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

a.Host

b.User-agent

c.Referer

d.Cookie

User-agent

（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

a.深度优先策略

b.随机爬行策略

c.PageRank优先策略

d.广度优先策略

深度优先策略

以下不属于HTTP协议的主要特点的是（）。

a.支持基本认证和安全认证

b.有状态

c.简单快速

d.支持客户/服务器模式

有状态

如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

a.向管理员请求用户名和密码

b.再次核对请求的页面地址是否正确

c.检查浏览器权限

d.向网管报障

再次核对请求的页面地址是否正确

以下哪个不属于HTTP请求信息（）。

a.accept-Language

c.Expires

d.User-agent

Expires

追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些"

杂乱”的"

脏”数据，就涉及到（）技术。

a.数据预测

b.数据清洗

c.数据采集

d.数据统计

数据清洗

（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

a.聚焦网络爬虫

c.深层网络爬虫

d.通用网络爬虫

正确本题标准

展开阅读全文