数据采集与管理.docx

资源描述

数据采集与管理.docx

《数据采集与管理.docx》由会员分享，可在线阅读，更多相关《数据采集与管理.docx（126页珍藏版）》请在冰豆网上搜索。

数据采集与管理.docx

数据采集与管理

以下关于深度优先的爬行策略的说法，不正确的有（）。

选择一项：

a.处于较浅目录层次的页面都可以首先被爬行

b.比较适合垂直搜索或站内搜索

c.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完

d.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止

正确答案是：

处于较浅目录层次的页面都可以首先被爬行

HTTP请求中的（）方法用于请求服务器删除Request-URI所标识的资源。

选择一项：

a.PUT

b.DELETE

c.GET

d.TRACE

正确答案是：

DELETE

PageRank优先策略常用于（）。

选择一项：

a.DeepWeb爬虫

b.所有网络爬虫

c.增量式网络爬虫

d.通用网络爬虫

正确答案是：

增量式网络爬虫

深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。

选择一项：

a.BOM树

b.DOM树

c.文本

d.图像

正确答案是：

DOM树

发出的HTTP请求由三部分组成，分别是：

（）。

选择一项：

a.应答行、消息报头、请求正文

b.请求行、消息报头、请求正文

c.请求行、请求正文

d.消息报头、请求正文

正确答案是：

请求行、消息报头、请求正文

在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?

分割URL和传输数据，参数之间以&相连。

选择一项：

a.GET

b.POST

c.PUT

d.TRACE

正确答案是：

GET

HTTP请求中的（）头域允许客户端指定请求uri的源资源地址，这可以允许服务器生成回退链表，可用来登陆、优化cache等。

选择一项：

a.Referer

b.Cookie

c.User-Agent

d.Referer

正确答案是：

Referer

一次HTTP由（）组成。

选择一项：

a.一次响应

b.2次请求

c.一次请求和一次响应

d.一次请求

正确答案是：

一次请求和一次响应

关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。

选择一项：

a.POST方式提交数据，会带来安全问题

b.POST方法是把提交的数据放在HTTP包的Body中

c.GET提交的数据大小有限制

d.GET提交的数据会放在URL之后，以?

分割URL和传输数据，参数之间以&相连

正确答案是：

POST方式提交数据，会带来安全问题

以下关于网络爬虫的说法，不正确的是（）。

选择一项：

a.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

b.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人

c.目前互联网上的信息分类大多数都是人工完成的

d.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件

正确答案是：

目前互联网上的信息分类大多数都是人工完成的

HTTP请求中的（）头域代表发送端（客户端）希望接受的数据类型。

选择一项：

a.Cookie

b.Referer

c.User-Agent

d.Accept

正确答案是：

HTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。

选择一项：

a.User-Agent

b.Cookie

c.Referer

d.Host

正确答案是：

Host

聚焦爬虫爬行策略实现的关键是评价（）的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

选择一项：

a.页面内容

b.表单信息

c.页面内容和链接

d.链接

正确答案是：

页面内容和链接

（）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。

选择一项：

a.聚焦网络爬虫

b.深层网络爬虫

c.增量式网络爬虫

d.通用网络爬虫

正确答案是：

增量式网络爬虫

以下不属于HTTP协议的主要特点的是（）。

选择一项：

a.简单快速

b.支持基本认证和安全认证

c.支持客户/服务器模式

d.有状态

正确答案是：

有状态

GET和POST的区别，以下说法不正确的有（）。

选择一项：

a.POST提交的数据会放在URL之后完

b.GET方式需要使用Request.QueryString来取得变量的值

c.POST方式通过Request.Form来获取变量的值

d.GET提交的数据会放在URL之后

正确答案是：

POST提交的数据会放在URL之后完

（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

选择一项：

a.通用网络爬虫

b.增量式网络爬虫

c.聚焦网络爬虫

d.深层网络爬虫

正确答案是：

增量式网络爬虫

HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

选择一项：

a.Content-Length

b.Content-Encoding

c.Content-Range

d.Content-Language

正确答案是：

Content-Length

HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。

选择一项：

a.POST

b.PUT

c.TRACE

d.GET

正确答案是：

POST

（）爬行过程中最重要部分就是表单填写及处理。

选择一项：

a.聚焦网络爬虫

b.深层网络爬虫

c.通用网络爬虫

d.增量式网络爬虫

正确答案是：

深层网络爬虫

以下哪个HTTP响应状态表示服务器端错误（）

选择一项：

a.500

b.200

c.300

d.403

正确答案是：

500

（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

选择一项：

a.深度优先策略

b.PageRank优先策略

c.广度优先策略

d.随机爬行策略

正确答案是：

深度优先策略

以下关于深度优先的爬行策略的说法，不正确的有（）。

选择一项：

a.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止

b.处于较浅目录层次的页面都可以首先被爬行

c.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完

d.比较适合垂直搜索或站内搜索

正确答案是：

处于较浅目录层次的页面都可以首先被爬行

HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

选择一项：

a.Connection

b.Refresh

c.WWW-Authenticate

d.Location

正确答案是：

Refresh

HTTP请求中的（）头域的内容包含发出请求的用户信息。

选择一项：

a.Cookie

b.User-Agent

c.Referer

d.Authorization

正确答案是：

Authorization

在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?

分割URL和传输数据，参数之间以&相连。

选择一项：

a.TRACE

b.POST

c.PUT

d.GET

正确答案是：

GET

GET提交表单时，以（）符号分割URL和传输数据。

选择一项：

a.*

b.&

c.?

d.||

正确答案是：

追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些"杂乱”的"脏”数据，就涉及到（）技术。

选择一项：

a.数据预测

b.数据采集

c.数据清洗

d.数据统计

正确答案是：

数据清洗

增量式爬虫中的（）指的是：

爬虫以相同的频率访问所有网页，不考虑网页的改变频率。

选择一项：

a.随机更新法

b.个体更新法

c.基于分类的更新法

d.统一更新法

正确答案是：

统一更新法

DeepWeb爬虫体系结构中的LVS用于（）。

选择一项：

a.待爬行URL集

b.本地页面URL集

c.表示填充表单的数据源

d.初始URL集合

正确答案是：

表示填充表单的数据源

HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

选择一项：

a.Cookie

b.User-Agent

c.Referer

d.Host

正确答案是：

User-Agent

深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。

选择一项：

a.文本

b.DOM树

c.图像

d.BOM树

正确答案是：

DOM树

关于表层网页及深层网页，以下说法不正确的是（）。

选择一项：

a.表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。

b.深层网页中包含的信息远远少于表层网页。

c.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

d.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。

正确答案是：

深层网页中包含的信息远远少于表层网页。

HTTP请求的（）能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，避免了建立或者重新建立连接。

选择一项：

a.Host

b.Keep-Alive

c.Cookie

d.Referer

正确答案是：

Keep-Alive

以下关于HTTP请求方法GET的说法，正确的是（）。

选择一项：

a.请求服务器删除Request-URI所标识的资源

b.请求查询服务器的性能

c.请求获取Request-URI所标识的资源

d.请求服务器回送收到的请求信息

正确答案是：

请求获取Request-URI所标识的资源

以下属于HTTP协议的主要特点的是（）。

选择一项：

a.HTTP1.1使用非持续连接

b.HTTP不支持安全认证

c.HTTP只允许传输指定类型的数据对象

d.HTTP协议是无状态协议

正确答案是：

HTTP协议是无状态协议

以下关于网络爬虫的说法，不正确的是（）。

选择一项：

a.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件

b.目前互联网上的信息分类大多数都是人工完成的

c.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

d.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人

正确答案是：

目前互联网上的信息分类大多数都是人工完成的

HTTP响应中的（）等分别用于指定消息发送和文档过期的时间。

选择一项：

a.Date，Allow

b.Last-Modified，Allow

c.Date，Expires

d.Last-Modified，Expires

正确答案是：

Date，Expires

HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

选择一项：

a.Content-Range

b.Content-Encoding

c.Content-Length

d.Content-Language

正确答案是：

Content-Length

发出的HTTP请求由三部分组成，分别是：

（）。

选择一项：

a.应答行、消息报头、请求正文

b.请求行、消息报头、请求正文

c.请求行、请求正文

d.消息报头、请求正文

正确答案是：

请求行、消息报头、请求正文

以下关于HTTP请求方法GET的说法，正确的是（）。

选择一项：

a.请求服务器删除Request-URI所标识的资源

b.请求查询服务器的性能

c.请求获取Request-URI所标识的资源

d.请求服务器回送收到的请求信息

正确答案是：

请求获取Request-URI所标识的资源

如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

选择一项：

a.检查浏览器权限

b.再次核对请求的页面地址是否正确

c.向网管报障

d.向管理员请求用户名和密码

正确答案是：

再次核对请求的页面地址是否正确

在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?

分割URL和传输数据，参数之间以&相连。

选择一项：

a.POST

b.TRACE

c.GET

d.PUT

正确答案是：

GET

HTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。

选择一项：

a.Referer

b.User-Agent

c.Host

d.Cookie

正确答案是：

Host

、HTTP中（）方法可用于请求查询服务器的性能，或者查询与资源相关的选项和需求。

选择一项：

a.OPTIONS

b.TRACE

c.TRACE

d.PUT

正确答案是：

OPTIONS

关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。

选择一项：

a.GET提交的数据会放在URL之后，以?

分割URL和传输数据，参数之间以&相连

b.GET提交的数据大小有限制

c.POST方法是把提交的数据放在HTTP包的Body中

d.POST方式提交数据，会带来安全问题

正确答案是：

POST方式提交数据，会带来安全问题

由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认是（）端口。

选择一项：

a.80

b.81

c.10

d.88

正确答案是：

发出的HTTP请求由三部分组成，分别是：

（）。

选择一项：

a.消息报头、请求正文

b.应答行、消息报头、请求正文

c.请求行、请求正文

d.请求行、消息报头、请求正文

正确答案是：

请求行、消息报头、请求正文

GET提交表单时，以（）符号分割URL和传输数据。

选择一项：

a.?

b.&

c.||

d.*

正确答案是：

HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

选择一项：

a.Refresh

b.WWW-Authenticate

c.Connection

d.Location

正确答案是：

Refresh

HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

选择一项：

a.Content-Encoding

b.Content-Language

c.Content-Range

d.Content-Length

正确答案是：

Content-Length

（）是指发现并纠正数据文件中可识别的一些错误。

选择一项：

a.数据清洗

b.数据采集

c.数据分析

d.数据集成

正确答案是：

数据清洗

HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。

选择一项：

a.TRACE

b.POST

c.GET

d.PUT

正确答案是：

POST

通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。

我们称这个客户端叫（）。

选择一项：

a.数据库

b.源服务器

c.用户代理

d.播放器

正确答案是：

用户代理

增量式爬虫中的（）指的是：

爬虫根据个体网页的改变频率来重新访问各页面。

选择一项：

a.基于分类的更新法

b.统一更新法

c.随机更新法

d.个体更新法

正确答案是：

个体更新法

以下关于网络爬虫的说法，不正确的是（）。

选择一项：

a.目前互联网上的信息分类大多数都是人工完成的

b.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件

c.网络爬虫实际上是一种"自动化浏览网络”的程序，或者说是一种网络机器人

d.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

正确答案是：

目前互联网上的信息分类大多数都是人工完成的

（）实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

选择一项：

a.通用网络爬虫

b.深层网络爬虫

c.聚焦网络爬虫

d.增量式网络爬虫

正确答案是：

增量式网络爬虫

HTTP响应中的（）等分别用于指定消息发送和文档过期的时间。

选择一项：

a.Last-Modified，Allow

b.Date，Expires

c.Last-Modified，Expires

d.Date，Allow

正确答案是：

Date，Expires

在HTTP响应信息中，若状态信息码是404则表示（）。

选择一项：

a.登录失败

b.所请求的页面已经转移至新的url

c.访问被禁止

d.没有找到请求的页面

正确答案是：

没有找到请求的页面

以下关于深度优先的爬行策略的说法，不正确的有（）。

选择一项：

a.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止

b.处于较浅目录层次的页面都可以首先被爬行

c.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完

d.比较适合垂直搜索或站内搜索

正确答案是：

处于较浅目录层次的页面都可以首先被爬行

HTTP响应中的（）表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。

选择一项：

a.Content-Length

b.Content-Encoding

c.Content-Type

d.Content-Range

正确答案是：

Content-Type

GET提交表单时，以（）符号分割URL和传输数据。

选择一项：

a.&

b.*

c.||

d.?

正确答案是：

（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。

选择一项：

a.基于目标特征

b.广度优先

c.深度优先

d.基于领域

正确答案是：

深度优先

选择一项：

a.深层网络爬虫

b.通用网络爬虫

c.聚焦网络爬虫

d.增量式网络爬虫

正确答案是：

增量式网络爬虫

以下对于爬行策略的说法，不正确的是（）。

选择一项：

a.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

b.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。

c.通用网络爬虫常用的爬行策略有：

深度优先策略、广度优先策略

d.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题

正确答案是：

深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。

（）爬行过程中最重要部分就是表单填写及处理。

选择一项：

a.通用网络爬虫

b.聚焦网络爬虫

c.增量式网络爬虫

d.深层网络爬虫

正确答案是：

深层网络爬虫

HTTP请求中的（）字段可能为类似"Mozilla/5.0（iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us）AppleWebKit……”这样的信息。

选择一项：

a.User-Agent

b.Cookie

c.Host

d.Connection

正确答案是：

User-Agent

通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。

我们称这个客户端叫（）。

选择一项：

a.数据库

b.源服务器

c.用户代理

d.播放器

正确答案是：

用户代理

HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。

选择一项：

a.GET

b.TRACE

c.PUT

d.POST

正确答案是：

POST

一次HTTP由（）组成。

选择一项：

a.一次请求

b.一次请求和一次响应

c.2次请求

d.一次响应

正确答案是：

一次请求和一次响应

以下关于HTTP请求方法GET的说法，正确的是（）。

选择一项：

a.请求服务器回送收到的请求信息

b.请求查询服务器的性能

c.请求获取Request-URI所标识的资源

d.请求服务器删除Request-URI所标识的资源

正确答案是：

请求获取Request-URI所标识的资源

（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

选择一项：

a.基于领域概念

b.基于目标网页特征

c.基于目标数据模式

d.深层网络爬虫

正确答案是：

基于目标数据模式

以下属于HTTP协议的主要特点的是（）。

选择一项：

a.HTTP协议是无状态协议

b.HTTP1.1使用非持续连接

c.HTTP只允许传输指定类型的数据对象

d.HTTP不支持安全认证

正确答案是：

HTTP协议是无状态协议

网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。

。

选择一项：

a.网络爬虫

b.播放器

c.浏览器

d.服务器

正确答案是：

网络爬虫

（）实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

选择一项：

a.增量式网络爬虫

b.深层网络爬虫

c.通用网络爬虫

d.聚焦网络爬虫

正确答案是：

增量式网络爬虫

如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。

选择一项：

a.深层网络爬虫

b.通用网络爬虫

c.增量式网络爬虫

d.聚焦网络爬虫

正确答案是：

聚焦网络爬虫

HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

选择一项：

a.Content-Range

b.Content-Language

c.Content-Encoding

d.Content-Length

正确答案是：

Content-Length

以下不属于HTTP协议请求方法的是（）

选择一项：

a.GET

b.POST

c.SUBMIT

d.TRACE

正确答案是：

SUBMIT

HTTP请求中

展开阅读全文