数据采集与管理.docx-资源下载

数据采集与管理.docx

1、数据采集与管理以下关于深度优先的爬行策略的说法，不正确的有（）。选择一项：a. 处于较浅目录层次的页面都可以首先被爬行 b. 比较适合垂直搜索或站内搜索c. 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完d. 其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止正确答案是：处于较浅目录层次的页面都可以首先被爬行HTTP请求中的（）方法用于请求服务器删除Request-URI所标识的资源。选择一项：a. PUTb. DELETE c. GETd. TRACE正确答案是：DELETEPageRank优先策略常用于（）。选择一项：a. De

2、ep Web 爬虫b. 所有网络爬虫c. 增量式网络爬虫 d. 通用网络爬虫正确答案是：增量式网络爬虫深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。选择一项：a. BOM树b. DOM树 c. 文本d. 图像正确答案是：DOM树发出的HTTP请求由三部分组成，分别是：（）。选择一项：a. 应答行、消息报头、请求正文b. 请求行、消息报头、请求正文 c. 请求行、请求正文d. 消息报头、请求正文正确答案是：请求行、消息报头、请求正文在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?分割URL和传输数据，参数之间以&相连。选择一项：a. G

3、ET b. POSTc. PUTd. TRACE正确答案是：GETHTTP请求中的（）头域允许客户端指定请求uri的源资源地址，这可以允许服务器生成回退链表，可用来登陆、优化cache等。选择一项：a. Refererb. Cookiec. User-Agentd. Referer 正确答案是：Referer一次HTTP由（）组成。选择一项：a. 一次响应b. 2次请求c. 一次请求和一次响应 d. 一次请求正确答案是：一次请求和一次响应关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。选择一项：a. POST方式提交数据，会带来安全问题 b. POST方法是把提交的数据放

4、在HTTP包的Body中c. GET提交的数据大小有限制d. GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连正确答案是：POST方式提交数据，会带来安全问题以下关于网络爬虫的说法，不正确的是（）。选择一项：a. 网络爬虫被广泛用于互联网搜索引擎或其他类似网站b. 网络爬虫实际上是一种自动化浏览网络”的程序，或者说是一种网络机器人c. 目前互联网上的信息分类大多数都是人工完成的 d. 传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件正确答案是：目前互联网上的信息分类

5、大多数都是人工完成的HTTP请求中的（）头域代表发送端（客户端）希望接受的数据类型。选择一项：a. Cookieb. Refererc. User-Agentd. Accept 正确答案是：AcceptHTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。选择一项：a. User-Agentb. Cookiec. Refererd. Host 正确答案是：Host聚焦爬虫爬行策略实现的关键是评价（）的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。选择一项：a. 页面内容b. 表单信息c. 页面内容和链接 d. 链接正

6、确答案是：页面内容和链接（）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。选择一项：a. 聚焦网络爬虫b. 深层网络爬虫c. 增量式网络爬虫 d. 通用网络爬虫正确答案是：增量式网络爬虫以下不属于HTTP协议的主要特点的是（）。选择一项：a. 简单快速b. 支持基本认证和安全认证c. 支持客户/服务器模式d. 有状态正确答案是：有状态GET和POST的区别，以下说法不正确的有（）。选择一项：a. POST提交的数据会放在URL之后完 b. GET方式需要使用Request.QueryString来取得变量的值c.

7、 POST方式通过Request.Form来获取变量的值d. GET提交的数据会放在URL之后正确答案是：POST提交的数据会放在URL之后完（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。选择一项：a. 通用网络爬虫b. 增量式网络爬虫 c. 聚焦网络爬虫d. 深层网络爬虫正确答案是：增量式网络爬虫HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。选择一项：a. Content-Length b. Content-Encodingc

8、. Content-Ranged. Content-Language正确答案是：Content-LengthHTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。选择一项：a. POST b. PUTc. TRACEd. GET正确答案是：POST（）爬行过程中最重要部分就是表单填写及处理。选择一项：a. 聚焦网络爬虫b. 深层网络爬虫 c. 通用网络爬虫d. 增量式网络爬虫正确答案是：深层网络爬虫以下哪个HTTP响应状态表示服务器端错误（）选择一项：a. 500 b. 200c. 300d. 403正确答案是：500（）的基本方法是按照深度由低到高的顺序，依次访问下一级

9、网页链接，直到不能再深入为止。选择一项：a. 深度优先策略 b. PageRank优先策略c. 广度优先策略d. 随机爬行策略正确答案是：深度优先策略以下关于深度优先的爬行策略的说法，不正确的有（）。选择一项：a. 其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止b. 处于较浅目录层次的页面都可以首先被爬行 c. 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完d. 比较适合垂直搜索或站内搜索正确答案是：处于较浅目录层次的页面都可以首先被爬行HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。选择一项：a. Connection

10、b. Refresh c. WWW-Authenticated. Location正确答案是：RefreshHTTP请求中的（）头域的内容包含发出请求的用户信息。选择一项：a. Cookieb. User-Agentc. Refererd. Authorization 正确答案是：Authorization在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?分割URL和传输数据，参数之间以&相连。选择一项：a. TRACEb. POSTc. PUTd. GET 正确答案是：GETGET提交表单时，以（）符号分割URL和传输数据。选择一项：a. *b. &c. ? d. |正确答案是

11、：?追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些杂乱”的脏”数据，就涉及到()技术。选择一项：a. 数据预测b. 数据采集c. 数据清洗 d. 数据统计正确答案是：数据清洗增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。选择一项：a. 随机更新法b. 个体更新法c. 基于分类的更新法d. 统一更新法正确答案是：统一更新法Deep Web 爬虫体系结构中的LVS用于（）。选择一项：a. 待爬行 URL 集b. 本地页面URL 集c. 表示填充表单的数据源 d. 初始 URL 集合正确答案是：表示填充表单的数据源HTTP请求头中（）域

12、的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。选择一项：a. Cookieb. User-Agent c. Refererd. Host正确答案是：User-Agent深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。选择一项：a. 文本b. DOM树 c. 图像d. BOM树正确答案是：DOM树关于表层网页及深层网页，以下说法不正确的是（）。选择一项：a. 表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。b. 深层网页中包含的信息远远少于表层网页。 c. 深层网页是那些大部分内容不能通过静态链

13、接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。d. 深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。正确答案是：深层网页中包含的信息远远少于表层网页。HTTP请求的（）能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，避免了建立或者重新建立连接。选择一项：a. Hostb. Keep-Alive c. Cookied. Referer正确答案是：Keep-Alive以下关于HTTP请求方法GET的说法，正确的是（）。选择一项：a. 请求服务器删除Request-URI所标识的资源b. 请求查询服务器的性能c. 请求获取Request-URI所标

14、识的资源 d. 请求服务器回送收到的请求信息正确答案是：请求获取Request-URI所标识的资源以下属于HTTP协议的主要特点的是（）。选择一项：a. HTTP 1.1使用非持续连接b. HTTP不支持安全认证c. HTTP只允许传输指定类型的数据对象d. HTTP协议是无状态协议正确答案是：HTTP协议是无状态协议以下关于网络爬虫的说法，不正确的是（）。选择一项：a. 传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件b. 目前互联网上的信息分类大多数都是人工完成的 c. 网络爬虫被广泛用

15、于互联网搜索引擎或其他类似网站d. 网络爬虫实际上是一种自动化浏览网络”的程序，或者说是一种网络机器人正确答案是：目前互联网上的信息分类大多数都是人工完成的HTTP响应中的（）等分别用于指定消息发送和文档过期的时间。选择一项：a. Date，Allowb. Last-Modified，Allowc. Date，Expires d. Last-Modified，Expires正确答案是：Date，ExpiresHTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。选择一项：a. Content-Rangeb. Content-Encodingc. Content-Length

16、 d. Content-Language正确答案是：Content-Length发出的HTTP请求由三部分组成，分别是：（）。选择一项：a. 应答行、消息报头、请求正文b. 请求行、消息报头、请求正文 c. 请求行、请求正文d. 消息报头、请求正文正确答案是：请求行、消息报头、请求正文以下关于HTTP请求方法GET的说法，正确的是（）。选择一项：a. 请求服务器删除Request-URI所标识的资源b. 请求查询服务器的性能c. 请求获取Request-URI所标识的资源 d. 请求服务器回送收到的请求信息正确答案是：请求获取Request-URI所标识的资源如果HTTP请求的响应信息是404

17、，则应采取下列哪项措施（）。选择一项：a. 检查浏览器权限b. 再次核对请求的页面地址是否正确 c. 向网管报障d. 向管理员请求用户名和密码正确答案是：再次核对请求的页面地址是否正确在HTTP请求中，通过（）方法发送的数据，会放在URL之后，以?分割URL和传输数据，参数之间以&相连。选择一项：a. POSTb. TRACEc. GET d. PUT正确答案是：GETHTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。选择一项：a. Refererb. User-Agentc. Host d. Cookie正确答案是：Host、HTT

18、P中（）方法可用于请求查询服务器的性能，或者查询与资源相关的选项和需求。选择一项：a. OPTIONS b. TRACEc. TRACEd. PUT正确答案是：OPTIONS关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。选择一项：a. GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连b. GET提交的数据大小有限制c. POST方法是把提交的数据放在HTTP包的Body中d. POST方式提交数据，会带来安全问题正确答案是：POST方式提交数据，会带来安全问题由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认

19、是（）端口。选择一项：a. 80 b. 81c. 10d. 88正确答案是：80发出的HTTP请求由三部分组成，分别是：（）。选择一项：a. 消息报头、请求正文b. 应答行、消息报头、请求正文c. 请求行、请求正文d. 请求行、消息报头、请求正文正确答案是：请求行、消息报头、请求正文GET提交表单时，以（）符号分割URL和传输数据。选择一项：a. ? b. &c. |d. *正确答案是：?HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。选择一项：a. Refresh b. WWW-Authenticatec. Connectiond. Location正确答案是：RefreshHTT

20、P响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。选择一项：a. Content-Encodingb. Content-Languagec. Content-Ranged. Content-Length 正确答案是：Content-Length（）是指发现并纠正数据文件中可识别的一些错误。选择一项：a. 数据清洗 b. 数据采集c. 数据分析d. 数据集成正确答案是：数据清洗HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。选择一项：a. TRACEb. POST c. GETd. PUT正确答案是：POST通过使用Web浏览器、网络爬虫或者其它的工

21、具，客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫（）。选择一项：a. 数据库b. 源服务器c. 用户代理 d. 播放器正确答案是：用户代理增量式爬虫中的（）指的是：爬虫根据个体网页的改变频率来重新访问各页面。选择一项：a. 基于分类的更新法b. 统一更新法c. 随机更新法d. 个体更新法正确答案是：个体更新法以下关于网络爬虫的说法，不正确的是（）。选择一项：a. 目前互联网上的信息分类大多数都是人工完成的 b. 传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件c. 网络

22、爬虫实际上是一种自动化浏览网络”的程序，或者说是一种网络机器人d. 网络爬虫被广泛用于互联网搜索引擎或其他类似网站正确答案是：目前互联网上的信息分类大多数都是人工完成的（）实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。选择一项：a. 通用网络爬虫b. 深层网络爬虫c. 聚焦网络爬虫d. 增量式网络爬虫正确答案是：增量式网络爬虫HTTP响应中的（）等分别用于指定消息发送和文档过期的时间。选择一项：a. Last-Modified，Allowb. Date，Expires c. Last-Modified，Expiresd. Date，Allow正确答案是

23、：Date，Expires在HTTP响应信息中，若状态信息码是404则表示（）。选择一项：a. 登录失败b. 所请求的页面已经转移至新的urlc. 访问被禁止d. 没有找到请求的页面正确答案是：没有找到请求的页面以下关于深度优先的爬行策略的说法，不正确的有（）。选择一项：a. 其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止b. 处于较浅目录层次的页面都可以首先被爬行 c. 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完d. 比较适合垂直搜索或站内搜索正确答案是：处于较浅目录层次的页面都可以首先被爬行HTTP响应中的（）表示WE

24、B服务器告诉浏览器自己响应的对象的类型和字符集。选择一项：a. Content-Lengthb. Content-Encodingc. Content-Type d. Content-Range正确答案是：Content-TypeGET提交表单时，以（）符号分割URL和传输数据。选择一项：a. &b. *c. |d. ? 正确答案是：?（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。选择一项：a. 基于目标特征b. 广度优先c. 深度优先 d. 基于领域正确答案是：深度优先（）只会在需要的时候爬行新产生或发生更新的页面，并不重新

25、下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。选择一项：a. 深层网络爬虫b. 通用网络爬虫c. 聚焦网络爬虫d. 增量式网络爬虫正确答案是：增量式网络爬虫以下对于爬行策略的说法，不正确的是（）。选择一项：a. 深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。b. 深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。 c. 通用网络爬虫常用的爬行策略有：深度优先策略、广度优先策略d. 广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无

26、法结束爬行的问题正确答案是：深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。（）爬行过程中最重要部分就是表单填写及处理。选择一项：a. 通用网络爬虫b. 聚焦网络爬虫c. 增量式网络爬虫d. 深层网络爬虫正确答案是：深层网络爬虫HTTP请求中的（）字段可能为类似Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit”这样的信息。选择一项：a. User-Agent b. Cookiec. Hostd. Connection正确答案是：User-Agent通过使用Web浏览器、网络爬虫或者其它的工具，客

27、户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫（）。选择一项：a. 数据库b. 源服务器c. 用户代理 d. 播放器正确答案是：用户代理HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。选择一项：a. GETb. TRACEc. PUTd. POST 正确答案是：POST一次HTTP由（）组成。选择一项：a. 一次请求b. 一次请求和一次响应 c. 2次请求d. 一次响应正确答案是：一次请求和一次响应以下关于HTTP请求方法GET的说法，正确的是（）。选择一项：a. 请求服务器回送收到的请求信息b. 请求查询服务器的性能c. 请求获取Reques

28、t-URI所标识的资源 d. 请求服务器删除Request-URI所标识的资源正确答案是：请求获取Request-URI所标识的资源（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。选择一项：a. 基于领域概念b. 基于目标网页特征c. 基于目标数据模式 d. 深层网络爬虫正确答案是：基于目标数据模式以下属于HTTP协议的主要特点的是（）。选择一项：a. HTTP协议是无状态协议 b. HTTP 1.1使用非持续连接c. HTTP只允许传输指定类型的数据对象d. HTTP不支持安全认证正确答案是：HTTP协议是无状态协议网络数据采集是指通过（）

29、或网站公开API等方式从网站上获取数据信息。选择一项：a. 网络爬虫 b. 播放器c. 浏览器d. 服务器正确答案是：网络爬虫（）实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。选择一项：a. 增量式网络爬虫 b. 深层网络爬虫c. 通用网络爬虫d. 聚焦网络爬虫正确答案是：增量式网络爬虫如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。选择一项：a. 深层网络爬虫b. 通用网络爬虫c. 增量式网络爬虫d. 聚焦网络爬虫正确答案是：聚焦网络爬虫HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。选择一项：a. Content-Rangeb. Content-Languagec. Content-Encodingd. Content-Length 正确答案是：Content-Length以下不属于HTTP协议请求方法的是（）选择一项：a. GETb. POSTc. SUBMIT d. TRACE正确答案是：SUBMITHTTP请求中

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？