ImageVerifierCode 换一换
格式:DOCX , 页数:27 ,大小:23.87KB ,
资源ID:15751562      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/15751562.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(10293 数据采集与管理Word文档格式.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

10293 数据采集与管理Word文档格式.docx

1、 C. 一次请求和一次响应 D. 两次请求5 单选 在HTTP请求中,通过( )方法发送的表单数据,会放在URL之后,以?分割URL和传输数据,参数之间以&相连,可能会造成信息泄露问题。 a. GET B. POST C. PUT D. CONNECT6 单选 HTTP请求头中( )域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。 a. Host B. Referer C. User-agent D. Content-Length7 单选 发送了一个HTTP请求后,客户端收到一个200的响应,这表示( )。 a. 拒绝访问 B. 登录失败 C. 重定向到其他URL D. 请求成

2、功8 单选 如果要采集指定的数据,则需要使用到( ),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 a. 增量式网络爬虫 B. 聚焦网络爬虫 C. DeepWeb爬虫 D. 全网爬虫9 单选 ( )的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。 a. 广度优先 B. 深度优先 C. 基于目标特征 D. 基于领域10 单选 在使用Java实现网络爬虫时,由于InputStream类型默认是字节流,无法处理中文,将会出现乱码。要解决中文乱码的问题,需将其转换为( ),这样就可以读取中文。 a. 无符号数

3、字 B. UNICODE编码 C. 字节流 D. 字符流 在正则表达式中d匹配( ) a. 数字 B. 字母、数字、下划线 C. 任意字符 D. 转义字符2 单选 在正则表达式中 ? 匹配( ) a. 字符出现0次以上 B. 字符出现一次以上 C. 字符出现0次或1次 D. 字符出现1次3 单选 使用正则表达式时,使用( )设置匹配规则。 a. Matcher B. Pattern C. find D. group4 单选 因数据库本身限制,在采集海量数据时存在性能瓶颈,因此海量数据建议用( )的方式保存,也方便与大数据底层交互。 a. 文本 B. 图像 C. 数字 D. 记录5 多选 以下哪

4、些是Matcher类的方法( ) a. start() B. end() C. find() D. group()6 单选 在整站采集时,一般从源地址出发,使用( )算法实现。 a. 差分 B. 线性 C. 分治 D. 递归7 单选 整站采集的步骤一般是( ) a. 匹配href连接地址;与原本地址拼接;读取网页中的a标签;找到关联网页并爬取 B. 读取网页中的a标签;匹配href连接地址; C. 找到关联网页并爬取;匹配href连接地址 D. 找到关联网页并爬取;读取网页中的a标签8 多选 保存采集的数据的方式有( ) B. XML文件 C. 音频 D. 数据库Hertrix默认的运行端口是

5、( ) a. 80 B. 8080 C. 10 D. 10102 单选 运行Hertrix前首先要搭建( )运行环境。 a. Java B. C+ C. Python D. C# 无3 单选 配置Hertrix的爬取设置是在( )模块。 a. Logs B. Help C. Profiles D. Reports4 单选 配置了Hertrix爬取设置后,在( )模块可以新建任务并运行。 B. Jobs C. Reports D. Setup5 单选 使用Hertrix爬取网页时建议使用( )模式。 a. Mirror B. KW3 C. aRC D. TXT6 单选 网站一般在( )文件中描述

6、被爬取的规则。 a. License.txt B. robots.txt C. ReadMe.txt D. hentrix.txt7 单选 ( )是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。 a. Crawler B. Jsoup C. Hertrix D. Nutch8 单选 以下哪种说法是正确的( ) a. Hertrix爬取过程中进度会自动刷新 B. 在Hertrix中建立了爬取任务后会自动开始 C. Hertrix是不可扩展的 D. 可通过修改配置文件更改使用时的用户名和密码 Hertrix默认的运行端口是( )HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。选

7、择一项:a. WWW-authenticateb. Connectionc. Refreshd. Location正确本题标准答案是是:Refresh通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。a. 源服务器b. 用户代理c. 播放器d. 数据库用户代理()爬行过程中最重要部分就是表单填写及处理。a. 深层网络爬虫b. 增量式网络爬虫c. 通用网络爬虫d. 聚焦网络爬虫深层网络爬虫以下哪个HTTP响应状态表示服务器端错误()a. 300b. 403c. 200d. 500500在HTTP响应信息中,若状态信息码是404则

8、表示()。a. 没有找到请求的页面b. 所请求的页面已经转移至新的urlc. 登录失败d. 访问被禁止没有找到请求的页面在HTP响应信息中,若状态信息码是200则表示()。a. 登录失败b. 请求成功c. 访问被禁止d. 所请求的页面已经转移至新的url请求成功HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。a. GETb. POSTc. PUTd. TRaCEPOSTHTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。a. Hostb. User-agentc. Refererd. CookieUser-agent()的基本方法是按

9、照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。a. 深度优先策略b. 随机爬行策略c. PageRank优先策略d. 广度优先策略深度优先策略以下不属于HTTP协议的主要特点的是()。a. 支持基本认证和安全认证b. 有状态c. 简单快速d. 支持客户/服务器模式有状态如果HTTP请求的响应信息是404,则应采取下列哪项措施()。a. 向管理员请求用户名和密码b. 再次核对请求的页面地址是否正确c. 检查浏览器权限d. 向网管报障再次核对请求的页面地址是否正确以下哪个不属于HTTP请求信息()。a. accept-Languagec. Expiresd. User-agentExpires追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些杂乱”的脏”数据,就涉及到()技术。a. 数据预测b. 数据清洗c. 数据采集d. 数据统计数据清洗()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。a. 聚焦网络爬虫c. 深层网络爬虫d. 通用网络爬虫正确本题标准

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1