1、 C. 一次请求和一次响应 D. 两次请求5 单选 在HTTP请求中,通过( )方法发送的表单数据,会放在URL之后,以?分割URL和传输数据,参数之间以&相连,可能会造成信息泄露问题。 a. GET B. POST C. PUT D. CONNECT6 单选 HTTP请求头中( )域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。 a. Host B. Referer C. User-agent D. Content-Length7 单选 发送了一个HTTP请求后,客户端收到一个200的响应,这表示( )。 a. 拒绝访问 B. 登录失败 C. 重定向到其他URL D. 请求成
2、功8 单选 如果要采集指定的数据,则需要使用到( ),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 a. 增量式网络爬虫 B. 聚焦网络爬虫 C. DeepWeb爬虫 D. 全网爬虫9 单选 ( )的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。 a. 广度优先 B. 深度优先 C. 基于目标特征 D. 基于领域10 单选 在使用Java实现网络爬虫时,由于InputStream类型默认是字节流,无法处理中文,将会出现乱码。要解决中文乱码的问题,需将其转换为( ),这样就可以读取中文。 a. 无符号数
3、字 B. UNICODE编码 C. 字节流 D. 字符流 在正则表达式中d匹配( ) a. 数字 B. 字母、数字、下划线 C. 任意字符 D. 转义字符2 单选 在正则表达式中 ? 匹配( ) a. 字符出现0次以上 B. 字符出现一次以上 C. 字符出现0次或1次 D. 字符出现1次3 单选 使用正则表达式时,使用( )设置匹配规则。 a. Matcher B. Pattern C. find D. group4 单选 因数据库本身限制,在采集海量数据时存在性能瓶颈,因此海量数据建议用( )的方式保存,也方便与大数据底层交互。 a. 文本 B. 图像 C. 数字 D. 记录5 多选 以下哪
4、些是Matcher类的方法( ) a. start() B. end() C. find() D. group()6 单选 在整站采集时,一般从源地址出发,使用( )算法实现。 a. 差分 B. 线性 C. 分治 D. 递归7 单选 整站采集的步骤一般是( ) a. 匹配href连接地址;与原本地址拼接;读取网页中的a标签;找到关联网页并爬取 B. 读取网页中的a标签;匹配href连接地址; C. 找到关联网页并爬取;匹配href连接地址 D. 找到关联网页并爬取;读取网页中的a标签8 多选 保存采集的数据的方式有( ) B. XML文件 C. 音频 D. 数据库Hertrix默认的运行端口是
5、( ) a. 80 B. 8080 C. 10 D. 10102 单选 运行Hertrix前首先要搭建( )运行环境。 a. Java B. C+ C. Python D. C# 无3 单选 配置Hertrix的爬取设置是在( )模块。 a. Logs B. Help C. Profiles D. Reports4 单选 配置了Hertrix爬取设置后,在( )模块可以新建任务并运行。 B. Jobs C. Reports D. Setup5 单选 使用Hertrix爬取网页时建议使用( )模式。 a. Mirror B. KW3 C. aRC D. TXT6 单选 网站一般在( )文件中描述
6、被爬取的规则。 a. License.txt B. robots.txt C. ReadMe.txt D. hentrix.txt7 单选 ( )是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。 a. Crawler B. Jsoup C. Hertrix D. Nutch8 单选 以下哪种说法是正确的( ) a. Hertrix爬取过程中进度会自动刷新 B. 在Hertrix中建立了爬取任务后会自动开始 C. Hertrix是不可扩展的 D. 可通过修改配置文件更改使用时的用户名和密码 Hertrix默认的运行端口是( )HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。选
7、择一项:a. WWW-authenticateb. Connectionc. Refreshd. Location正确本题标准答案是是:Refresh通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。a. 源服务器b. 用户代理c. 播放器d. 数据库用户代理()爬行过程中最重要部分就是表单填写及处理。a. 深层网络爬虫b. 增量式网络爬虫c. 通用网络爬虫d. 聚焦网络爬虫深层网络爬虫以下哪个HTTP响应状态表示服务器端错误()a. 300b. 403c. 200d. 500500在HTTP响应信息中,若状态信息码是404则
8、表示()。a. 没有找到请求的页面b. 所请求的页面已经转移至新的urlc. 登录失败d. 访问被禁止没有找到请求的页面在HTP响应信息中,若状态信息码是200则表示()。a. 登录失败b. 请求成功c. 访问被禁止d. 所请求的页面已经转移至新的url请求成功HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。a. GETb. POSTc. PUTd. TRaCEPOSTHTTP请求头中()域的内容包含发出请求的用户信息,例如使用的客户端名称和版本号等。a. Hostb. User-agentc. Refererd. CookieUser-agent()的基本方法是按
9、照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。a. 深度优先策略b. 随机爬行策略c. PageRank优先策略d. 广度优先策略深度优先策略以下不属于HTTP协议的主要特点的是()。a. 支持基本认证和安全认证b. 有状态c. 简单快速d. 支持客户/服务器模式有状态如果HTTP请求的响应信息是404,则应采取下列哪项措施()。a. 向管理员请求用户名和密码b. 再次核对请求的页面地址是否正确c. 检查浏览器权限d. 向网管报障再次核对请求的页面地址是否正确以下哪个不属于HTTP请求信息()。a. accept-Languagec. Expiresd. User-agentExpires追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些杂乱”的脏”数据,就涉及到()技术。a. 数据预测b. 数据清洗c. 数据采集d. 数据统计数据清洗()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。a. 聚焦网络爬虫c. 深层网络爬虫d. 通用网络爬虫正确本题标准
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1