智慧树知到《大数据工具应用》章节测试答案.docx

资源描述

智慧树知到《大数据工具应用》章节测试答案.docx

《智慧树知到《大数据工具应用》章节测试答案.docx》由会员分享，可在线阅读，更多相关《智慧树知到《大数据工具应用》章节测试答案.docx（15页珍藏版）》请在冰豆网上搜索。

智慧树知到《大数据工具应用》章节测试答案.docx

智慧树知到《大数据工具应用》章节测试答案

第一章

1、2011年麦肯锡研究院提出的大数据定义是：

大数据是指其大小超出了常规数据库工具获取、储存、管理和（）能力的数据集。

计算

访问

应用

分析

答案:

分析

2、用4V来概括大数据的特点的话，一般是指：

Value、Velocity、Volume和（）。

Variety

Vainly

Vagary

Valley

答案:

Variety

3、大数据分析四个方面的工作主要是：

数据分类、（）、关联规则挖掘和时间序列预测。

数据统计

数据计算

数据聚类

数据清洗

答案:

数据聚类

4、新浪和京东联合推出的大数据商品推荐，是由京东盲目推送到当前浏览新浪网站的用户的页面上的。

对

错

答案:

错

5、目前的大数据处理技术只能处理结构化数据。

对

错

答案:

错

第二章

1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是（）。

mdf

mdb

dbf

xls

答案:

mdb

2、大多数日志文件的后缀名是（）。

txt

csv

xml

log

答案:

log

3、本课程重点介绍的weka软件的专有文件格式是（）。

MongoDB

ARFF

value

keymap

答案:

ARFF

4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和（）。

专业性

排他性

一致性

共享性

答案:

一致性

5、八爪鱼软件的“自定义采集”工作方式下，需要在软件里输入一个（）来作为采集的目标。

电话号码

关键词

网页地址

用户名

答案:

网页地址

6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出，这种文件的后缀名是（）。

otd

jpg

png

gif

答案:

otd

7、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。

对

错

答案:

对

8、Excel不能导入txt或csv格式的文件。

对

错

答案:

错

9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。

对

错

答案:

错

10、八爪鱼软件进行自定义采集时，需要了解对网页的页面结构。

对

错

答案:

对

第三章

1、使用DBSCAN算法对鸢尾花数据集（Iris.arff）进行聚类，将epsilon参数设置为0.2，minPoints参数设置为5，忽略class属性，那么将形成（）个簇。

答案:

2、使用EM算法对天气数据集（weather.numeric.arff）进行聚类，将numClusters设置为4，即簇数为4，其他参数保持默认值，忽略class属性，从结果中可知，下列选项中，（）是错误的。

模型的最大似然估计值是-7.18

这组数据用算法迭代15次

第四个簇的先验概率是0.14

第四个簇的实例数为4

答案:

第四个簇的实例数为4

3、使用SimpleKMeans算法对天气数据集（weather.numeric.arff）进行聚类，保持默认参数，即3个簇以及欧氏距离。

选择play属性为忽略属性，从结果中可知，下列选项中，（）是错误。

这组数据用算法迭代四次

产生了三个中心点

聚合为3个簇，分别有7，3，4个实例

平方和误差为8.928

答案:

这组数据用算法迭代四次

4、使用线性回归（LinearRegression）分类器和用M5P分类器对cpu.arff分别进行分类，由其输出的误差指标可知（）。

LinearRegression的标准误差比M5P的标准误差小

LinearRegression的平均绝对误差比M5P的平均绝对误差小

LinearRegression的相对误差比M5P的相对误差小

LinearRegression的平均方根误差比M5P的平均方根误差大

答案:

LinearRegression的平均方根误差比M5P的平均方根误差大

5、删去cpu.arff数据文件中的CACH属性后，使用M5P分类器构建方案，在结果中，到达LM2的实例数有（）个。

165

答案:

6、根据J48分类器训练weather.nominal.arff所生产的决策树，当outlook=sunny；temperature=cool；humidity=high；windy=TRUE时，分类的结果是（）。

Yes

没有结果

无法分类

答案:

7、根据J48分类器训练iris.arff所生产的决策树，当sepallength=4.4；sepalwidth=3.0；petallength=1.3；petalwidth=0.2时，分类的结果是（）。

Iris-setosa

Iris-versicolor

Iris-virginica

无法分类

答案:

Iris-setosa

8、关于Weka离散化说明正确的是（）。

离散化是将数值属性转换为字符串型属性

有监督离散化有两种等宽和等频方法

等宽离散化是使实例分布均匀的

离散化包括无监督离散化和有监督离散化

答案:

离散化包括无监督离散化和有监督离散化

9、以下（）不是Weka的数据类型。

numeric

nominal

string

decimal

答案:

decimal

10、关于Weka的文件类型描述错误的是（）。

Weka可以打开文件格式有.arff、.csv、.xlsx

Weka处理的数据集类似于关系数据库横行实例，竖行属性

arff是ASCII文件，可以用Word等文本编辑器打开查看

@relation定义数据集名称，@data之后呈现实例，每一行就是一个实例

答案:

Weka可以打开文件格式有.arff、.csv、.xlsx

11、以下属于关联分析的是（）。

CPU性能预测

购物篮分析

自动判断鸢尾花类别

股票趋势建模

答案:

购物篮分析

12、大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。

其中，数据之间的相关关系可以通过以下（）算法直接挖掘。

K-means

BayesNetwork

C4.5

Apriori

答案:

Apriori

13、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的（）问题。

关联规则发现

聚类

分类

自然语言处理

答案:

关联规则发现

14、在进行自动选择属性时，必须设立两个对象，其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的（）。

搜索方法

属性评估器

元分类器

规则挖掘

答案:

属性评估器

15、以下属于属性空间的搜索方法的是（）。

GainRatioAttributeEval

BestFirst

PrincipalComponents

SymmetricalUncertAttributeEval

答案:

BestFirst

16、在weka软件探索者界面中，利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后，需要单击以下（）按钮，所有更改才会生效。

SelectAttribute

SubSample

Update

Fastscrolling

答案:

Update

17、给定关联规则AB，意味着：

若A发生，B也会发生。

对

错

答案:

错

18、支持度是衡量关联规则重要性的一个指标。

对

错

答案:

对

19、Ranker方法既可以用于单个属性评估器，又可以用于属性子集评估器。

对

错

答案:

错

20、利用weka软件进行数据可视化时，用户可以选择类别属性对数据点着色，如果类别属性是标称型，则显示为彩色条。

对

错

答案:

错

第四章

1、贝叶斯网络中的节点代表（）。

变量

随机过程

随机变量

随机函数

答案:

随机变量

2、贝叶斯网络中，节点需给出概率分布描述，对于离散型随机变量而言，可以用（）的形式表示。

条件概率密度函数

正态分布

条件概率表

均匀分布

答案:

条件概率表

3、贝叶斯网络中节点之间的边代表（）。

随机关系

概率因果

组合关系

随机结果

答案:

随机关系

4、贝叶斯网络保存的文件格式是（）。

XMLBIF

DOCX

TXT

XLS

答案:

XMLBIF

5、下面（）不是反向传播神经网络的结构。

输入层

隐含层

计算层

输出层

答案:

计算层

6、神经网络中的节点代表（）。

激励变量

激励函数

随机变量

随机函数

答案:

激励函数

7、下列（）不是常见的激励函数。

线性函数

Sigmoid函数

阈值函数

正弦函数

答案:

正弦函数

8、在贝叶斯网络编辑界面时，如果节点的名称没法完全显示，需要从（）菜单项进行调整。

Tools|SetData

View|ZoomOut

View|ZoomIn

Tools|Layout

答案:

Tools|Layout

9、WEKA中选择神经网络分类器操作时，应该选择（）。

rules条目下的PART

functions条目下的SGD分类器

functions条目下的MultilayerPerceptron分类器

默认的分类器

答案:

functions条目下的MultilayerPerceptron分类器

10、下面关于PackageManager安装后的目录说明不正确的是（）。

doc子目录存放API文档

lib子目录存放包所需要的说明文件

sample-data子目录存放数据集文件

src子目录存放源代码文件

答案:

lib子目录存放包所需要的说明文件

第五章

1、Tableau是一款定位于数据可视化敏捷开发和实现（）展现工具。

Tableau连续第6年在Gartner分析和商业智能魔力象限中蝉联领导者殊荣。

商务智能

商业行为

商务计算

商业统计

答案:

商务智能

2、以下（）不是Tableau的数据类型？

Boolean

Date

String

Decimal

答案:

Decimal

3、Tableau可以用来实现交互的、（）的分析和仪表板应用，从而帮助我们快速地认识和理解数据。

连续性

离散性

智能化

可视化

答案:

可视化

4、下列说法错误的是（）。

Tableau通过内存数据引擎，可以直接查询外部数据库同时动态的从数据仓库抽取实时数据，极大的提高了数据访问和查询效率

用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精

展开阅读全文