智慧树知到《大数据工具应用》章节测试答案文档格式.docx
《智慧树知到《大数据工具应用》章节测试答案文档格式.docx》由会员分享,可在线阅读,更多相关《智慧树知到《大数据工具应用》章节测试答案文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
数据聚类
数据清洗
数据聚类
4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
对
错
错
5、目前的大数据处理技术只能处理结构化数据。
第二章
1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。
mdf
mdb
dbf
xls
mdb
2、大多数日志文件的后缀名是()。
txt
csv
xml
log
log
3、本课程重点介绍的weka软件的专有文件格式是()。
MongoDB
ARFF
value
keymap
ARFF
4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。
专业性
排他性
一致性
共享性
一致性
5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。
电话号码
关键词
网页地址
用户名
网页地址
6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。
otd
jpg
png
gif
otd
7、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
对
8、Excel不能导入txt或csv格式的文件。
9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
第三章
1、使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,minPoints参数设置为5,忽略class属性,那么将形成()个簇。
1
2
3
4
2、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。
模型的最大似然估计值是-7.18
这组数据用算法迭代15次
第四个簇的先验概率是0.14
第四个簇的实例数为4
3、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。
选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。
这组数据用算法迭代四次
产生了三个中心点
聚合为3个簇,分别有7,3,4个实例
平方和误差为8.928
4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知()。
LinearRegression的标准误差比M5P的标准误差小
LinearRegression的平均绝对误差比M5P的平均绝对误差小
LinearRegression的相对误差比M5P的相对误差小
LinearRegression的平均方根误差比M5P的平均方根误差大
5、删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有()个。
165
21
23
30
6、根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;
temperature=cool;
humidity=high;
windy=TRUE时,分类的结果是()。
Yes
No
没有结果
无法分类
7、根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;
sepalwidth=3.0;
petallength=1.3;
petalwidth=0.2时,分类的结果是()。
Iris-setosa
Iris-versicolor
Iris-virginica
8、关于Weka离散化说明正确的是()。
离散化是将数值属性转换为字符串型属性
有监督离散化有两种等宽和等频方法
等宽离散化是使实例分布均匀的
离散化包括无监督离散化和有监督离散化
9、以下()不是Weka的数据类型。
numeric
nominal
string
decimal
10、关于Weka的文件类型描述错误的是()。
Weka可以打开文件格式有.arff、.csv、.xlsx
Weka处理的数据集类似于关系数据库横行实例,竖行属性
arff是ASCII文件,可以用Word等文本编辑器打开查看
@relation定义数据集名称,@data之后呈现实例,每一行就是一个实例
11、以下属于关联分析的是()。
CPU性能预测
购物篮分析
自动判断鸢尾花类别
股票趋势建模
12、大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。
其中,数据之间的相关关系可以通过以下()算法直接挖掘。
K-means
BayesNetwork
C4.5
Apriori
13、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的()问题。
关联规则发现
聚类
分类
自然语言处理
14、在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的()。
搜索方法
属性评估器
元分类器
规则挖掘
15、以下属于属性空间的搜索方法的是()。
GainRatioAttributeEval
BestFirst
PrincipalComponents
SymmetricalUncertAttributeEval
16、在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下()按钮,所有更改才会生效。
SelectAttribute
SubSample
Update
Fastscrolling
17、给定关联规则AB,意味着:
若A发生,B也会发生。
18、支持度是衡量关联规则重要性的一个指标。
19、Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
20、利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。
第四章
1、贝叶斯网络中的节点代表()。
变量
随机过程
随机变量
随机函数
随机变量
2、贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用()的形式表示。
条件概率密度函数
正态分布
条件概率表
均匀分布
条件概率表
3、贝叶斯网络中节点之间的边代表()。
随机关系
概率因果
组合关系
随机结果
随机关系
4、贝叶斯网络保存的文件格式是()。
XMLBIF
DOCX
TXT
XLS
XMLBIF
5、下面()不是反向传播神经网络的结构。
输入层
隐含层
计算层
输出层
计算层
6、神经网络中的节点代表()。
激励变量
激励函数
激励函数
7、下列()不是常见的激励函数。
线性函数
Sigmoid函数
阈值函数
正弦函数
正弦函数
8、在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从()菜单项进行调整。
Tools|SetData
View|ZoomOut
View|ZoomIn
Tools|Layout
Tools|Layout
9、WEKA中选择神经网络分类器操作时,应该选择()。
rules条目下的PART
functions条目下的SGD分类器
functions条目下的MultilayerPerceptron分类器
默认的分类器
functions条目下的MultilayerPerceptron分类器
10、下面关于PackageManager安装后的目录说明不正确的是()。
doc子目录存放API文档
lib子目录存放包所需要的说明文件
sample-data子目录存放数据集文件
src子目录存放源代码文件
lib子目录存放包所需要的说明文件
第五章
1、Tableau是一款定位于数据可视化敏捷开发和实现()展现工具。
Tableau连续第6年在Gartner分析和商业智能魔力象限中蝉联领导者殊荣。
商务智能
商业行为
商务计算
商业统计
商务智能
2、以下()不是Tableau的数据类型?
Boolean
Date
String
Decimal
Decimal
3、Tableau可以用来实现交互的、()的分析和仪表板应用,从而帮助我们快速地认识和理解数据。
连续性
离散性
智能化
可视化
可视化
4、下列说法错误的是()。
Tableau通过内存数据引擎,可以直接查询外部数据库同时动态的从数据仓库抽取实时数据,极大的提高了数据访问和查询效率
用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精