南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx
《南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx(20页珍藏版)》请在冰豆网上搜索。
12
B
(单选题)3:
GraphX中()是存放着Edg对象的RDD
RDD[Edge]
EdgeRDD
RDD[(VertexId,VD)]
VertexRDD
(单选题)4:
Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
print
saveAsTextFiles
saveAsObjectFiles
saveAsHadoopFiles
D
(单选题)5:
Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream
window
countByWindow
reduceByWindow
reduceByKeyAndWindow
C
(单选题)6:
spark-submit配置项中()表示Driver程序使用的内存大小
--driver-memoryMEM
--executor-memoryMEM
--total-executor-coresNUM
--executor-couresNUM
(单选题)7:
PairRDD的()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。
join
union
substract
intersection
(单选题)8:
Scala使用()关键字来继承一个类
extends
override
extend
overrides
(单选题)9:
GraphX中graph.edges可以得到()
顶点视图
边视图
顶点与边的三元组整体视图
有向图
(单选题)10:
图结构中如果任意两个顶点之间都存在边,那么称之为()
完全图
有向完全图
无向图
简单图
(单选题)11:
Spark中DataFrame的()方法是进行分组查询
(单选题)12:
以下哪个函数可以求两个RDD差集()
cartesian
(单选题)13:
()是Spark的数据挖掘算法库
SparkCore
BlinkDB
GraphX
Mllib
(单选题)14:
Scala列表方法中将函数应用到列表的所有元素的方法是()
filter
foreach
map
mkString
(单选题)15:
以下哪个函数可以对RDD进行排序()
sortBy
distinct
(单选题)16:
GraphX中()方法可以查询边信息
numVertices
numEdges
vertices
edges
(单选题)17:
Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是()
(单选题)18:
Spark中DataFrame的()方法是进行条件查询
where
limit
apply
(单选题)19:
下列Scala代码应输出():
vara=0;
varb=0
varsum=0;
for(a&
-1until3;
b&
-1until3){
sum+=a+b;
}
println(sum);
36
35
(单选题)20:
Scala列表方法中返回所有元素,除了最后一个的方法是()
drop
head
init
(单选题)21:
spark-submit配置项中()表示启动的executor数量
--num-executorsNUM
(单选题)22:
图结构中如果任意两个顶点之间都存在有向边,那么称之为()
(单选题)23:
在图结构中,每个元素都可以有()前驱
至少一个
零个或多个
一个
零个
(单选题)24:
SparkStreming中()函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象
flatMap
(单选题)25:
()可以解决图计算问题
(多选题)26:
MLBase包括()
MLI
SparkR
A,B
(多选题)27:
MapReudce不适合()任务
大数据计算
迭代
交互式
离线分析
B,C
(多选题)28:
RDD是一个()的数据结构
可读写
只读的
容错的
可进行并行操作的
B,C,D
(多选题)29:
Spark可以从()分布式文件系统中读取数据
HDFS
Hbase
Hive
Tachyon
A,B,C,D
(多选题)30:
以下算法中属于监督学习算法的是()
KNN算法
逻辑回归
随机森林
Kmeans
A,B,C
(多选题)31:
以下哪种方法可以让Spark不自定义分区也能对任何类型RDD简单重分区()
resetpartition
repartiton
Partition
coalesce
B,D
(多选题)32:
Spark创建DataFrame对象方式有()
结构化数据文件
外部数据库
RDD
Hive中的表
(多选题)33:
MLlib中用于线性回归算法的包主要有()
LinearRegressionWithSGD
RidgeRegressionWithSGD
LassoWithSGD
LeftRegression
(多选题)34:
以下哪个方法可以从集合中创建RDD()
parallelize
makeRDD
textFile
loadFile
(多选题)35:
Mllib实现了一些常见的机器学习算法和应用程序,包括()
分类
聚类
降维
回归
(判断题)36:
默认情况下,Scala使用的是可变集合
对
错
F
(判断题)37:
RDD中的collect函数是一个行动操作,把RDD所有元素转换成数组并返回到Driver端,适用于大数据处理后的返回。
(判断题)38:
Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数
(判断题)39:
RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
T
(判断题)40:
RDD中zip操作要求两个RDD的partition数量以及元素数量都相同
(判断题)41:
用户可以在ApacheMesos上运行Spark
(判断题)42:
Scala列表与数组非常相似,列表的所有元素可具有不同的类型。
(判断题)43:
Scala中创建一个方法时经常用void表示该方法无返回值
(判断题)44:
图(Graph)是一种复杂的非线性结构
(判断题)45:
Scala集合分为可变的和不可变的集合
(判断题)46:
用户可以在HadoopYARN上运行Spark
(判断题)47:
Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗
(判断题)48:
Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。
(判断题)49:
RDD是一个可读写的数据结构
(判断题)50:
RDD的sortBy排序默认是升序