南开大学20秋学期《大数据开发技术二》在线作业参考答案Word文档格式.docx
《南开大学20秋学期《大数据开发技术二》在线作业参考答案Word文档格式.docx》由会员分享,可在线阅读,更多相关《南开大学20秋学期《大数据开发技术二》在线作业参考答案Word文档格式.docx(9页珍藏版)》请在冰豆网上搜索。
C.saveAsObjectFiles
D.saveAsHadoopFiles
D
4.()是Spark的核心,提供底层框架及核心支持。
A.SparkCore
B.SparkSQL
C.SparkStreaming
5.Spark中的每个RDD一般情况下是由()个分区组成的。
A.0
B.1
C.多
D.无数
C
6.RDD的()操作通常用来划分单词。
A.filter
B.union
C.flatmap
D.mapPartitions
7.图结构中如果任意两个顶点之间都存在边,那么称之为()。
A.完全图
B.有向完全图
C.无向图
D.简单图
8.SparkGraphX中类Graph的aggregateMessages方法可以()。
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中
9.Spark中DataFrame的()方法是进行连接查询。
A.where
B.join
C.limit
D.apply
10.以下哪个不是Scala的数据类型?
()
A.AnyRef
B.Anything
C.NULL
D.Nothing
11.GraphX中()方法可以释放边缓存。
A.cache
B.presist
C.unpersistVertices
D.edges.unpersist
12.()是Spark的数据挖掘算法库。
13.在图结构中,每个元素都可以有()后继。
A.至少一个
B.零个或多个
C.一个
D.零个
14.以下哪个方法可以从外部存储中创建RDD?
A.parallelize
B.makeRDD
C.textFile
D.loadFile
15.Graph类中如果要根据分开存放的顶点数据和边数据创建图,应该用()方法。
A.Graph(vertices,edges,defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]],defaultValue)
C.Graph.fromEdgeTuples(rawEdges:
RDD[(VertexId,VertexId)],defaultValue)
D.GraphLoader.edgeListFile(sc,filename)
16.SparkGraphX中类Graph的joinVertices方法可以()。
17.Scala列表方法中返回所有元素,除了最后一个的方法是()。
A.drop
B.head
C.filter
D.init
18.以下哪个函数可以对RDD进行排序?
A.sortBy
B.filter
C.distinct
D.intersection
19.递归函数意味着函数可以调用它()。
A.其他函数
B.主函数
C.子函数
D.自身
20.SparkStreming中()函数可以通过对源DStream的每RDD应用RDD-to-RDD函数返回一个新的DStream,这可以用来在DStream做任意RDD操作。
A.trans
B.reduce
C.join
D.cogroup
21.如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是()。
A.[0,numPartitions]
B.[0,numPartitions-1]
C.[1,numPartitions-1]
D.[1,numPartitions]
22.图结构中如果任意两个顶点之间都存在有向边,那么称之为()。
23.GraphX中VertexRDD[VD]继承自()。
A.EdgeRDD
B.RDD[Edge]
C.VertexRDD[VD]
D.RDD[(VertexId,VD)]
24.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()。
B.foreach
C.map
D.mkString
25.图结构中如果无重复的边或者顶点到自身的边,那么称之为()。
26.以下哪个方法可以从集合中创建RDD?
AB
27.Scala支持()。
A.匿名函数
B.高阶函数
C.函数嵌套
D.柯里化
ABCD
28.MapReudce不适合()任务。
A.大数据计算
B.迭代
C.交互式
D.离线分析
BC
29.SparkDataFrame中()方法可以获取若干行数据。
A.first
C.take
D.collect
ABCD&
nbsp;
&
30.MLBase包括()
A.Mllib
B.MLI
C.SparkR
D.GraphX
31.Spark中的RDD的说法正确的是()。
A.弹性分布式数据集
B.是Spark中最基本的数据抽象
C.代表一个可变的集合
D.代表的集合里面的元素可并行计算
ABD
32.SparkStreaming能够处理来自()的数据。
A.Kafka
B.Flume
C.Twitter
D.ZeroMQ
33.SparkDataFrame中()方法可以获取所有数据。
A.collect
B.take
C.takeAsList
D.collectAsList
AD
34.Scala中使用()方法来连接两个集合。
A.append
B.++
C.concat
D.Set.++()
BD
35.SparkStreaming支持实时流式数据,包括()。
A.Web服务器日志文件
B.社交网络数据
C.实时交易数据
D.类似Kafka的信息数据
36.SparkStreming中DStream代表着一系列的持续的RDDs。
A.正确
B.错误
37.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。
38.MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。
39.MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
40.RDD的filter过滤会将返回值为true的过滤掉。
41.用户可以在HadoopYARN上运行Spark。
42.Scala中创建一个方法时经常用void表示该方法无返回值
43.ScalaSet(集合)是没有重复的对象集合,所有的元素都是唯一的。
44.PairRDD中reduceByKey的功能是合并具有相同键的值,作用域是KeyValue类型的键值对,并且是只对每个Key的Value进行处理。
45.RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。
46.RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。
47.SparkStreaming中时间片也可称为批处理时间间隔(batchinterval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。
48.Spark在同一个应用中不能同时使用SparkSQL和Mllib。
49.Scala中允许集成多个父类。
50.Dstream提供了sort方法。