南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx

资源描述

南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx

《南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx（20页珍藏版）》请在冰豆网上搜索。

南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx

（单选题）3:

GraphX中（）是存放着Edg对象的RDD

RDD[Edge]

EdgeRDD

RDD[（VertexId,VD）]

VertexRDD

（单选题）4:

Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存

saveAsTextFiles

saveAsObjectFiles

saveAsHadoopFiles

（单选题）5:

Dstream窗口操作中（）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的Dstream

window

countByWindow

reduceByWindow

reduceByKeyAndWindow

（单选题）6:

spark-submit配置项中（）表示Driver程序使用的内存大小

--driver-memoryMEM

--executor-memoryMEM

--total-executor-coresNUM

--executor-couresNUM

（单选题）7:

PairRDD的（）方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。

join

union

substract

intersection

（单选题）8:

Scala使用（）关键字来继承一个类

extends

override

extend

overrides

（单选题）9:

GraphX中graph.edges可以得到（）

顶点视图

边视图

顶点与边的三元组整体视图

有向图

（单选题）10:

图结构中如果任意两个顶点之间都存在边，那么称之为（）

完全图

有向完全图

无向图

简单图

（单选题）11:

Spark中DataFrame的（）方法是进行分组查询

（单选题）12:

以下哪个函数可以求两个RDD差集（）

cartesian

（单选题）13:

（）是Spark的数据挖掘算法库

SparkCore

BlinkDB

GraphX

Mllib

（单选题）14:

Scala列表方法中将函数应用到列表的所有元素的方法是（）

filter

foreach

map

mkString

（单选题）15:

以下哪个函数可以对RDD进行排序（）

sortBy

distinct

（单选题）16:

GraphX中（）方法可以查询边信息

numVertices

numEdges

vertices

edges

（单选题）17:

Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是（）

（单选题）18:

Spark中DataFrame的（）方法是进行条件查询

where

limit

apply

（单选题）19:

下列Scala代码应输出（）：

vara=0;

varb=0

varsum=0;

for（a&

-1until3;

-1until3）{

sum+=a+b;

}

println（sum）;

（单选题）20:

Scala列表方法中返回所有元素，除了最后一个的方法是（）

drop

head

init

（单选题）21:

spark-submit配置项中（）表示启动的executor数量

--num-executorsNUM

（单选题）22:

图结构中如果任意两个顶点之间都存在有向边，那么称之为（）

（单选题）23:

在图结构中，每个元素都可以有（）前驱

至少一个

零个或多个

一个

零个

（单选题）24:

SparkStreming中（）函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象

flatMap

（单选题）25:

（）可以解决图计算问题

（多选题）26:

MLBase包括（）

MLI

SparkR

A,B

（多选题）27:

MapReudce不适合（）任务

大数据计算

迭代

交互式

离线分析

B,C

（多选题）28:

RDD是一个（）的数据结构

可读写

只读的

容错的

可进行并行操作的

B,C,D

（多选题）29:

Spark可以从（）分布式文件系统中读取数据

HDFS

Hbase

Hive

Tachyon

A,B,C,D

（多选题）30:

以下算法中属于监督学习算法的是（）

KNN算法

逻辑回归

随机森林

Kmeans

A,B,C

（多选题）31:

以下哪种方法可以让Spark不自定义分区也能对任何类型RDD简单重分区（）

resetpartition

repartiton

Partition

coalesce

B,D

（多选题）32:

Spark创建DataFrame对象方式有（）

结构化数据文件

外部数据库

RDD

Hive中的表

（多选题）33:

MLlib中用于线性回归算法的包主要有（）

LinearRegressionWithSGD

RidgeRegressionWithSGD

LassoWithSGD

LeftRegression

（多选题）34:

以下哪个方法可以从集合中创建RDD（）

parallelize

makeRDD

textFile

loadFile

（多选题）35:

Mllib实现了一些常见的机器学习算法和应用程序，包括（）

分类

聚类

降维

回归

（判断题）36:

默认情况下，Scala使用的是可变集合

对

错

（判断题）37:

RDD中的collect函数是一个行动操作，把RDD所有元素转换成数组并返回到Driver端，适用于大数据处理后的返回。

（判断题）38:

Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数

（判断题）39:

RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。

（判断题）40:

RDD中zip操作要求两个RDD的partition数量以及元素数量都相同

（判断题）41:

用户可以在ApacheMesos上运行Spark

（判断题）42:

Scala列表与数组非常相似，列表的所有元素可具有不同的类型。

（判断题）43:

Scala中创建一个方法时经常用void表示该方法无返回值

（判断题）44:

图（Graph）是一种复杂的非线性结构

（判断题）45:

Scala集合分为可变的和不可变的集合

（判断题）46:

用户可以在HadoopYARN上运行Spark

（判断题）47:

Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗

（判断题）48:

Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。

（判断题）49:

RDD是一个可读写的数据结构

（判断题）50:

RDD的sortBy排序默认是升序

展开阅读全文