奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx

上传人:b****1 文档编号:1152366 上传时间:2022-10-18 格式:DOCX 页数:12 大小:17.37KB
下载 相关 举报
奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx_第1页
第1页 / 共12页
奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx_第2页
第2页 / 共12页
奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx_第3页
第3页 / 共12页
奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx_第4页
第4页 / 共12页
奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx

《奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx》由会员分享,可在线阅读,更多相关《奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx(12页珍藏版)》请在冰豆网上搜索。

奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案.docx

奥鹏远程南开大学本部20春学期《大数据开发技术二》在线作业参考答案

南开大学(奥鹏)网络教育

《大数据开发技术

(二)》在线作业

参考资料

20春学期(1709、1803、1809、1903、1909、2003)《大数据开发技术

(二)》在线作业

1.Spark中DataFrame的()方法是进行条件查询

【选项】:

Awhere

Bjoin

Climit

Dapply

【答案】:

A

2.Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。

【选项】:

A第一个

B所有

C前10个

D前100个

【答案】:

3.Scala元组的值是通过将单个的值包含在()中构成的

【选项】:

A小括号

B中括号

C大括号

D尖括号

【答案】:

A

4.当需要将一个普通的RDD转化为一个PairRDD时可以使用()函数来进行操作

【选项】:

Atransfer

Bchange

Cmap

Dbuild

【答案】:

C

5.以下哪个函数可以求两个RDD交集()

【选项】:

Aunion

Bsubstract

Cintersection

Dcartesian

【答案】:

6.以下哪个函数可以求两个RDD差集()

【选项】:

Aunion

Bsubstract

Cintersection

Dcartesian

【答案】:

B

7.spark-submit配置项中()表示executor使用的总核数

【选项】:

A--num-executorsNUM

B--executor-memoryMEM

C--total-executor-coresNUM

D--executor-couresNUM

【答案】:

C

8.GraphX中()方法可以释放顶点缓存

【选项】:

Acache

Bpresist

CunpersistVertices

Dedges.unpersist

【答案】:

9.以下哪个方法可以从外部存储中创建RDD()

【选项】:

Aparallelize

BmakeRDD

CtextFile

DloadFile

【答案】:

10.Scala可以使用()关键字实现单例模式

【选项】:

Aobject

Bstatic

Cprivate

Dpublic

【答案】:

A

11.以下哪个不是Scala的数据类型()

【选项】:

AInt

BShortInt

CLong

DAny

【答案】:

B

12.Mllib中metrics.precisionByThreshold表示()指标

【选项】:

A准确度

B召回率

CF值

DROC曲线

【答案】:

A

13.图的结构通常表示为:

G(V,E),其中,E是图G中()

【选项】:

A顶点

B顶点的集合

C边

D边的集合

【答案】:

14.请问RDD的()操作用于将相同键的数据聚合

【选项】:

Ajoin

Bzip

CcombineByKey

Dcollect

【答案】:

15.Mllib中metrics.recallByThreshold

表示()指标

【选项】:

A准确度

B召回率

CF值

DROC曲线

【答案】:

B

16.GraphX中EdgeRDD继承自()

【选项】:

AEdgeRDD

BRDD[Edge]

CVertexRDD[VD]

DRDD[(VertexId,VD)]

【答案】:

B

17.Dstream输出操作中()方法将DStream中的内容以文本的形式保存为文本文件

【选项】:

Aprint

BsaveAsTextFiles

CsaveAsObjectFiles

DsaveAsHadoopFiles

【答案】:

B

18.GraphX中()方法可以查询顶点信息

【选项】:

AnumVertices

BnumEdges

Cvertices

Dedges

【答案】:

19.Scala通过()来定义变量

【选项】:

Aval

Bval

Cdefine

Ddef

【答案】:

A

20.Mllib中线性会馆算法中的参数reParam表示()

【选项】:

A要运行的迭代次数

B梯度下降的步长

C是否给数据加干扰特征或者偏差特征

DLasso和ridge的正规化参数

【答案】:

21.Scala中()方法返回Map所有的value

【选项】:

Akey

Bkeys

Cvalue

Dvalues

【答案】:

D

22.Scala列表方法中返回所有元素,除了最后一个的方法是()

【选项】:

Adrop

Bhead

Cfilter

Dinit

【答案】:

D

23.SparkStreming中()函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStream

【选项】:

Aunion

Breduce

Cjoin

Dcogroup

【答案】:

B

24.PairRDD可以通过()获得仅包含键的RDD

【选项】:

Akey

Bkeys

Cvalue

Dvalues

【答案】:

B

25.Scala中()方法返回Map所有的key

【选项】:

Akey

Bkeys

Cvalue

Dvalues

【答案】:

B

26.以下哪个是Scala的数据类型()

【选项】:

AAny

BNULL

CNothing

DAnyRef

【答案】:

A.B.C.D

27.以下算法中属于分类算法的是()

【选项】:

AKNN算法

B逻辑回归

C随机森林

DKmeans

【答案】:

28.Spark的RDD持久化操作有()方式

【选项】:

Acache

Bpresist

Cstorage

Dlong

【答案】:

29.SparkStreaming的特点有()

【选项】:

A单极性

B可伸缩

C高吞吐量

D容错能力强

【答案】:

B.C.D

30.SparkStreaming能够和()无缝集成

【选项】:

AHadoop

BSparkSQL

CMllib

DGraphX

【答案】:

B.C.D

31.Scala系统支持()作为对象成员

【选项】:

A通用类

B内部类

C抽象类

D复合类

【答案】:

A.B.C.D

32.Scala中可以用()方法来连接两个或多个列表

【选项】:

A:

:

B#:

:

:

CList.:

:

:

()

DList.concat()

【答案】:

B.C.D

33.SparkDataFrame中()方法可以返回一个List

【选项】:

Acollect

Btake

CtakeAsList

DcollectAsList

【答案】:

34.SparkDataFrame中()方法可以返回一个Array对象

【选项】:

Acollect

Btake

CtakeAsList

DcollectAsList

【答案】:

35.Spark可以通过哪些外部存储创建RDD()

【选项】:

A文本文件

B目录

C压缩文件

D通配符匹配的文件

【答案】:

A.B.C.D

36.Spark只有键值对类型的RDD才能设置分区方式

【选项】:

T对

F错

【答案】:

A

37.Scala中列表是可变的

【选项】:

T对

F错

【答案】:

B

38.RDD的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。

【选项】:

T对

F错

【答案】:

B

39.Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗

【选项】:

T对

F错

【答案】:

B

40.Spark在同一个应用中不能同时使用SparkSQL和Mllib

【选项】:

T对

F错

【答案】:

B

41.val如同Java里面的非final变量,可以在它的声明周期中被多次赋值。

【选项】:

T对

F错

【答案】:

B

42.Scala配备了一种表现型的系统,它以静态的方式进行抽象,以安全和连贯的方式进行使用。

【选项】:

T对

F错

【答案】:

A

43.RDD的mapPartitions操作会导致Partitions数量的变化

【选项】:

T对

F错

【答案】:

B

44.RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。

【选项】:

T对

F错

【答案】:

A

45.RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除

【选项】:

T对

F错

【答案】:

A

46.MLlib中StandardScaler处理的对象是每一列,也就是每一维特征,将特征标准化为单位标准差或是0均值,或是0均值单位标准差。

【选项】:

T对

F错

【答案】:

A

47.RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD

【选项】:

T对

F错

【答案】:

A

48.用户可以在ApacheMesos上运行Spark

【选项】:

T对

F错

【答案】:

A

49.RDD中join操作根据键对两个RDD进行内连接,将两个RDD中键相同的数据的值相加。

【选项】:

T对

F错

【答案】:

B

50.PairRDD中groupByKey是对具有相同键的值进行分组

【选项】:

T对

F错

【答案】:

A

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 计算机软件及应用

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1