南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx-资源下载

南开20秋学期《大数据开发技术二》在线作业答案039Word格式文档下载.docx

1、 12 B（单选题）3: GraphX中（）是存放着Edg对象的RDD RDDEdge EdgeRDD RDD（VertexId,VD） VertexRDD（单选题）4: Dstream输出操作中（）方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存 print saveAsTextFiles saveAsObjectFiles saveAsHadoopFiles D（单选题）5: Dstream窗口操作中（）方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的Dstream window countByWindow reduceByWindow

2、reduceByKeyAndWindow C（单选题）6: spark-submit配置项中（）表示Driver程序使用的内存大小 -driver-memory MEM -executor-memory MEM -total-executor-cores NUM -executor-coures NUM（单选题）7: PairRDD的（）方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。 join union substract intersection（单选题）8: Scala 使用（）关键字来继承一个类 extends override extend overrides

3、（单选题）9: GraphX中graph.edges可以得到（）顶点视图边视图顶点与边的三元组整体视图有向图（单选题）10: 图结构中如果任意两个顶点之间都存在边，那么称之为（）完全图有向完全图无向图简单图（单选题）11: Spark中DataFrame的（）方法是进行分组查询（单选题）12: 以下哪个函数可以求两个RDD差集（） cartesian（单选题）13: （）是Spark的数据挖掘算法库 Spark Core BlinkDB GraphX Mllib（单选题）14: Scala列表方法中将函数应用到列表的所有元素的方法是（） filter foreach map

4、mkString（单选题）15: 以下哪个函数可以对RDD进行排序（） sortBy distinct（单选题）16: GraphX中（）方法可以查询边信息 numVertices numEdges vertices edges（单选题）17: Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是（）（单选题）18: Spark中DataFrame的（）方法是进行条件查询 where limit apply（单选题）19: 下列Scala代码应输出（）：var a=0; var b=0 var sum=0; for（a&-1 until 3; b&-1 until 3） sum+

5、=a+b; println（sum）; 36 35（单选题）20: Scala列表方法中返回所有元素，除了最后一个的方法是（） drop head init（单选题）21: spark-submit配置项中（）表示启动的executor数量 -num-executors NUM（单选题）22: 图结构中如果任意两个顶点之间都存在有向边，那么称之为（）（单选题）23: 在图结构中，每个元素都可以有（）前驱至少一个零个或多个一个零个（单选题）24: Spark Streming中（）函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象 flatMa

6、p（单选题）25: （）可以解决图计算问题（多选题）26: MLBase包括（） MLI SparkR A,B（多选题）27: MapReudce不适合（）任务大数据计算迭代交互式离线分析 B,C（多选题）28: RDD是一个（）的数据结构可读写只读的容错的可进行并行操作的 B,C,D（多选题）29: Spark可以从（）分布式文件系统中读取数据 HDFS Hbase Hive Tachyon A,B,C,D（多选题）30: 以下算法中属于监督学习算法的是（） KNN算法逻辑回归随机森林 Kmeans A,B,C（多选题）31: 以下哪种方法可以让Spark不自定义分区也能

7、对任何类型RDD 简单重分区（） resetpartition repartiton Partition coalesce B,D（多选题）32: Spark创建DataFrame对象方式有（）结构化数据文件外部数据库 RDD Hive中的表（多选题）33: MLlib中用于线性回归算法的包主要有（） LinearRegressionWithSGD RidgeRegressionWithSGD LassoWithSGD LeftRegression（多选题）34: 以下哪个方法可以从集合中创建RDD（） parallelize makeRDD textFile loadFile（多选题）3

8、5: Mllib实现了一些常见的机器学习算法和应用程序，包括（）分类聚类降维回归（判断题）36: 默认情况下，Scala 使用的是可变集合对错 F（判断题）37: RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。（判断题）38: Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数（判断题）39: RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。 T（判断

9、题）40: RDD中zip操作要求两个RDD的partition数量以及元素数量都相同（判断题）41: 用户可以在Apache Mesos上运行Spark（判断题）42: Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。（判断题）43: Scala中创建一个方法时经常用void表示该方法无返回值（判断题）44: 图（Graph）是一种复杂的非线性结构（判断题）45: Scala 集合分为可变的和不可变的集合（判断题）46: 用户可以在Hadoop YARN上运行Spark（判断题）47: Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗（判断题）48: Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。（判断题）49: RDD是一个可读写的数据结构（判断题）50: RDD的sortBy排序默认是升序

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？