1、 12 B(单选题)3: GraphX中()是存放着Edg对象的RDD RDDEdge EdgeRDD RDD(VertexId,VD) VertexRDD(单选题)4: Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存 print saveAsTextFiles saveAsObjectFiles saveAsHadoopFiles D(单选题)5: Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream window countByWindow reduceByWindow
2、reduceByKeyAndWindow C(单选题)6: spark-submit配置项中()表示Driver程序使用的内存大小 -driver-memory MEM -executor-memory MEM -total-executor-cores NUM -executor-coures NUM(单选题)7: PairRDD的()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。 join union substract intersection(单选题)8: Scala 使用 () 关键字来继承一个类 extends override extend overrides
3、(单选题)9: GraphX中graph.edges可以得到() 顶点视图 边视图 顶点与边的三元组整体视图 有向图(单选题)10: 图结构中如果任意两个顶点之间都存在边,那么称之为() 完全图 有向完全图 无向图 简单图(单选题)11: Spark中DataFrame的()方法是进行分组查询(单选题)12: 以下哪个函数可以求两个RDD差集 () cartesian(单选题)13: ()是Spark的数据挖掘算法库 Spark Core BlinkDB GraphX Mllib(单选题)14: Scala列表方法中将函数应用到列表的所有元素的方法是() filter foreach map
4、mkString(单选题)15: 以下哪个函数可以对RDD进行排序() sortBy distinct(单选题)16: GraphX中()方法可以查询边信息 numVertices numEdges vertices edges(单选题)17: Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是()(单选题)18: Spark中DataFrame的()方法是进行条件查询 where limit apply(单选题)19: 下列Scala代码应输出():var a=0; var b=0 var sum=0; for(a&-1 until 3; b&-1 until 3) sum+
5、=a+b; println(sum); 36 35(单选题)20: Scala列表方法中返回所有元素,除了最后一个的方法是() drop head init(单选题)21: spark-submit配置项中()表示启动的executor数量 -num-executors NUM(单选题)22: 图结构中如果任意两个顶点之间都存在有向边,那么称之为()(单选题)23: 在图结构中,每个元素都可以有()前驱 至少一个 零个或多个 一个 零个(单选题)24: Spark Streming中()函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象 flatMa
6、p(单选题)25: ()可以解决图计算问题(多选题)26: MLBase包括() MLI SparkR A,B(多选题)27: MapReudce不适合()任务 大数据计算 迭代 交互式 离线分析 B,C(多选题)28: RDD是一个()的数据结构 可读写 只读的 容错的 可进行并行操作的 B,C,D(多选题)29: Spark可以从()分布式文件系统中读取数据 HDFS Hbase Hive Tachyon A,B,C,D(多选题)30: 以下算法中属于监督学习算法的是() KNN算法 逻辑回归 随机森林 Kmeans A,B,C(多选题)31: 以下哪种方法可以让Spark不自定义分区也能
7、对任何类型RDD 简单重分区() resetpartition repartiton Partition coalesce B,D(多选题)32: Spark创建DataFrame对象方式有() 结构化数据文件 外部数据库 RDD Hive中的表(多选题)33: MLlib中用于线性回归算法的包主要有() LinearRegressionWithSGD RidgeRegressionWithSGD LassoWithSGD LeftRegression(多选题)34: 以下哪个方法可以从集合中创建RDD() parallelize makeRDD textFile loadFile(多选题)3
8、5: Mllib实现了一些常见的机器学习算法和应用程序,包括() 分类 聚类 降维 回归(判断题)36: 默认情况下,Scala 使用的是可变集合 对 错 F(判断题)37: RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。(判断题)38: Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数(判断题)39: RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。 T(判断
9、题)40: RDD中zip操作要求两个RDD的partition数量以及元素数量都相同(判断题)41: 用户可以在Apache Mesos上运行Spark(判断题)42: Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。(判断题)43: Scala中创建一个方法时经常用void表示该方法无返回值(判断题)44: 图(Graph)是一种复杂的非线性结构(判断题)45: Scala 集合分为可变的和不可变的集合(判断题)46: 用户可以在Hadoop YARN上运行Spark(判断题)47: Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗(判断题)48: Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。(判断题)49: RDD是一个可读写的数据结构(判断题)50: RDD的sortBy排序默认是升序
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1