各大企业大数据技术面试题.docx-资源下载

各大企业大数据技术面试题.docx

1、各大企业大数据技术面试题各大企业大数据技术面试题 2021年各大企业大数据技术面试题 GrowingIO面试题 1、开窗函数,自连接 sql 2、spark的 shuffer 过程的理解 3、1000个 maptask 任务,同时在运行,reduce 所拉取的文件是如何找到相应的 map端 4、问 spark-on-yarn 的几种模式,cluster和 client 的区别?driver端起到了什么作用 5、spark-on-client 有那些组件?ApplicationManager 和 AppMaster起到了哪些作用 master和 worker在运行中起到了哪些作用?6、kafka

2、在消费者消费的数据格式有哪些?乐元素面试题介绍一下你贡献最大的一个项目,包括你做的部分,遇到的问题,怎么解决的对简历上的每一个技术点进行打分,高分的技术点画架构图手写 sql 实现 top10 用 shell 实现 top10 用 java多线程实现消费者和生产者模式项目中用到了哪些算子数据量,问的很细,每个阶段都问了表的结构,字段,怎么处理使用 58同城面试题 linux 使用过哪些版本 spark的任务提交每天多少用户量,数据量,每天处理多少出具,用什么存储,处理前数据多少,字段多少,处理后还剩多少?存到数据库有多少?集群规模?SparkStreaming拉取数据两种方式,多

3、久拉取一次,多少量 storm 组件,底层有了解过吗?用的什么算法实现的逻辑你们开发 storm 具体怎么用的,通过什么方式用的 kafka有了解过吗为什么他的吞吐量大,速度快 flume用过吗,怎么搭建的(source,channel,sink 多级怎么实现的)sqoop 怎么用的,项目中在 mysql 一次导出多少表的数据,怎么导的,怎么实现自动增量导入的 hive用什么实现的分区项目中的数据倾斜怎么解决的 mysql 用的那种索引 redis 的数据在底层怎么存储的有了解吗 scala的高阶函数 java的 gc回收机制以及 jvm elk 有了解吗 linux 查看进程的命令,以及

4、怎么操作文本乐为金融面试题 HashMap底层实现锁机制（凉凉）scala闭包隐式转换柯力化偏函数（凉凉）rdd分区 rdd弹性分布式表现在哪 hive udf shell 命令如何查看任务内存端口 partition by distribute by 区别（凉凉）sort by order by 区别 hql top3(row_number)flume拉取数据到 kafka 中你们是用了几个 topic flume 多数据源是到一个 topic？hive hbase区别 hbase hive 查询速度区别（二级索引机制好，hive查询底层还是 mr高延迟）数据仓库几层里面

5、都是啥项目问了第一个第二个第四个（都是再聊架构从前到后咋做的）首汽约车面试总结 session 分析项目,任务怎么提交,返回的结果集是什么,既然任务是用户自己指定参数来确定的,那么 jar包怎么提交的,是自动提交吗 spark通过 ack 读取 kafka消息,设置参数有三个,1,-1,0当发送消息返回-1 时,是报错还是什么 spark优化和 hive优化联通面试题如果频繁的拉取的话就会产生大量小文件,遇到小文件怎么解决项目用啥开发的 flume使用的时候是二次开发还是原有的配置那拉取文件的时候用了多少 rdd repartion 怎么自定义分区,和 groupbykey的

6、区别搭建集群规模遇到什么问题日活跃用户是多少 java开发的话遇到过 nio,fio 什么是宽依赖,什么是窄依赖 spark遇到的问题,怎么解决,包括对 spark的优化 58面试题数据量大的情况下 sql 的优化 spark默认的 join 算子是什么类型的 join hive中几种 join 的区别,主要问 inner join 和 left semi join 的区别广播变量和累加器到的使用场景广播变量在你项目中哪个算子中调用了广播变量到 executor 端,这些值可以改变吗累加器累加结果为什么不能显示在 executor 端 hive优化和数据倾斜项目实时离线,流程

7、,数据格式变化项目中数据库是怎么优化的数据仓库的搭建,维度表在哪里关联的,主题层还是集市层怎么和数据库对接数据的,如果 sql 执行失败,怎么解决 reducebykey groupbykey combinebykey的区别宽依赖现场画图识别实时处理数据,每个批次计算时间 foreach 和 foreachoartition 的区别 foreach 和 foreachpartition 的区别 foreach 里面是 list 还是迭代器 list 和迭代器的区别,哪个是一次性将数据获取到,哪个是流式处理数据的迭代器是流式处理的话,还会发生 oom 吗,foreach 没有返回值,

8、还会内存溢出吗每天的数据量和活跃用户,mysql 怎么优化的小组多少人,每个人的工作项目架构金山面试题他们做离线的，主要用 spark多，spark2.X 1.自我介绍一下吧 2.介绍一下你们公司的技术框架 3.在 flume拉取日志时，混杂着今天和昨天的数据，你们是怎么解决的。4.hive调优方面有没有了解 5.hive按什么粒度划分的 6.像离线数据你们怎么处理(比如是隔一段时间处理一次还是一天一处理)他们基本上是每 5 分钟处理一次，数据量比较大，峰值时每 5分钟数据量大概 4-50G 7.spark的优化，spark 对 JVM 方面的调优 8.mr的 Shuffle 9.s

9、park的 Shuffle了解吗 10.你们 spark是跑在 yarn上是吧，是那种模式，client 还是 cluster？11.yarn client 和 cluster 的区别 12.为什么用 client 或者 cluster 13.yarn你们用的哪种调度模式(先进先出 FIFO/公平/计算能力)14.spark中假如有某几个节点运行速度特别慢，你们是怎么处理的？(不是想听数据倾斜，yarn有一个 node lable,yarn 的标签策略)15.你们 hadoop、spark 用的什么版本，spark2.x 有个黑名单机制 16.spark你们 Executor 和 core数量

10、怎么选择的 17.JVM了解吗，GC 回收的是哪个内存 18.flume你们怎么配置的，flume本身对 cpu 的消耗并不大，你们合理分配的。(他就是想问 flume是单独配置的还是和 yarn/或者其他节点上搭配配置的，如果单独配置yarn)19.对 hive和 spark底层源码有没有了解 20.对 hive、spark的优化还有没有更深层次的了解 20.多大数据量，集群数量(他们节点有上千个)21.求同一个域名下 ip点击量的 topN(用 row_number)22.hive除了从 hdfs 加载数据，你们还有没有其他的来源 23.hive和 hbase对接 24.hbase你们怎么

11、查询一般 25.coalesce和 reparation 26.hive数据存储上的优化(我说我们一般存储是 ORC)，接着问 ORC 的底层怎么存储 27.除了 hive、spark还对那个框架比较熟悉，了解一下 28.对于小文件的处理办法(hive和 spark都问)壹账通面试 scala语法 spark ssh免密不用浏览器怎么拿到 web ui 的内容(类似于 scp 的命令)kafka配置 flume logstash structed streaming 蚂蚁金服-数据技术专家-国际事业群-国际技术刚刚一个候选人电话面试了，问了一堆 JVM的问题，内存泄漏，spring实现方式

12、，数据库索引实现方式，1.主要的项目经历，以及项目中的指责，主要负责哪些工作，应对哪些场景，问的非常非常细。项目经历及项目使用的技术问的很细致。2.数据仓库的设计过程，解释一下第三范式，星型模型。3.hive的数据不均衡是怎么处理的。4.JAVA线程的实现方式。5.JAVA的 set 与 list 区别。6.JAVA中的 int 与 Integer的区别 1、主要问了项目结构我们的业务实现目的 2、采集数据的来源 3、主要负责项目的哪些内容问的特别细 4、vm 调优 5、hbase的 rowkey设计 6、spark的内存管理、源码分析 7、flume的采集处理分别有什么不同 1、logt

13、ash的工作流程，如何恢复 2、HDFS HA 需要 secondary namenode吗，灾难恢复流程 3、介绍 java常用的集合类 4、Arraylist 扩容比例 5、sqoop 的原理 6、如何设计读写锁，读操作加不加锁，写操作发生如何检测，写操作结束如何通知读操作？7、RDD 宽依赖和窄依赖，join？reducebykey，aggreatebyKey 8、SpringMVC 处理请求流程数据开发职位 1、java三种单例，优缺点 2、wordcount 的实现过程 3、mr与 spark的区别 4、spark在 client 与在集群运行的区别 5、相同的 sql 在 hiv

14、esql 与 sparksql的实现中，为什么 spark比 hadoop 快 6、udf 7、设计 hbase表需要注意的点 8、hbase的 hlog 9、数据同样存在 hdfs,为什么 hbase支持在线查询 10、项目的架构 11、数据从 hive中用 sparksql进行操作有遇到什么问题？类似兼容性的问题。12、sparkstream 与 strom,flink 与什么区别 13、有三个 map,一个 reduce来做 top10.哪种方法最优。数据量特别大。14、mapreduce的原理微车面试 1、自我介绍 2、yarn调度过程？3、yarn中调度原则？并不是 hadoop

15、的调度原则 FIFO 计算能力调度公平调度而是移动计算而不移动数据 4、hive数据倾斜？5、hadoop的优化？6、spark中 RDD和 dataframe？7、spark中的 dataset？8、spark中算子 groupbykey和 reducebykey的区别？9、3 个 SQL table student name course score aa English 75 bb math 85 aa math 90 第一个：求各科成绩都大于 80的名单 select name from student group by name having min(score)=80;第二个：

16、开窗函数求每科成绩的前三第三个：行转列使用 sql 输出以下结果 name English math aa 75 90 bb 0 85 create table if not exists result as select name,sum(case course when English then score else 0 end)as English,sum(case course when math then score else 0 end)as math from student group by name;10、数据仓库建模的过程？就是几层 11、为什么数据仓库要分层？12、

17、数据仓库项目的架构？13、kafka的作用以及架构？14、kafka高并发性能好还是高吞吐量性能好？我说的是高吞吐量 15、spark算子中分为 transformation 和 action，为什么要这么设计？16、sparkstreamming操作的是 RDD还是 dataframe？Dstream 就是一系列的RDD，可以使用 transform 和 foreachRDD，顺便说了一下两者的区别 17、写 SQL时，对 distribute by 和 partition by的使用产生了疑问？我就说了一下两者的区别字节跳动-面试总结：1.先是自我介绍。2.简单介绍了一下最近做的项目。问

18、了些具体指标的实现。3.介绍项目中数据的流向？画了整体的架构，多又问了 flume的架构以及各组件的介绍 4.我的一个项目是我们的 spark的 session 分析项目，就问了你们是怎么通过前台提交的数据来生成指定的任务的，怎么就知道它要分析的指标。5.spark-core和 sparkStreaming的区别？4.说说对 kafka分区的理解？5.介绍 kafka分区的时候我提到了 spark并行度，所以就问了我并行度相关的东西。数据量，集群规模，内存配置，总的集群内存，然后问了最高可以并行多少个任务，峰值的数据量，实时处理的时间间隔，还问你们为什么要使用 sparkStreaming,它

19、不是批处理的吗，实时性能满足你们场景吗？这一节问的特详细，他还仔细算了算 6.spark优化(问题没有这么直接，忘了具体怎么问的了)7.手写 sql。有一张表(表里有三个字段，分别是 uid，date，vid(vid 这个列里面有多个值，用,分隔的)，还有一张表(表里有两个个字段，分别是 vid,clicks)然后需求是统计每天点击次数(clicks)前三的 vid。(这个题记不清楚了，实际是有两张表，需要先行转列，然后两表关联，分组聚合，排序，取 topn)。8.手写代码。要求：给定一个字符串，找出字符串中对称的且长度最长的子串并输出。比如abcdkfdsdfkcckfd中,dfkc和ckf

20、d对称，kfds和sdfk对称。9.手写代码。要求：给定几个字符串，比如Program FilesCommon FilesLenovoLPU,Program FilesCommon Filesausaaaaooo,Program FilesUWQUQUmmm,Program FilesUWQUQUqiqiqiProgram FilesUWQUQUsdsdsd。然后将字符串输出为多叉树的结构(可以直接理解为目录树)。10.了解 hashMap吗？说说 hashMap的结构？hash 冲突的时候怎么解决,我说了hash 冲突的时候 hashMap 会把相同 hash 值的元素放在同一条链上，然后又

21、问我当某一条链已经非常长的时候还是 hash 冲突怎么解决？面试官给的答案是二次哈希，他解释了一下我没听明白。小年糕面试题先写一张笔试卷，半个小时。试卷已经发到群里了。人事说重点是 sql 那一题。面试的时候先聊试卷。重点是看思路，结果不重要。问到的问题：1.离职原因。2.数据量一天多少，压缩后的数据量有多少？3.数据仓库分了几层，分别是什么层？4.ods 层有几张表，每张表里有多少个字段？5.DM层有多少张表，是依据什么来分的(建表)？5.flume的框架是怎么搭建的(画图)？6.使用 kafka的时候遇到了什么问题？7.flume对接到 kafka中的时候，offset 是怎么维护的(强

22、调不是 spark 消费时候偏移量的维护)？8.对自己的面试评分？软通动力(外派 XX)1.首先自我介绍，问离职原因，岗位职责以及项目中负责的部分。又问了一下数据规模。2.手写 spark wordCount。3.手写字符串 hashcode 排序算法。4.手写 sql。有两张表，一张学生成绩表(里面有 uid，subject，score 字段)，一张是学生信息表(里面有 uid，uName字段)，要求：a.按照总成绩排名，输出格式为 uName+总分；b.所有科目中单科成绩前三的 uName+subject+score。5.了解哪些数据结构？知道 set 和 map吗？有没有用过 hashM

23、ap？说一说 hashMap的原理？6.数组和链表的区别？7.第二个人开始问项目，数据仓库部分，我说是用 hive做的，问到 hive的计算引擎是什么，既然 hive是使用 mapreduce作为计算引擎的，说一下 mapreduce的数据从获取到输出的整个过程。8.spark项目中实时处理部分的动态黑名单机制？9.spark项目中遇到的问题？10.还用过哪些 hadoop 组件？我说了 hbase，然后问了我的 rowkey设计。猿辅导项目到是没问什么问题，他问我对 json 串解析用的 udf是是用什么写的，我说是用 java写的，然后他就问了一些 java的问题。1.string st

24、r1=abcdef string str2=abcdef 怎么去掉的这个符号 2.string str1=543;string str2=123 写一个方法对这两个字符串进行相减输出 return str1-str2;3.string str1=abcdefg string str2=mndfgadfg 首先取出 str2和 str1 相匹配的字段，（可以是不连续的）然后按最大的长度将字符串输出软通动力(外派 XX)1.首先自我介绍，问离职原因，岗位职责以及项目中负责的部分。又问了一下数据规模。2.手写 spark wordCount。3.手写字符串 hashcode 排序算法。4.手写 s

25、ql。有两张表，一张学生成绩表(里面有 uid，subject，score 字段)，一张是学生信息表(里面有 uid，uName字段)，要求：a.按照总成绩排名，输出格式为 uName+总分；b.所有科目中单科成绩前三的 uName+subject+score。5.了解哪些数据结构？知道 set 和 map吗？有没有用过 hashMap？说一说 hashMap的原理？6.数组和链表的区别？7.第二个人开始问项目，数据仓库部分，我说是用 hive做的，问到 hive的计算引擎是什么，既然 hive是使用 mapreduce作为计算引擎的，说一下 mapreduce的数据从获取到输出的整个过程。8

26、.spark项目中实时处理部分的动态黑名单机制？9.spark项目中遇到的问题？10.还用过哪些 hadoop 组件？我说了 hbase，然后问了我的 rowkey设计。小年糕面试题先写一张笔试卷，半个小时。试卷已经发到群里了。人事说重点是 sql 那一题。面试的时候先聊试卷。重点是看思路，结果不重要。问到的问题：1.离职原因。2.数据量一天多少，压缩后的数据量有多少？3.数据仓库分了几层，分别是什么层？4.ods 层有几张表，每张表里有多少个字段？5.DM层有多少张表，是依据什么来分的(建表)？5.flume的框架是怎么搭建的(画图)？6.使用 kafka的时候遇到了什么问题？7.flum

27、e对接到 kafka中的时候，offset 是怎么维护的(强调不是 spark 消费时候偏移量的维护)？8.对自己的面试评分？字节跳动-面试总结：1.先是自我介绍。2.简单介绍了一下最近做的项目。问了些具体指标的实现。3.介绍项目中数据的流向？画了整体的架构，多又问了 flume的架构以及各组件的介绍 4.我的一个项目是我们的 spark的 session 分析项目，就问了你们是怎么通过前台提交的数据来生成指定的任务的，怎么就知道它要分析的指标。5.spark-core和 sparkStreaming的区别？4.说说对 kafka分区的理解？5.介绍 kafka分区的时候我提到了 spark并

28、行度，所以就问了我并行度相关的东西。数据量，集群规模，内存配置，总的集群内存，然后问了最高可以并行多少个任务，峰值的数据量，实时处理的时间间隔，还问你们为什么要使用 sparkStreaming,它不是批处理的吗，实时性能满足你们场景吗？这一节问的特详细，他还仔细算了算 6.spark优化(问题没有这么直接，忘了具体怎么问的了)7.手写 sql。有一张表(表里有三个字段，分别是 uid，date，vid(vid 这个列里面有多个值，用,分隔的)，还有一张表(表里有两个个字段，分别是 vid,clicks)然后需求是统计每天点击次数(clicks)前三的 vid。(这个题记不清楚了，实际是有两张

29、表，需要先行转列，然后两表关联，分组聚合，排序，取 topn)。8.手写代码。要求：给定一个字符串，找出字符串中对称的且长度最长的子串并输出。比如abcdkfdsdfkcckfd中,dfkc和ckfd对称，kfds和sdfk对称。9.手写代码。要求：给定几个字符串，比如Program FilesCommon FilesLenovoLPU,Program FilesCommon Filesausaaaaooo,Program FilesUWQUQUmmm,Program FilesUWQUQUqiqiqiProgram FilesUWQUQUsdsdsd。然后将字符串输出为多叉树的结构(可以直接

30、理解为目录树)。10.了解 hashMap吗？说说 hashMap的结构？hash 冲突的时候怎么解决,我说了hash 冲突的时候 hashMap 会把相同 hash 值的元素放在同一条链上，然后又问我当某一条链已经非常长的时候还是 hash 冲突怎么解决？面试官给的答案是二次哈希，他解释了一下我没听明白。艾曼数据面试题自我介绍项目介绍（spark）spark内存模型手写 Wordcount（reducebykey和 groupbykey两种方式）checkpoint 和 persist（only disk）的区别 cache是怎么使用的 hive分区分桶的意义 map join 和 r

31、educe join 的应用场景 order by 和 sort by 的区别开窗函数的使用（分组求 topN）不用开窗函数分组求 topN(三种方法)hive内部表和外部表的区别 hive动态分区项目中写入数据库是怎么实现的（具体步骤）mappartition 和 foreachpartition 的区别 spark和 hadoop 的推测执行项目中任务是怎么提交的，指定了哪些参数集群规模（每个节点的内存，分配任务多少内存，CPU 核数）aggregate和 aggregatebykey reduce和 reducebykey yarn 的两种提交模式（spark）数据仓库的分层（结

32、合项目）手写 SQL，要求如下：（order表）order_id order_type order_time 111 N 10:00 111 A 10:05 111 B 10:10 得到如下结果：order_id order_type_1 order_type_2 order_time_1 order_time_2 111 N A 10:00 10:05 111 A B 10:05 10:10 SQL语句如下：第一步：create table if not exists order_index(order_id string,order_type string,order_time bigin

33、t,index int)row format delimited fields terminated by t;第二步：insert overwrite table order_index select order_id,order_type,order_time,index from(select order_id,order_type,order_time,row_number over(distribute by order_id,order_type sort by order_time)as index from order)temp;第三步：create table if not exists result(order_id string,order_type_1 string,order_type_2 string,order_time_1 bigint,order_time

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？