各大企业大数据技术面试题.docx

资源描述

各大企业大数据技术面试题.docx

《各大企业大数据技术面试题.docx》由会员分享，可在线阅读，更多相关《各大企业大数据技术面试题.docx（18页珍藏版）》请在冰豆网上搜索。

各大企业大数据技术面试题.docx

各大企业大数据技术面试题各大企业大数据技术面试题2021年各大企业大数据技术面试题GrowingIO面试题1、开窗函数,自连接sql2、spark的shuffer过程的理解3、1000个maptask任务,同时在运行,reduce所拉取的文件是如何找到相应的map端4、问spark-on-yarn的几种模式,cluster和client的区别?

driver端起到了什么作用5、spark-on-client有那些组件?

ApplicationManager和AppMaster起到了哪些作用master和worker在运行中起到了哪些作用?

6、kafka在消费者消费的数据格式有哪些?

乐元素面试题介绍一下你贡献最大的一个项目,包括你做的部分,遇到的问题,怎么解决的对简历上的每一个技术点进行打分,高分的技术点画架构图手写sql实现top10用shell实现top10用java多线程实现消费者和生产者模式项目中用到了哪些算子数据量,问的很细,每个阶段都问了表的结构,字段,怎么处理使用58同城面试题linux使用过哪些版本spark的任务提交每天多少用户量,数据量,每天处理多少出具,用什么存储,处理前数据多少,字段多少,处理后还剩多少?

存到数据库有多少?

集群规模?

SparkStreaming拉取数据两种方式,多久拉取一次,多少量storm组件,底层有了解过吗?

用的什么算法实现的逻辑你们开发storm具体怎么用的,通过什么方式用的kafka有了解过吗为什么他的吞吐量大,速度快flume用过吗,怎么搭建的（source,channel,sink多级怎么实现的）sqoop怎么用的,项目中在mysql一次导出多少表的数据,怎么导的,怎么实现自动增量导入的hive用什么实现的分区项目中的数据倾斜怎么解决的mysql用的那种索引redis的数据在底层怎么存储的有了解吗scala的高阶函数java的gc回收机制以及jvmelk有了解吗linux查看进程的命令,以及怎么操作文本乐为金融面试题HashMap底层实现锁机制（凉凉）scala闭包隐式转换柯力化偏函数（凉凉）rdd分区rdd弹性分布式表现在哪hiveudfshell命令如何查看任务内存端口partitionbydistributeby区别（凉凉）sortbyorderby区别hqltop3（row_number）flume拉取数据到kafka中你们是用了几个topicflume多数据源是到一个topic？

hivehbase区别hbasehive查询速度区别（二级索引机制好，hive查询底层还是mr高延迟）数据仓库几层里面都是啥项目问了第一个第二个第四个（都是再聊架构从前到后咋做的）首汽约车面试总结session分析项目,任务怎么提交,返回的结果集是什么,既然任务是用户自己指定参数来确定的,那么jar包怎么提交的,是自动提交吗spark通过ack读取kafka消息,设置参数有三个,1,-1,0当发送消息返回-1时,是报错还是什么spark优化和hive优化联通面试题如果频繁的拉取的话就会产生大量小文件,遇到小文件怎么解决项目用啥开发的flume使用的时候是二次开发还是原有的配置那拉取文件的时候用了多少rddrepartion怎么自定义分区,和groupbykey的区别搭建集群规模遇到什么问题日活跃用户是多少java开发的话遇到过nio,fio什么是宽依赖,什么是窄依赖spark遇到的问题,怎么解决,包括对spark的优化58面试题数据量大的情况下sql的优化spark默认的join算子是什么类型的joinhive中几种join的区别,主要问innerjoin和leftsemijoin的区别广播变量和累加器到的使用场景广播变量在你项目中哪个算子中调用了广播变量到executor端,这些值可以改变吗累加器累加结果为什么不能显示在executor端hive优化和数据倾斜项目实时离线,流程,数据格式变化项目中数据库是怎么优化的数据仓库的搭建,维度表在哪里关联的,主题层还是集市层怎么和数据库对接数据的,如果sql执行失败,怎么解决reducebykeygroupbykeycombinebykey的区别宽依赖现场画图识别实时处理数据,每个批次计算时间foreach和foreachoartition的区别foreach和foreachpartition的区别foreach里面是list还是迭代器list和迭代器的区别,哪个是一次性将数据获取到,哪个是流式处理数据的迭代器是流式处理的话,还会发生oom吗,foreach没有返回值,还会内存溢出吗每天的数据量和活跃用户,mysql怎么优化的小组多少人,每个人的工作项目架构金山面试题他们做离线的，主要用spark多，spark2.X1.自我介绍一下吧2.介绍一下你们公司的技术框架3.在flume拉取日志时，混杂着今天和昨天的数据，你们是怎么解决的。

4.hive调优方面有没有了解5.hive按什么粒度划分的6.像离线数据你们怎么处理（比如是隔一段时间处理一次还是一天一处理）他们基本上是每5分钟处理一次，数据量比较大，峰值时每5分钟数据量大概4-50G7.spark的优化，spark对JVM方面的调优8.mr的Shuffle9.spark的Shuffle了解吗10.你们spark是跑在yarn上是吧，是那种模式，client还是cluster？

11.yarnclient和cluster的区别12.为什么用client或者cluster13.yarn你们用的哪种调度模式（先进先出FIFO/公平/计算能力）14.spark中假如有某几个节点运行速度特别慢，你们是怎么处理的？

（不是想听数据倾斜，yarn有一个nodelable,yarn的标签策略）15.你们hadoop、spark用的什么版本，spark2.x有个黑名单机制16.spark你们Executor和core数量怎么选择的17.JVM了解吗，GC回收的是哪个内存18.flume你们怎么配置的，flume本身对cpu的消耗并不大，你们合理分配的。

（他就是想问flume是单独配置的还是和yarn/或者其他节点上搭配配置的，如果单独配置yarn）19.对hive和spark底层源码有没有了解20.对hive、spark的优化还有没有更深层次的了解20.多大数据量，集群数量（他们节点有上千个）21.求同一个域名下ip点击量的topN（用row_number）22.hive除了从hdfs加载数据，你们还有没有其他的来源23.hive和hbase对接24.hbase你们怎么查询一般25.coalesce和reparation26.hive数据存储上的优化（我说我们一般存储是ORC），接着问ORC的底层怎么存储27.除了hive、spark还对那个框架比较熟悉，了解一下28.对于小文件的处理办法（hive和spark都问）壹账通面试scala语法sparkssh免密不用浏览器怎么拿到webui的内容（类似于scp的命令）kafka配置flumelogstashstructedstreaming蚂蚁金服-数据技术专家-国际事业群-国际技术刚刚一个候选人电话面试了，问了一堆JVM的问题，内存泄漏，spring实现方式，数据库索引实现方式，1.主要的项目经历，以及项目中的指责，主要负责哪些工作，应对哪些场景，问的非常非常细。

项目经历及项目使用的技术问的很细致。

2.数据仓库的设计过程，解释一下第三范式，星型模型。

3.hive的数据不均衡是怎么处理的。

4.JAVA线程的实现方式。

5.JAVA的set与list区别。

6.JAVA中的int与Integer的区别1、主要问了项目结构我们的业务实现目的2、采集数据的来源3、主要负责项目的哪些内容问的特别细4、vm调优5、hbase的rowkey设计6、spark的内存管理、源码分析7、flume的采集处理分别有什么不同1、logtash的工作流程，如何恢复2、HDFSHA需要secondarynamenode吗，灾难恢复流程3、介绍java常用的集合类4、Arraylist扩容比例5、sqoop的原理6、如何设计读写锁，读操作加不加锁，写操作发生如何检测，写操作结束如何通知读操作？

7、RDD宽依赖和窄依赖，join？

reducebykey，aggreatebyKey8、SpringMVC处理请求流程数据开发职位1、java三种单例，优缺点2、wordcount的实现过程3、mr与spark的区别4、spark在client与在集群运行的区别5、相同的sql在hivesql与sparksql的实现中，为什么spark比hadoop快6、udf7、设计hbase表需要注意的点8、hbase的hlog9、数据同样存在hdfs,为什么hbase支持在线查询10、项目的架构11、数据从hive中用sparksql进行操作有遇到什么问题？

类似兼容性的问题。

12、sparkstream与strom,flink与什么区别13、有三个map,一个reduce来做top10.哪种方法最优。

数据量特别大。

14、mapreduce的原理微车面试1、自我介绍2、yarn调度过程？

3、yarn中调度原则？

并不是hadoop的调度原则FIFO计算能力调度公平调度而是移动计算而不移动数据4、hive数据倾斜？

5、hadoop的优化？

6、spark中RDD和dataframe？

7、spark中的dataset？

8、spark中算子groupbykey和reducebykey的区别？

9、3个SQLtablestudentnamecoursescoreaaEnglish75bbmath85aamath90第一个：

求各科成绩都大于80的名单selectnamefromstudentgroupbynamehavingmin（score）=80;第二个：

开窗函数求每科成绩的前三第三个：

行转列使用sql输出以下结果nameEnglishmathaa7590bb085createtableifnotexistsresultasselectname,sum（casecoursewhenEnglishthenscoreelse0end）asEnglish,sum（casecoursewhenmaththenscoreelse0end）asmathfromstudentgroupbyname;10、数据仓库建模的过程？

就是几层11、为什么数据仓库要分层？

12、数据仓库项目的架构？

13、kafka的作用以及架构？

14、kafka高并发性能好还是高吞吐量性能好？

我说的是高吞吐量15、spark算子中分为transformation和action，为什么要这么设计？

16、sparkstreamming操作的是RDD还是dataframe？

Dstream就是一系列的RDD，可以使用transform和foreachRDD，顺便说了一下两者的区别17、写SQL时，对distributeby和partitionby的使用产生了疑问？

我就说了一下两者的区别字节跳动-面试总结：

1.先是自我介绍。

2.简单介绍了一下最近做的项目。

问了些具体指标的实现。

3.介绍项目中数据的流向？

画了整体的架构，多又问了flume的架构以及各组件的介绍4.我的一个项目是我们的spark的session分析项目，就问了你们是怎么通过前台提交的数据来生成指定的任务的，怎么就知道它要分析的指标。

5.spark-core和sparkStreaming的区别？

4.说说对kafka分区的理解？

5.介绍kafka分区的时候我提到了spark并行度，所以就问了我并行度相关的东西。

数据量，集群规模，内存配置，总的集群内存，然后问了最高可以并行多少个任务，峰值的数据量，实时处理的时间间隔，还问你们为什么要使用sparkStreaming,它不是批处理的吗，实时性能满足你们场景吗？

这一节问的特详细，他还仔细算了算6.spark优化（问题没有这么直接，忘了具体怎么问的了）7.手写sql。

有一张表（表里有三个字段，分别是uid，date，vid（vid这个列里面有多个值，用,分隔的），还有一张表（表里有两个个字段，分别是vid,clicks）然后需求是统计每天点击次数（clicks）前三的vid。

（这个题记不清楚了，实际是有两张表，需要先行转列，然后两表关联，分组聚合，排序，取topn）。

8.手写代码。

要求：

给定一个字符串，找出字符串中对称的且长度最长的子串并输出。

比如abcdkfdsdfkcckfd中,dfkc和ckfd对称，kfds和sdfk对称。

9.手写代码。

要求：

给定几个字符串，比如ProgramFilesCommonFilesLenovoLPU,ProgramFilesCommonFilesausaaaaooo,ProgramFilesUWQUQUmmm,ProgramFilesUWQUQUqiqiqiProgramFilesUWQUQUsdsdsd。

然后将字符串输出为多叉树的结构（可以直接理解为目录树）。

10.了解hashMap吗？

说说hashMap的结构？

hash冲突的时候怎么解决,我说了hash冲突的时候hashMap会把相同hash值的元素放在同一条链上，然后又问我当某一条链已经非常长的时候还是hash冲突怎么解决？

面试官给的答案是二次哈希，他解释了一下我没听明白。

小年糕面试题先写一张笔试卷，半个小时。

试卷已经发到群里了。

人事说重点是sql那一题。

面试的时候先聊试卷。

重点是看思路，结果不重要。

问到的问题：

1.离职原因。

2.数据量一天多少，压缩后的数据量有多少？

3.数据仓库分了几层，分别是什么层？

4.ods层有几张表，每张表里有多少个字段？

5.DM层有多少张表，是依据什么来分的（建表）？

5.flume的框架是怎么搭建的（画图）？

6.使用kafka的时候遇到了什么问题？

7.flume对接到kafka中的时候，offset是怎么维护的（强调不是spark消费时候偏移量的维护）？

8.对自己的面试评分？

软通动力（外派XX）1.首先自我介绍，问离职原因，岗位职责以及项目中负责的部分。

又问了一下数据规模。

2.手写sparkwordCount。

3.手写字符串hashcode排序算法。

4.手写sql。

有两张表，一张学生成绩表（里面有uid，subject，score字段），一张是学生信息表（里面有uid，uName字段），要求：

a.按照总成绩排名，输出格式为uName+总分；b.所有科目中单科成绩前三的uName+subject+score。

5.了解哪些数据结构？

知道set和map吗？

有没有用过hashMap？

说一说hashMap的原理？

6.数组和链表的区别？

7.第二个人开始问项目，数据仓库部分，我说是用hive做的，问到hive的计算引擎是什么，既然hive是使用mapreduce作为计算引擎的，说一下mapreduce的数据从获取到输出的整个过程。

8.spark项目中实时处理部分的动态黑名单机制？

9.spark项目中遇到的问题？

10.还用过哪些hadoop组件？

我说了hbase，然后问了我的rowkey设计。

猿辅导项目到是没问什么问题，他问我对json串解析用的udf是是用什么写的，我说是用java写的，然后他就问了一些java的问题。

1.stringstr1=abcdefstringstr2=abcdef怎么去掉的这个符号2.stringstr1=543;stringstr2=123写一个方法对这两个字符串进行相减输出returnstr1-str2;3.stringstr1=abcdefgstringstr2=mndfgadfg首先取出str2和str1相匹配的字段，（可以是不连续的）然后按最大的长度将字符串输出软通动力（外派XX）1.首先自我介绍，问离职原因，岗位职责以及项目中负责的部分。

又问了一下数据规模。

2.手写sparkwordCount。

3.手写字符串hashcode排序算法。

4.手写sql。

有两张表，一张学生成绩表（里面有uid，subject，score字段），一张是学生信息表（里面有uid，uName字段），要求：

a.按照总成绩排名，输出格式为uName+总分；b.所有科目中单科成绩前三的uName+subject+score。

5.了解哪些数据结构？

知道set和map吗？

有没有用过hashMap？

说一说hashMap的原理？

6.数组和链表的区别？

8.spark项目中实时处理部分的动态黑名单机制？

9.spark项目中遇到的问题？

10.还用过哪些hadoop组件？

我说了hbase，然后问了我的rowkey设计。

小年糕面试题先写一张笔试卷，半个小时。

试卷已经发到群里了。

人事说重点是sql那一题。

面试的时候先聊试卷。

重点是看思路，结果不重要。

问到的问题：

1.离职原因。

2.数据量一天多少，压缩后的数据量有多少？

3.数据仓库分了几层，分别是什么层？

4.ods层有几张表，每张表里有多少个字段？

5.DM层有多少张表，是依据什么来分的（建表）？

5.flume的框架是怎么搭建的（画图）？

6.使用kafka的时候遇到了什么问题？

7.flume对接到kafka中的时候，offset是怎么维护的（强调不是spark消费时候偏移量的维护）？

8.对自己的面试评分？

字节跳动-面试总结：

1.先是自我介绍。

2.简单介绍了一下最近做的项目。

问了些具体指标的实现。

3.介绍项目中数据的流向？

5.spark-core和sparkStreaming的区别？

4.说说对kafka分区的理解？

5.介绍kafka分区的时候我提到了spark并行度，所以就问了我并行度相关的东西。

这一节问的特详细，他还仔细算了算6.spark优化（问题没有这么直接，忘了具体怎么问的了）7.手写sql。

（这个题记不清楚了，实际是有两张表，需要先行转列，然后两表关联，分组聚合，排序，取topn）。

8.手写代码。

要求：

给定一个字符串，找出字符串中对称的且长度最长的子串并输出。

比如abcdkfdsdfkcckfd中,dfkc和ckfd对称，kfds和sdfk对称。

9.手写代码。

要求：

给定几个字符串，比如ProgramFilesCommonFilesLenovoLPU,ProgramFilesCommonFilesausaaaaooo,ProgramFilesUWQUQUmmm,ProgramFilesUWQUQUqiqiqiProgramFilesUWQUQUsdsdsd。

然后将字符串输出为多叉树的结构（可以直接理解为目录树）。

10.了解hashMap吗？

说说hashMap的结构？

面试官给的答案是二次哈希，他解释了一下我没听明白。

艾曼数据面试题自我介绍项目介绍（spark）spark内存模型手写Wordcount（reducebykey和groupbykey两种方式）checkpoint和persist（onlydisk）的区别cache是怎么使用的hive分区分桶的意义mapjoin和reducejoin的应用场景orderby和sortby的区别开窗函数的使用（分组求topN）不用开窗函数分组求topN（三种方法）hive内部表和外部表的区别hive动态分区项目中写入数据库是怎么实现的（具体步骤）mappartition和foreachpartition的区别spark和hadoop的推测执行项目中任务是怎么提交的，指定了哪些参数集群规模（每个节点的内存，分配任务多少内存，CPU核数）aggregate和aggregatebykeyreduce和reducebykeyyarn的两种提交模式（spark）数据仓库的分层（结合项目）手写SQL，要求如下：

（order表）order_idorder_typeorder_time111N10:

00111A10:

05111B10:

10得到如下结果：

order_idorder_type_1order_type_2order_time_1order_time_2111NA10:

0010:

05111AB10:

0510:

10SQL语句如下：

第一步：

createtableifnotexistsorder_index（order_idstring,order_typestring,order_timebigint,indexint）rowformatdelimitedfieldsterminatedbyt;第二步：

insertoverwritetableorder_indexselectorder_id,order_type,order_time,indexfrom（selectorder_id,order_type,order_time,row_numberover（distributebyorder_id,order_typesortbyorder_time）asindexfromorder）temp;第三步：

createtableifnotexistsresult（order_idstring,order_type_1string,order_type_2string,order_time_1bigint,order_time

展开阅读全文