大数据面试复习常问问题分析.docx-资源下载

大数据面试复习常问问题分析.docx

1、大数据面试复习常问问题分析关于Java的面试题：关于虚拟机的面试题：1.hashmap底层? 2.Java进程中断怎么处理?3.介绍下面向对象?4.介绍下多态?5.方法重载和重写?6.这俩哪个属于多态?7.说下多线程?8.实现方式有哪些，区别?9.同步锁互斥，为什么常量不能做锁?10.说下反射，都是做什么的?11.反射机制怎么实现的?12.linkedlist和arraylist的区别?13.hashMap的存储机制和存取过程?14.java的多线程？15.java的流处理？16.socket编程？17.hibernate的原理，干啥的？18.服务器之间如何通信？19.定时器如何写？20.H

2、ashmap hashset treemap 区别21.什么是hashMap？22.常用标签html？23.Spring 控制反转依赖注入，AOP 及其用途?24.java 中怎么解决多线程问题有几种方式，他们之间的不同?25.Hashtale hashmap currenthashtable 区别?26.Jvm 机制以及OOM发生的情况简述一下?27.Java 数组反转实现?28.Java 序列化 SqenceFile 并说明你的序列化方式和适用场景?29.Hashmap怎么实现，与tremap的区别?30.Java中问到常问的new String()问题到底是创建几个对象，

3、StringBuffer和StringBuilder区别?31.java反射比较多怎么优化处理?32. java 集合set list map 原理区别如何选择？33.jvm调优？34.线程同步？35.web service生命周期?36.对spring的理解?37.java7新特性?38.java实现上述功能，在TB级别数据情况下，实现方案?39.java实现取出两个文件中共有的数据?40.做一个排序（java伪代码）?41.常用的jqury框架，比如jqury的表单校验框架？42.单例？43.LinkdList和ArrayList的区别？44.http传输的时候是明文的，怎么解决安全

4、问题？45.垃圾回收机制？46.java内存模型？47.java内存模型？48.java垃圾回收机制?49.object中有哪些方法?50.ArrayList中Array的长度超了是怎么增加的，一次增加多少?51.java多线程?52.java中的集合?53.垃圾回收机制?54.java中的排序算法?55.会不会SSH框架?56.线程池怎么实现？57.Java内存错误中的一个错误，问我如何解决。？58.Callable和Runable的区别？59.在线项目的bug如何调试？60.进程和线程的区别，线程如何配置？?关于设计模式的面试题：1.设计模式?2.说说常用的设计模式，我说了个单例，他好像觉

5、得太简单了，我又说了个策略模式？关于数据结构和算法的面试题：1.再一次提起数据结构和算法2.算法和数据结构-要求，是基本的?3.一个数组，如a=1,2,3,4,1,2，把元素出现两次的保留，最后得到a=1,2；最后要写几个测试case。这个问题我先用一个循环，map统计次数，让后再循环。当出现两次的元素，踢掉。一个字符串，如何查询是否含有某一个子字符串，如果有返回索引，不能用api的函数4.PageRank怎么实现?5.算法中O(n)一定比O(lg(n)性能差吗？为什么？有那些因素需要考虑？算法中O(n)一定比O(lg(n)性能差吗？为什么？有那些因素需要考虑6.出了个题让我现场搞一下，一个文

6、件里有两个字段分别是IP和time，ip可以通过写好的函数转换成省份，让我实时统计每一分钟的PV，UV，注意PV,UV是累加的，不是一分钟的数据，可以根据省份去查询PV，UV。7. 对一个字符串进行全排列？8.用户文件2个属性10万行，课程文件2个属性2万行，日志文件1个属性很大，这些属性可以任意的组合查询，每秒的请求数是10000个，请如何最快的方式查询出数据？9. 给你2个字符串，字符串最后一个字符可以循环到最前面，只要一个字符串中每一个字符在另一个字符串都有就是相等的，请用你的方法比较是否相等？10.一个100G文件，里面每一个行都是一个ip，怎么写单机程序找出出现次数最多的前100个I

7、P？11.写个二分查找?12.写程序找出两个字符串中出现的共同字母?13.快速排序?关于HDFS的面试题：-ok1.hodoop写文件流程?2.hdfs了解多少？读写流程，架构？3.写流程中备份三，其中一个写失败了怎么弄的？4.hdfs HA（过程，启动流程）？5.hadoop的优化？6.hadoop1和hadoop2的区别？7.hadoop有哪些组件？8.hadoop 数据倾斜问题?9.HDFS 存储的什么类型?10.Hadoop1.x 和2.x 的差别?11.说说你hadoop 中都每个配置文件都配置了什么吧?12.Hadoop集群的优化?13.hdfs的实现?14.hdfs文件创建-工作

8、流程？15.hdfs异步读?-参考博客：16.hdfs api 源码解答：文件创建工作流程?17.hdfs api新特性?-不知道18.hadoop中一个job提交到resourcemanager之后，resourcemanager会生成一个什么样的容器来放这个job？19.hadoop集群中的某个block不能copy数据到其他节点，怎么办？如果并发量大了，有多个block不能copy数据，怎么办？-不知道20.Zookeeper怎么实现Hadoop的高可用?-不熟悉21.Hadoop体系？22.MR的过程？关于MapReduce的面试题：-(ok)1.mapreduce的原理和架构？2

9、.hadoop的全排序和局部排序和二次排序？-需要注意3.Mapreduce 过程？4.Mapreduce 优化？5.通过mapreduce 实现两个表的join?6.MR的原理拿wordcount来讲，以及优化(全面些)?7.Mr中啥时只有map，啥时要有map和reduce?8.给一个案例用mapreduce去实现，这个实现过程，会遇到什么问题，怎么解决？9.mr数据倾斜解决办法？10.mapreduce的pagerank实现?11.mapreduce merge?12,用代码写出你使用过的mapreduce？13.MapReduce流程基本原理？14.MapReduce过程的数据倾斜

10、怎么解决?15.MapReduce过程，Zookeeper实现高可用的原理？-不是很清楚关于yarn的面试题：-ok1.介绍下yarn?2.yarn有哪些组件，调度算法？3.说说yarn工作流程?4.yarn优缺点?关于linux Shell的面试题：1.shell熟不熟？文件查找用什么命令？文件内容过滤用什么？grep命名用过没？2.shell脚本的编写现场笔试二个文件加入都是key value 相同key的value求和?3.awk的编写?4.shell 脚本?sort ， uniq -u，uniq -t ，uniq -d， cat 组合使用，解决从不同文件中找出相同数据的问题，还有

11、解决只在一个文件中出现的数据的问题5.linux文件中查找字符串的命令。还有替换字符串的命令。还有 awk命令？6.比iptables更深入的权限控制的啥。（说了个我也没记住）？7.linux里一个文件，怎么替换某个单词的内容，一个文件有几行数据，怎么直接查看第二行数据8.请使用awk, sed命令对文本文件中第二列和第三列取出来？9.阿里巴巴的电话面试问到了linux的详细启动过程？1.按下电源 2.BIOS自检 3.系统引导(lilo/grub) 4.启动内核 5.初始化系统10.在linux环境下怎么查看一台机器的配置情况，比如磁盘，内存等11.Shell编程获取时间，crontab五个

12、星号代表什么？Sed和Awk程序的编写？12.Shell获取某行第几个字符怎么做?13.让我写shell脚本求一个文件中的平均值?关于hive的面试题：sql语句要清楚1:hive的优化?2.写hive建表语句?3.简单说下hive？4.底层实现？5.hive的表类型？6.hive创建表的几种方式？7.udf和udaf都写过哪些?8.介绍下udaf?自己写过吗？9.hive用哪个版本?10.hive窗口函数？11.写sql：1月100,2月200,3月100,4月200.统计如下效果：1月100,2月300,3月500,4月600.【就是每月统计一次前面所有的月的总额】加个over，就可以o

13、rderby 与partitionby类似？12.hive 2.0 lllip tz 了解吗？新特性？13.hive时，怎么合并小文件来着?14.列出了三张关联的表，其中一张表有点击数量的统计。让我们算一天的所有点击数量写出 hivesql，我没写出来?15.Hive 的优化?16.Hive 左右连接?17.Hive 使用的三种形式?18.Hive 分区?19.hive的工作原理?20.Hive中的rlike是怎么回事，哪里用到了?21.sql优化22.问我Hive怎么解决数据倾斜? MapReduce过程?设计角度 - 建索引，建视图sql- 充分利用索引，避免全表扫描22.hive优化?充

14、分利用临时表,重复利用?23.几道sql问题，联表查，exists，group by保留全部字段?24.不用hadoop 自己设计方案实现TB级别数据量，TOP10问题，数据倾斜问题怎么解决?25.hive原理，优化？26.hive数据倾斜优化？27.hive 执行sql时的工作流程?28.hive的默认分隔符?29.hive rank（以某个字段分组，在组内排序，找出各组的TOP k）?30.问到了hive的优化？31.怎么解决HIVE产生的数据倾斜问题?32.问我Hive具体怎么用的?33.HIVE中UDF UDAF UDTF的区别。数据倾斜问题怎么解决？表连接有几种类型？34.HIVE

15、怎么优化？HIVE常用的几个配置是哪些？35.Hive什么时候不能用combiner？36.添加自定义UDF的时候都是临时的，怎么永久添加？37.Hive动态分区?38.写一个表的查询的sql语句，具体忘了，是个嵌套的SQL?关于Hbase的面试题：-(ok)1.hbase 我说没用过?2.hbase有哪些组件，以及hbase里面的buffer？3.hbase rowkey的设计？4.hbase优化？5.hbase数据插入优化？6.hbase如何优化的？7.hbase的writebuffer？8.hbase对于复杂表如何设计rowkey?9.Hbase 执行过程？10.Hbase 优化？11.

16、关系型数据库是怎么把数据导出到Hbase 里的?12.hbase 优化问题?13.hbase 的性能优化?14.Hbase解决了什么问题?15.Hbase的相对多些，基础和优化?16.hbase最主要的特点是什么？17.hbase部署?18.和hbase同样功能的分布式数据库了解多少?19.HBase的存储原理?20.说说hbase的API都有哪些filter?21.问我major compack设置为手动会出现什么问题？22.mongoDB和hbase的区别？23.Hbase的表设计还有优化?关于Storm的面试题：-(ok)1.说说storm？就讲Storm的各个方面：Storm是什么？架

17、构中为什么要选择它而不选择SparkStreaming？Storm的编程模型？Storm的架构设计和Storm的容错机制？我在项目中是怎么使用Storm的？2.strom窗口：五分钟统计一次。？3.storm原理?storm如何保证不丢失数据?Storm的编程模型:Topology(DAG有向无环图的实现)：spolt，bolt，构建topology，storm的并发机制及数据分发策略Storm保证数据不丢失是Storm的有保证消息的完整(tuple树)处理的机制：acker机制(ack的实现原理:通过tuple的id的亦或运算来判断消息是否被完整计算实现,所以在spolt发送tuple的时候

18、需要设置消息的id)，但是这样会导致消息的重复计算，storm提供了拓扑性的事务(分阶段来实现事务的强有序和并发性)来保证消息有且仅被处理一次4.storm 流处理数据丢失？一般不会丢失，Storm大多的bolt都实现了acker机制，保证数据不会被丢失，当数据丢失的时候，acker机制会回调ack方法和fail方法重发tuple。5.Storm的原理?-同3编程模型6.spark streaming和storm的区别，可以相互取代吗？纯流式的实时的计算框架和微批处理的框架spark家族一栈式的大数据处理框架，storm显得很专业事务支持方面：Storm事务支持的比较好，SparkStream

19、ing差点实现的功能方面：SparkStreaming提供丰富的算子可以实现丰富的功能，Storm一般做比较简单的统计7.说说你用过的storm?-同18.storm的设计和日志的格式？Storm的设计主要是对pv，uv等简单的统计的topology的构建，还有其并发的设置日志的格式：9:storm整合kafka？Storm的Spout应该是源源不断的取数据，不能间断。那么，很显然，消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择由于storm-kafka已经实现了spout，我们直接用就可以关于Zookeeper的面试题：1.问了Zookeeper的工作原理。过半机制，还有

20、节点为什么是单数台？2.zookeeper熟悉不？3.zookeeper有哪些组件？4.zookeeper的机制等，各组件的原理？5.Zookeeper到底是干嘛的?6.zookeeper的二次开发？7.Zookeeper实现分布式锁用哪个jar包，以及写mr、spark作业程序具体应该用哪些包？关于Kafka的面试题：-1.怎么保证kafka传过来的数据之正确的处理一次？-结合Storm事务来思考2.flume 和 kafka什么区别？3.kafka为什么要分多个partition？4.kafka和spark Streaming 的整合？-重要-不是很清楚，看kafka和SparkStrea

21、ming整合5.怎么保证数据kafka里的数据安全？（丢失）-磁盘存储，数据使用完后的删除的策略6.kafka的key为null可以吗？7.怎么往kafka集群写数据的？-Kafka Sink(使用的是Flume)或者KafKa Spout(如果使用的是Storm)8.kafka用到的什么设计模式？-发布订阅模式9.kafka的原理?如果生产数据是消费数据100倍，该如何处理?10.flume与kafka区别?11.有很多消息队列技术，为什么选择kafka ?-kafka的特性方面回答12.kafka为什么可以支持那么大的吞吐量，怎么实现的，我直接说不知道。?-顺序读写，partition的分

22、布式存储关于Flume的面试题：-ok1.flume什么时候用？-分布式的数据收集2.Flume 处理日志重复问题?3.flume 监控问题?自身支持ganlia集群监控4.Flume是如何拿数据的?-flume source5. flum是如何导入数据到kafka?具体?Kafka Sink channnel里面配置相应的topic6.flume的实时采集数据和定时采集数据的方法？tail -f；Spooling7.主要问Flume如何使用？整合Flume+Storm和整合Flume+Kafka关于Sqoop的面试题：-ok1.sqoop导数据是否了解sqoop？了解，通过sqoop ex

23、port/import来实现2.sqoop底层（我说不参与）？了解，通过MR来实现的数据的导入导出关于Spark的面试题：-ok1.spark优化?答案：架构参数优化：shuffle，内存管理，推测执行，数据本地化：HDFS的DataNode和Spark Worker共享一台机器代码层面：并行度-调整finalRDD partition；缓存机制的选择-CPU使用和内存使用的权衡： checkpoint；算子的使用和选择-groupbykey，map vs mappartitions等，使用广播变量，累加器等；序列化：压缩，存储格式的选择数据倾斜：重写partition规则，抽样看数据的分布

24、，结合具体的业务架构的选择：统一使用yarn结合hadoop，还是使用自己的standalone计算框架1.spark的工作流程？答案：Spark的资源调度和任务调度+pipeline的计算模型2.spark源码-DAG-Task-任务调度部分？答案：首先清楚spark是粗粒度的资源申请，任务调度：sparkContext-DAGSheduler切分stage，TaskSheduler发送任务到申请好的Executor中的线程池执行3.submit相关配置？一般指定多大的资源？答案：submit -master/yarn -class -deploy model clster/client -

25、Executor cores 默认一个Executor 1 core，lg内存，1G，2-3个task4.写完spark程序如何知道多少个task？（即资源如何调配的）答案：看你的并行度的设置，block的数量，web UI5.spark和mr性能是不是差别很多？答案：一般来说Spark比Hadoop快：原因：（1）：MR有大量的磁盘io,溢写等，Spark则可以基于内存缓存机制计算（2）：MR和Spark的资源申请的方式：粗粒度和细粒度的区别（3）：DAG计算引擎中的pipeline计算模型，MR就是MapReduce模型（4）：算子的丰富程度使用场景：大于pb级别的数据量一般选择MR生态

26、的区别：Spark一站式的大数据处理平台，Hadoop还需要和其他的整合，升级，版本兼容等一堆问题，CDH版本如果需要更多的功能需要考虑成本的问题6.spark任务yarn执行流程(client)?答案：7.spark运行在Yarn上流程（cluster）?使用场景的区别：基于yarn的好处，兼容hadoop，一套计算框架，能好的维护8.spark调优？-同问题19.shuffle主要介绍下？答案：shuffle发生？-shuffle的过程-shuffle实现的选择-shuffle的优化10.宽窄依赖？答案：看父RDD和子RR的关系，除了父RDD和子RDD一对多外，其他的都是窄依赖11.shu

27、ffle怎么落地的？答案：shuffle的实现类型：hash Shuffle还是sortShuffle？Shuffle数据落地？12.Spark RDD 是什么?答案：弹性分布式数据集-源码的五大特性-RDD的计算模型：pipeline计算模型13.Spark 算子?答案：map，flatmap，filter，foreach，first，take(n),join,cogroup,reducebykey,sortBy,distinct,mapPartition等等14.spark 优势？答案：一栈式大数据处理平台。灵活的编程模型，相比MR速度快15.spark on yarn 和mapreduc

28、e 中yarn有什么区别？答案：没什么区别，yarn就是一个资源管理框架16.spark 原理？答案：pipeline计算模型+任务调度和资源调度17.spark运行的job在哪里可以看到？答案：Driver进程所在的节点；web UI18.如何监测集群中cpu，内存的使用情况，比如说：有一个spark特别占资源，特别慢，怎么排查这种情况?答案：Spark WEB UI；集群监控工具，找到taskid19.spark为什么比hadoop快？同题520.rdd的处理过程是什么，不要说概念?答案：画切分Stage，pipeline的计算模型的图21.请说出你在spark中的优化方案？答案：同122

29、.SparkSQL和Spark架构，运行流程图，Spark运行的两种方式。常用的Spark函数有哪些？答案：spark架构图+运行流程图(资源的调度+任务调度)+Spark client和SparkCluster+transformation算子+action算子+持久化操作算子24：GroupByKey的作用？答案：根据key分组23.Spark了解多少？答案：Spark生态-架构-运行模式+任务调度和资源调度关于Spark Sql的面试题：1.sparkSQL介绍下（RDD、DataFrame）关于Spark Streaming的面试题：1.sparkStreaming怎么跟kafka对接

30、的,数据拉取到哪里？2.日流量10G没必要sparkstreaming？3.spark streaming 例子。问维护做过没？说sparkStreaming的维护成本很高。我告诉他是的，比如说可能会丢数据，wal会慢。这一块儿不是我维护。没细问。4.spark streming调优?5.sparkstreaming原理？6.spark Streaming介绍下？和Storm比较？7.spark Streaming某一个task挂了，怎么解决的?8.spark streaming?spark的相关算法，比如推荐系统需要什么算法?9.park streaming 工作流程？10.sparkstreanming没有问题，但无法计算，

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？