ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:145.37KB ,
资源ID:6431662      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6431662.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据面试复习常问问题分析.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据面试复习常问问题分析.docx

1、大数据面试复习常问问题分析关于Java的面试题:关于虚拟机的面试题:1.hashmap底层? 2.Java进程中断怎么处理?3.介绍下面向对象?4.介绍下多态?5.方法重载和重写?6.这俩哪个属于多态?7.说下多线程?8.实现方式有哪些,区别?9.同步锁 互斥,为什么常量不能做锁?10.说下反射,都是做什么的?11.反射机制怎么实现的?12.linkedlist和arraylist的区别?13.hashMap的存储机制和存取过程?14.java的多线程?15.java的流处理?16.socket编程?17.hibernate的原理,干啥的?18.服务器之间如何通信?19.定时器如何写?20.H

2、ashmap hashset treemap 区别21.什么是hashMap?22.常用标签html?23.Spring 控制反转 依赖注入 ,AOP 及其用途?24.java 中 怎么解决多线程问题 有几种方式 ,他们之间的不同?25.Hashtale hashmap currenthashtable 区别?26.Jvm 机制 以及OOM发生的情况 简述一下?27.Java 数组反转实现?28.Java 序列化 SqenceFile 并说明你的序列化方式和适用场景?29.Hashmap怎么实现,与tremap的区别?30.Java中问到常问的new String()问题 到底是创建几个对象,

3、StringBuffer和StringBuilder区别?31.java反射比较多 怎么优化处理?32. java 集合set list map 原理 区别 如何选择?33.jvm调优?34.线程同步?35.web service生命周期?36.对spring的理解?37.java7新特性?38.java实现上述功能,在TB级别数据情况下,实现方案?39.java实现取出两个文件中共有的数据?40.做一个排序(java伪代码)?41.常用的jqury框架,比如jqury的表单校验框架?42.单例?43.LinkdList和ArrayList的区别?44.http传输的时候是明文的,怎么解决安全

4、问题?45.垃圾回收机制?46.java内存模型?47.java内存模型?48.java垃圾回收机制?49.object中有哪些方法?50.ArrayList中Array的长度超了是怎么增加的,一次增加多少?51.java多线程?52.java中的集合?53.垃圾回收机制?54.java中的排序算法?55.会不会SSH框架?56.线程池怎么实现?57.Java内存错误中的一个错误,问我如何解决。?58.Callable和Runable的区别?59.在线项目的bug如何调试?60.进程和线程的区别,线程如何配置??关于设计模式的面试题:1.设计模式?2.说说常用的设计模式,我说了个单例,他好像觉

5、得太简单了,我又说了个策略模式?关于数据结构和算法的面试题:1.再一次提起数据结构和算法2.算法和数据结构-要求,是基本的?3.一个数组,如a=1,2,3,4,1,2,把元素出现两次的保留,最后得到a=1,2;最后要写几个测试case。这个问题我先用一个循环,map统计次数,让后再循环。当出现两次的元素,踢掉。一个字符串,如何查询是否含有某一个子字符串,如果有返回索引,不能用api的函数4.PageRank怎么实现?5.算法中O(n)一定比O(lg(n)性能差吗?为什么?有那些因素需要考虑?算法中O(n)一定比O(lg(n)性能差吗?为什么?有那些因素需要考虑6.出了个题让我现场搞一下,一个文

6、件里有两个字段分别是IP和time,ip可以通过写好的函数转换成省份,让我实时统计每一分钟的PV,UV,注意PV,UV是累加的,不是一分钟的数据,可以根据省份去查询PV,UV。7. 对一个字符串进行全排列?8.用户文件2个属性10万行,课程文件2个属性2万行,日志文件1个属性很大,这些属性可以任意的组合查询,每秒的请求数是10000个,请如何最快的方式查询出数据?9. 给你2个字符串,字符串最后一个字符可以循环到最前面,只要一个字符串中每一个字符在另一个字符串都有就是相等的,请用你的方法比较是否相等?10.一个100G文件,里面每一个行都是一个ip,怎么写单机程序找出出现次数最多的前100个I

7、P?11.写个二分查找?12.写程序找出两个字符串中出现的共同字母?13.快速排序?关于HDFS的面试题:-ok1.hodoop写文件流程?2.hdfs了解多少?读写流程,架构?3.写流程中备份三,其中一个写失败了怎么弄的?4.hdfs HA(过程,启动流程)?5.hadoop的优化?6.hadoop1和hadoop2的区别?7.hadoop有哪些组件?8.hadoop 数据倾斜问题?9.HDFS 存储的什么类型?10.Hadoop1.x 和2.x 的差别?11.说说你hadoop 中都每个配置文件都配置了什么吧?12.Hadoop集群的优化?13.hdfs的实现?14.hdfs文件创建-工作

8、流程?15.hdfs异步读?-参考博客:16.hdfs api 源码 解答:文件创建工作流程?17.hdfs api新特性?-不知道18.hadoop中一个job提交到resourcemanager之后,resourcemanager会生成一个什么样的容器来放这个job?19.hadoop集群中的某个block不能copy数据到其他节点,怎么办?如果并发量大了, 有多个block不能copy数据,怎么办?-不知道20.Zookeeper怎么实现Hadoop的高可用?-不熟悉21.Hadoop体系?22.MR的过程?关于MapReduce的面试题:-(ok)1.mapreduce的原理和架构?2

9、.hadoop的全排序和局部排序和二次排序?-需要注意3.Mapreduce 过程?4.Mapreduce 优化?5.通过mapreduce 实现两个表的join?6.MR的原理 拿wordcount来讲,以及优化(全面些)?7.Mr中啥时只有map,啥时要有map和reduce?8.给一个案例 用mapreduce去实现,这个实现过程,会遇到什么问题,怎么解决?9.mr数据倾斜解决办法?10.mapreduce的pagerank实现?11.mapreduce merge?12,用代码写出你使用过的mapreduce?13.MapReduce流程基本原理?14.MapReduce过程的数据倾斜

10、怎么解决?15.MapReduce过程,Zookeeper实现高可用的原理?-不是很清楚关于yarn的面试题:-ok1.介绍下yarn?2.yarn有哪些组件,调度算法?3.说说yarn工作流程?4.yarn优缺点?关于linux Shell的面试题:1.shell熟不熟?文件查找用什么命令?文件内容过滤用什么?grep命名用过没?2.shell脚本的编写 现场笔试 二个文件 加入都是key value 相同key的value求和?3.awk的编写?4.shell 脚本?sort , uniq -u,uniq -t ,uniq -d, cat 组合使用,解决从不同文件中找出相同数据的问题,还有

11、解决只在一个文件中出现的数据的问题5.linux文件中查找字符串的命令。还有替换字符串的命令。还有 awk命令?6.比iptables更深入的权限控制的啥。(说了个我也没记住)?7.linux里一个文件,怎么替换某个单词的内容,一个文件有几行数据,怎么直接查看第二行数据8.请使用awk, sed命令对文本文件中第二列和第三列取出来?9.阿里巴巴的电话面试问到了linux的详细启动过程?1.按下电源 2.BIOS自检 3.系统引导(lilo/grub) 4.启动内核 5.初始化系统10.在linux环境下怎么查看一台机器的配置情况,比如磁盘,内存等11.Shell编程获取时间,crontab五个

12、星号代表什么?Sed和Awk程序的编写?12.Shell获取某行第几个字符怎么做?13.让我写shell脚本求一个文件中的平均值?关于hive的面试题:sql语句要清楚1:hive的优化?2.写hive建表语句?3.简单说下hive?4.底层实现?5.hive的表类型?6.hive创建表的几种方式?7.udf和udaf都写过哪些?8.介绍下udaf?自己写过吗?9.hive用哪个版本?10.hive窗口函数?11.写sql:1月100,2月200,3月100,4月200.统计如下效果:1月100,2月300,3月500,4月600.【就是每月统计一次前面所有的月的总额】 加个over,就可以o

13、rderby 与partitionby类似?12.hive 2.0 lllip tz 了解吗?新特性?13.hive时,怎么合并小文件来着?14.列出了三张关联的表,其中一张表有点击数量的统计。让我们算一天的所有点击数量写出 hivesql,我没写出来?15.Hive 的优化?16.Hive 左右连接?17.Hive 使用的三种形式?18.Hive 分区?19.hive的工作原理?20.Hive中的rlike是怎么回事,哪里用到了?21.sql优化22.问我Hive怎么解决数据倾斜? MapReduce过程?设计角度 - 建索引,建视图sql- 充分利用索引,避免全表扫描22.hive优化?充

14、分利用临时表,重复利用?23.几道sql问题,联表查,exists,group by保留全部字段?24.不用hadoop 自己设计方案 实现TB级别数据量,TOP10问题,数据倾斜问题怎么解决?25.hive原理,优化?26.hive数据倾斜优化?27.hive 执行sql时的工作流程?28.hive的默认分隔符?29.hive rank(以某个字段分组,在组内排序,找出各组的TOP k)?30.问到了hive的优化?31.怎么解决HIVE产生的数据倾斜问题?32.问我Hive具体怎么用的?33.HIVE中UDF UDAF UDTF的区别。数据倾斜问题怎么解决?表连接有几种类型?34.HIVE

15、怎么优化?HIVE常用的几个配置是哪些?35.Hive什么时候不能用combiner?36.添加自定义UDF的时候都是临时的,怎么永久添加?37.Hive动态分区?38.写一个表的查询的sql语句,具体忘了,是个嵌套的SQL?关于Hbase的面试题:-(ok)1.hbase 我说没用过?2.hbase有哪些组件,以及hbase里面的buffer?3.hbase rowkey的设计?4.hbase优化?5.hbase数据插入优化?6.hbase如何优化的?7.hbase的writebuffer?8.hbase对于复杂表如何设计rowkey?9.Hbase 执行过程?10.Hbase 优化?11.

16、关系型数据库是怎么把数据导出到Hbase 里的?12.hbase 优化问题?13.hbase 的性能优化?14.Hbase解决了什么问题?15.Hbase的相对多些,基础和优化?16.hbase最主要的特点是什么?17.hbase部署?18.和hbase同样功能的分布式数据库了解多少?19.HBase的存储原理?20.说说hbase的API都有哪些filter?21.问我major compack设置为手动会出现什么问题?22.mongoDB和hbase的区别?23.Hbase的表设计还有优化?关于Storm的面试题:-(ok)1.说说storm?就讲Storm的各个方面:Storm是什么?架

17、构中为什么要选择它而不选择SparkStreaming?Storm的编程模型?Storm的架构设计和Storm的容错机制?我在项目中是怎么使用Storm的?2.strom窗口:五分钟统计一次。?3.storm原理?storm如何保证不丢失数据?Storm的编程模型:Topology(DAG有向无环图的实现):spolt,bolt,构建topology,storm的并发机制及数据分发策略Storm保证数据不丢失是Storm的有保证消息的完整(tuple树)处理的机制:acker机制(ack的实现原理:通过tuple的id的亦或运算来判断消息是否被完整计算实现,所以在spolt发送tuple的时候

18、需要设置消息的id),但是这样会导致消息的重复计算,storm提供了拓扑性的事务(分阶段来实现事务的强有序和并发性)来保证消息有且仅被处理一次4.storm 流处理数据丢失?一般不会丢失,Storm大多的bolt都实现了acker机制,保证数据不会被丢失,当数据丢失的时候,acker机制会回调ack方法和fail方法重发tuple。5.Storm的原理?-同3编程模型6.spark streaming和storm的区别,可以相互取代吗?纯流式的实时的计算框架和微批处理的框架spark家族一栈式的大数据处理框架,storm显得很专业事务支持方面:Storm事务支持的比较好,SparkStream

19、ing差点实现的功能方面:SparkStreaming提供丰富的算子可以实现丰富的功能,Storm一般做比较简单的统计7.说说你用过的storm?-同18.storm的设计和日志的格式?Storm的设计主要是对pv,uv等简单的统计的topology的构建,还有其并发的设置日志的格式:9:storm整合kafka?Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择由于storm-kafka已经实现了spout,我们直接用就可以关于Zookeeper的面试题:1.问了Zookeeper的工作原理。过半机制,还有

20、节点为什么是单数台?2.zookeeper熟悉不?3.zookeeper有哪些组件?4.zookeeper的机制等,各组件的原理?5.Zookeeper到底是干嘛的?6.zookeeper的二次开发?7.Zookeeper实现分布式锁用哪个jar包,以及写mr、spark作业程序具体应该用哪些包?关于Kafka的面试题:-1.怎么保证kafka传过来的数据之正确的处理一次?-结合Storm事务来思考2.flume 和 kafka什么区别?3.kafka为什么要分多个partition?4.kafka和spark Streaming 的整合?-重要-不是很清楚,看kafka和SparkStrea

21、ming整合5.怎么保证数据kafka里的数据安全?(丢失)-磁盘存储,数据使用完后的删除的策略6.kafka的key为null可以吗?7.怎么往kafka集群写数据的?-Kafka Sink(使用的是Flume)或者KafKa Spout(如果使用的是Storm)8.kafka用到的什么设计模式?-发布订阅模式9.kafka的原理?如果生产数据是消费数据100倍,该如何处理?10.flume与kafka区别?11.有很多消息队列技术,为什么选择kafka ?-kafka的特性方面回答12.kafka为什么可以支持那么大的吞吐量,怎么实现的,我直接说不知道。?-顺序读写,partition的分

22、布式存储关于Flume的面试题:-ok1.flume什么时候用?-分布式的数据收集2.Flume 处理日志重复问题?3.flume 监控问题?自身支持ganlia集群监控4.Flume是如何拿数据的?-flume source5. flum是如何导入数据到kafka?具体?Kafka Sink channnel里面配置相应的topic6.flume的实时采集数据和定时采集数据的方法?tail -f;Spooling7.主要问Flume如何使用?整合Flume+Storm和整合Flume+Kafka关于Sqoop的面试题:-ok1.sqoop导数据 是否了解sqoop?了解,通过sqoop ex

23、port/import来实现2.sqoop底层(我说不参与)?了解,通过MR来实现的数据的导入导出关于Spark的面试题:-ok1.spark优化?答案:架构参数优化:shuffle,内存管理,推测执行,数据本地化:HDFS的DataNode和Spark Worker共享一台机器代码层面:并行度-调整finalRDD partition;缓存机制的选择-CPU使用和内存使用的权衡: checkpoint;算子的使用和选择-groupbykey,map vs mappartitions等,使用广播变量,累加器等; 序列化:压缩,存储格式的选择数据倾斜:重写partition规则,抽样看数据的分布

24、,结合具体的业务架构的选择:统一使用yarn结合hadoop,还是使用自己的standalone计算框架1.spark的工作流程?答案:Spark的资源调度和任务调度+pipeline的计算模型2.spark源码-DAG-Task-任务调度部分?答案:首先清楚spark是粗粒度的资源申请,任务调度:sparkContext-DAGSheduler切分stage,TaskSheduler发送任务到申请好的Executor中的线程池执行3.submit相关配置?一般指定多大的资源?答案:submit -master/yarn -class -deploy model clster/client -

25、Executor cores 默认一个Executor 1 core,lg内存,1G,2-3个task4.写完spark程序如何知道多少个task? (即资源如何调配的)答案:看你的并行度的设置,block的数量,web UI5.spark和mr性能是不是差别很多?答案:一般来说Spark比Hadoop快:原因:(1):MR有大量的磁盘io,溢写等,Spark则可以基于内存缓存机制计算(2):MR和Spark的资源申请的方式:粗粒度和细粒度的区别(3):DAG计算引擎中的pipeline计算模型,MR就是MapReduce模型(4):算子的丰富程度使用场景:大于pb级别的数据量一般选择MR生态

26、的区别:Spark一站式的大数据处理平台,Hadoop还需要和其他的整合,升级,版本兼容等一堆问题,CDH版本如果需要更多的功能需要考虑成本的问题6.spark任务yarn执行流程(client)?答案:7.spark运行在Yarn上流程(cluster)?使用场景的区别:基于yarn的好处,兼容hadoop,一套计算框架,能好的维护8.spark调优?-同问题19.shuffle主要介绍下?答案:shuffle发生?-shuffle的过程-shuffle实现的选择-shuffle的优化10.宽窄依赖?答案:看父RDD和子RR的关系,除了父RDD和子RDD一对多外,其他的都是窄依赖11.shu

27、ffle怎么落地的?答案:shuffle的实现类型:hash Shuffle还是sortShuffle?Shuffle数据落地?12.Spark RDD 是什么?答案:弹性分布式数据集-源码的五大特性-RDD的计算模型:pipeline计算模型13.Spark 算子?答案:map,flatmap,filter,foreach,first,take(n),join,cogroup,reducebykey,sortBy,distinct,mapPartition等等14.spark 优势?答案:一栈式大数据处理平台。灵活的编程模型,相比MR速度快15.spark on yarn 和mapreduc

28、e 中yarn有什么区别?答案:没什么区别,yarn就是一个资源管理框架16.spark 原理?答案:pipeline计算模型+任务调度和资源调度17.spark运行的job在哪里可以看到?答案:Driver进程所在的节点;web UI18.如何监测集群中cpu,内存的使用情况,比如说:有一个spark特别占资源,特别慢,怎么排查这种情况?答案:Spark WEB UI;集群监控工具,找到taskid19.spark为什么比hadoop快?同题520.rdd的处理过程是什么,不要说概念?答案:画切分Stage,pipeline的计算模型的图21.请说出你在spark中的优化方案?答案:同122

29、.SparkSQL和Spark架构,运行流程图,Spark运行的两种方式。常用的Spark函数有哪些?答案:spark架构图+运行流程图(资源的调度+任务调度)+Spark client和SparkCluster+transformation算子+action算子+持久化操作算子24:GroupByKey的作用?答案:根据key分组23.Spark了解多少?答案:Spark生态-架构-运行模式+任务调度和资源调度关于Spark Sql的面试题:1.sparkSQL介绍下(RDD、DataFrame)关于Spark Streaming的面试题:1.sparkStreaming怎么跟kafka对接

30、的,数据拉取到哪里?2.日流量10G没必要sparkstreaming?3.spark streaming 例子。问维护做过没?说sparkStreaming的维护成本很高。 我告诉他是的,比如说可能会丢数据,wal会慢。这一块儿不是我维护。没细问。4.spark streming调优?5.sparkstreaming原理?6.spark Streaming介绍下?和Storm比较?7.spark Streaming某一个task挂了,怎么解决的?8.spark streaming?spark的相关算法,比如推荐系统需要什么算法?9.park streaming 工作流程?10.sparkstreanming没有问题,但无法计算,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1