大数据面试复习常问问题分析Word文件下载.docx

资源描述

大数据面试复习常问问题分析Word文件下载.docx

《大数据面试复习常问问题分析Word文件下载.docx》由会员分享，可在线阅读，更多相关《大数据面试复习常问问题分析Word文件下载.docx（23页珍藏版）》请在冰豆网上搜索。

大数据面试复习常问问题分析Word文件下载.docx

36.对spring的理解?

37.java7新特性?

38.java实现上述功能，在TB级别数据情况下，实现方案?

39.java实现取出两个文件中共有的数据?

40.做一个排序（java伪代码）?

41.常用的jqury框架，比如jqury的表单校验框架？

42.单例？

43.LinkdList和ArrayList的区别？

44.http传输的时候是明文的，怎么解决安全问题？

45.垃圾回收机制？

46.java内存模型？

47.java内存模型？

48.java垃圾回收机制?

49.object中有哪些方法?

50.ArrayList中Array的长度超了是怎么增加的，一次增加多少?

51.java多线程?

52.java中的集合?

53.垃圾回收机制?

54.java中的排序算法?

55.会不会SSH框架?

56.线程池怎么实现？

57.Java内存错误中的一个错误，问我如何解决。

？

58.Callable和Runable的区别？

59.在线项目的bug如何调试？

60.进程和线程的区别，线程如何配置？

关于设计模式的面试题：

设计模式?

2.说说常用的设计模式，我说了个单例，他好像觉得太简单了，我又说了个策略模式？

关于数据结构和算法的面试题：

1.再一次提起数据结构和算法

2.算法和数据结构--要求，是基本的?

3.一个数组，如a=[1,2,3,4,1,2]，把元素出现两次的保留，最后得到a=[1,2]；

最后要写几个测试case。

这个问题我先用一个循环，map统计次数，让后再循环。

当出现两次的元素，踢掉。

一个字符串，如何查询是否含有某一个子字符串，如果有返回索引，不能用api的函数

4.PageRank怎么实现?

5.算法中O（n）一定比O（lg（n））性能差吗？

为什么？

有那些因素需要考虑？

算法中O（n）一定比O（lg（n））性能差吗？

有那些因素需要考虑

6.出了个题让我现场搞一下，一个文件里有两个字段分别是IP和time，ip可以通过写好的函数转换成省份，让我实时统计每一分钟的PV，UV，注意PV,UV是累加的，不是一分钟的数据，可以根据省份去查询PV，UV。

7.对一个字符串进行全排列？

8.用户文件2个属性10万行，课程文件2个属性2万行，日志文件1个属性很大，这些属性可以任意的组合查询，每秒的请求数是10000个，请如何最快的方式查询出数据？

9.给你2个字符串，字符串最后一个字符可以循环到最前面，只要一个字符串中每一个字符在另一个字符串都有就是相等的，请用你的方法比较是否相等？

10.一个100G文件，里面每一个行都是一个ip，怎么写单机程序找出出现次数最多的前100个IP？

11.写个二分查找?

12.写程序找出两个字符串中出现的共同字母?

13.快速排序?

关于HDFS的面试题：

------ok

1.hodoop写文件流程?

2.hdfs了解多少？

读写流程，架构？

3.写流程中备份三，其中一个写失败了怎么弄的？

4.hdfsHA（过程，启动流程）？

5.hadoop的优化？

6.hadoop1和hadoop2的区别？

7.hadoop有哪些组件？

8.hadoop数据倾斜问题?

9.HDFS存储的什么类型?

10.Hadoop1.x和2.x的差别?

11.说说你hadoop中都每个配置文件都配置了什么吧?

12.Hadoop集群的优化?

13.hdfs的实现?

14.hdfs文件创建--工作流程？

15.hdfs异步读?

-------------参考博客：

16.hdfsapi源码解答：

文件创建工作流程?

17.hdfs

api新特性?

---------不知道

18.hadoop中一个job提交到resourcemanager之后，resourcemanager会生成一个什么样的容器来放这个job？

19.hadoop集群中的某个block不能copy数据到其他节点，怎么办？

如果并发量大了，

有多个block不能copy数据，怎么办？

-------不知道

20.Zookeeper怎么实现Hadoop的高可用?

--------不熟悉

21.Hadoop体系？

22.MR的过程？

关于MapReduce的面试题：

----（ok）

1.mapreduce的原理和架构？

2.hadoop的全排序和局部排序和二次排序？

----需要注意

3.Mapreduce过程？

4.Mapreduce优化？

5.通过mapreduce实现两个表的join?

6.MR的原理拿wordcount来讲，以及优化（全面些）?

7.Mr中啥时只有map，啥时要有map和reduce?

8.给一个案例

用mapreduce去实现，，这个实现过程，会遇到什么问题，怎么解决？

9.mr数据倾斜解决办法？

10.mapreduce的pagerank实现?

11.

mapreduce

merge?

12,用代码写出你使用过的mapreduce？

13.MapReduce流程基本原理？

14.MapReduce过程的数据倾斜怎么解决?

15.MapReduce过程，Zookeeper实现高可用的原理？

----不是很清楚

关于yarn的面试题：

-----ok

1.介绍下yarn?

2.yarn有哪些组件，调度算法？

3.说说yarn工作流程?

4.yarn优缺点?

关于linuxShell的面试题：

1.shell熟不熟？

文件查找用什么命令？

文件内容过滤用什么？

grep命名用过没？

2.shell脚本的编写现场笔试

二个文件

加入都是keyvalue相同key的value求和?

3.awk的编写?

4.shell脚本?

sort，uniq-u，uniq-t，uniq-d，cat组合使用，解决从不同文件中找出相同数据的问题，还有解决只在一个文件中出现的数据的问题

5.linux文件中查找字符串的命令。

还有替换字符串的命令。

还有awk命令？

6.比iptables更深入的权限控制的啥。

。

（说了个我也没记住）？

7.linux里一个文件，怎么替换某个单词的内容，一个文件有几行数据，怎么直接查看第二行数据

8.请使用awk,sed命令对文本文件中第二列和第三列取出来？

9.阿里巴巴的电话面试问到了linux的详细启动过程？

1.按下电源

2.BIOS自检

3.系统引导（lilo/grub）

4.启动内核

5.初始化系统

10.在linux环境下怎么查看一台机器的配置情况，比如磁盘，内存等

Shell编程获取时间，crontab五个星号代表什么？

Sed和Awk程序的编写？

12.Shell获取某行第几个字符怎么做?

13.让我写shell脚本求一个文件中的平均值?

关于hive的面试题：

sql语句要清楚

hive的优化?

2.写hive建表语句?

3.简单说下hive？

4.底层实现？

5.hive的表类型？

6.hive创建表的几种方式？

7.udf和udaf都写过哪些?

8.介绍下udaf?

自己写过吗？

9.hive用哪个版本?

10.hive窗口函数？

11.写sql：

1月100,2月200,3月100,4月200.统计如下效果：

1月100,2月300,3月500,4月600.【就是每月统计一次前面所有的月的总额】加个over，就可以orderby与partitionby类似？

12.hive2.0llliptz了解吗？

新特性？

13.hive时，怎么合并小文件来着?

14.列出了三张关联的表，其中一张表有点击数量的统计。

让我们算一天的所有点击数量写出hivesql，我没写出来?

15.Hive的优化?

16.Hive

左右连接?

17.Hive使用的三种形式?

18.Hive分区?

19.hive的工作原理?

20.Hive中的rlike是怎么回事，哪里用到了?

21.sql优化

22.问我Hive怎么解决数据倾斜?

MapReduce过程?

设计角度

---

建索引，建视图

sql---------------

充分利用索引，避免全表扫描

22.hive优化?

充分利用临时表,重复利用?

23.几道sql问题，联表查，exists，groupby保留全部字段?

24.不用hadoop

自己设计方案

实现TB级别数据量，TOP10问题，数据倾斜问题怎么解决?

25.hive原理，优化？

26.hive数据倾斜优化？

27.hive执行sql时的工作流程?

28.hive的默认分隔符?

29.hiverank（以某个字段分组，在组内排序，找出各组的TOP

k）?

30.问到了hive的优化？

31.怎么解决HIVE产生的数据倾斜问题?

32.问我Hive具体怎么用的?

33.HIVE中UDFUDAFUDTF的区别。

数据倾斜问题怎么解决？

表连接有几种类型？

34.HIVE怎么优化？

HIVE常用的几个配置是哪些？

35.Hive什么时候不能用combiner？

36.添加自定义UDF的时候都是临时的，怎么永久添加？

37.Hive动态分区?

38.写一个表的查询的sql语句，具体忘了，是个嵌套的SQL?

关于Hbase的面试题：

------（ok）

1.hbase我说没用过?

2.hbase有哪些组件，以及hbase里面的buffer？

3.hbaserowkey的设计？

4.hbase优化？

5.hbase数据插入优化？

6.hbase如何优化的？

7.hbase的writebuffer？

8.hbase对于复杂表如何设计rowkey?

9.Hbase执行过程？

10.Hbase优化？

11.关系型数据库是怎么把数据导出到Hbase里的?

12.hbase优化问题?

13.hbase的性能优化?

14.Hbase解决了什么问题?

15.Hbase的相对多些，基础和优化?

16.hbase最主要的特点是什么？

17.hbase部署?

18.和hbase同样功能的分布式数据库了解多少?

19.HBase的存储原理?

20.说说hbase的API都有哪些filter?

21.问我majorcompack设置为手动会出现什么问题？

22.mongoDB和hbase的区别？

23.Hbase的表设计还有优化?

关于Storm的面试题：

------------（ok）

1.说说storm？

就讲Storm的各个方面：

Storm是什么？

架构中为什么要选择它而不选择SparkStreaming？

Storm的编程模型？

Storm的架构

设计和Storm的容错机制？

我在项目中是怎么使用Storm的？

2.strom窗口：

五分钟统计一次。

3.storm原理?

storm如何保证不丢失数据?

Storm的编程模型:

Topology（DAG有向无环图的实现）：

spolt，bolt，构建topology，storm的并发机制及数据分发策略

Storm保证数据不丢失是Storm的有保证消息的完整（tuple树）处理的机制：

acker机制（ack的实现原理:

通过tuple的id的亦或运算来判断消息是否被完整计算实现,所以在spolt发送tuple的时候需要设置消息的id），但是这样会导致消息的重复计算，storm提供了拓扑性的事务（分阶段来实现事务的强有序和并发性）来保证消息有且仅被处理一次

4.storm流处理数据丢失？

一般不会丢失，Storm大多的bolt都实现了acker机制，保证数据不会被丢失，当数据丢失的时候，acker机制会回调ack方法和fail方法重发tuple。

5.Storm的原理?

---同3

编程模型

6.sparkstreaming和storm的区别，可以相互取代吗？

纯流式的实时的计算框架和微批处理的框架

spark家族一栈式的大数据处理框架，storm显得很专业

事务支持方面：

Storm事务支持的比较好，SparkStreaming差点

实现的功能方面：

SparkStreaming提供丰富的算子可以实现丰富的功能，Storm一般做比较简单的统计

7.说说你用过的storm?

---同1

8.storm的设计和日志的格式？

Storm的设计主要是对pv，uv等简单的统计的topology的构建，还有其并发的设置

日志的格式：

storm整合kafka？

Storm的Spout应该是源源不断的取数据，不能间断。

那么，很显然，消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择

由于storm-kafka已经实现了spout，我们直接用就可以

关于Zookeeper的面试题：

1.问了Zookeeper的工作原理。

过半机制，还有节点为什么是单数台？

2.zookeeper熟悉不？

3.zookeeper有哪些组件？

4.zookeeper的机制等，各组件的原理？

5.Zookeeper到底是干嘛的?

6.zookeeper的二次开发？

7.Zookeeper实现分布式锁用哪个jar包，以及写mr、spark作业程序具体应该用哪些包？

关于Kafka的面试题：

------

1.怎么保证kafka传过来的数据之正确的处理一次？

-----结合Storm事务来思考

2.flume和kafka什么区别？

3.kafka为什么要分多个partition？

4.kafka和sparkStreaming的整合？

-------重要-----不是很清楚，看kafka和SparkStreaming整合

5.怎么保证数据kafka里的数据安全？

（丢失）----磁盘存储，数据使用完后的删除的策略

6.kafka的key为null可以吗？

7.怎么往kafka集群写数据的？

------KafkaSink（使用的是Flume）或者KafKaSpout（如果使用的是Storm）

8.kafka用到的什么设计模式？

----发布订阅模式

9.kafka的原理?

如果生产数据是消费数据100倍，该如何处理?

10.flume与kafka区别?

11.有很多消息队列技术，为什么选择kafka?

----kafka的特性方面回答

12.kafka为什么可以支持那么大的吞吐量，怎么实现的，我直接说不知道。

----顺序读写，partition的分布式存储

关于Flume的面试题：

-------ok

1.flume什么时候用？

----分布式的数据收集

2.Flume处理日志重复问题?

3.flume监控问题

自身支持ganlia集群监控

4.Flume是如何拿数据的?

----flumesource

5.flum是如何导入数据到kafka?

具体?

KafkaSinkchannnel里面配置相应的topic

6.flume的实时采集数据和定时采集数据的方法？

tail-f；

Spooling

7.主要问Flume如何使用？

整合Flume+Storm和整合Flume+Kafka

关于Sqoop的面试题：

1.sqoop导数据是否了解sqoop？

了解，通过sqoopexport/import来实现

2.sqoop底层（我说不参与）？

了解，通过MR来实现的数据的导入导出

关于Spark的面试题：

1.spark优化?

答案：

架构参数优化：

shuffle，内存管理，推测执行，数据本地化：

HDFS的DataNode和SparkWorker共享一台机器

代码层面：

并行度--调整finalRDDpartition；

缓存机制的选择--CPU使用和内存使用的权衡：

checkpoint；

算子的使用和选择-groupbykey，mapvsmappartitions等，使用广播变量，累加器等；

序列化：

压缩，存储格式的选择

数据倾斜：

重写partition规则，抽样看数据的分布，结合具体的业务

架构的选择：

统一使用yarn结合hadoop，还是使用自己的standalone计算框架

1.spark的工作流程？

Spark的资源调度和任务调度+pipeline的计算模型

2.spark源码-DAG-Task--任务调度部分？

首先清楚spark是粗粒度的资源申请，任务调度：

sparkContext-DAGSheduler切分stage，TaskSheduler发送任务到申请好的Executor中的线程池执行

3.submit相关配置？

一般指定多大的资源？

submit--master/yarn--class--deploymodelclster/client

--Executorcores默认一个Executor1core，lg内存，1G，2--3个task

4.写完spark程序如何知道多少个task？

（即资源如何调配的）

看你的并行度的设置，block的数量，webUI

5.spark和mr性能是不是差别很多？

一般来说Spark比Hadoop快：

原因：

（1）：

MR有大量的磁盘io,溢写等，Spark则可以基于内存缓存机制计算

（2）：

MR和Spark的资源申请的方式：

粗粒度和细粒度的区别

（3）：

DAG计算引擎中的pipeline计算模型，MR就是MapReduce模型

（4）：

算子的丰富程度

使用场景：

大于pb级别的数据量一般选择MR

生态的区别：

Spark一站式的大数据处理平台，Hadoop还需要和其他的整合，升级，版本兼容等一堆问题，CDH版本如果需要更多的功能需要考虑成本的问题

6.spark任务yarn执行流程（client）?

7.spark运行在Yarn上流程（cluster）?

使用场景的区别：

基于yarn的好处，兼容hadoop，一套计算框架，能好的维护

8.spark调优？

----同问题1

9.shuffle主要介绍下？

shuffle发生？

---shuffle的过程---shuffle实现的选择---shuffle的优化

10.宽窄依赖？

看父RDD和子RR的关系，除了父RDD和子RDD一对多外，其他的都是窄依赖

11.shuffle怎么落地的？

shuffle的实现类型：

hashShuffle还是sortShuffle？

Shuffle数据落地？

12.SparkRDD是什么?

弹性分布式数据集---源码的五大特性-----RDD的计算模型：

pipeline计算模型

13.Spark算子?

map，flatmap，filter，foreach，first，take（n）,join,cogroup,reducebykey,sortBy,

distinct,mapPartition等等

14.spark优势？

一栈式大数据处理平台。

灵活的编程模型，相比MR

速度快

15.sparkonyarn

和mapreduce

中yarn有什么区别？

没什么区别，yarn就是一个资源管理框架

16.spark原理？

pipeline计算模型+任务调度和资源调度

17.spark运行的job在哪里可以看到？

Driver进程所在的节点；

webUI

18.如何监测集群中cpu，内存的使用情况，比如说：

有一个spark特别占资源，特别慢，怎么排查这种情况?

SparkWEBUI；

集群监控工具，找到taskid

19.spark为什么比hadoop快？

同题5

20.rdd的处理过程是什么，不要说概念?

画切分Stage，pipeline的计算模型的图

21.请说出你在spark中的优化方案？

同1

22.SparkSQL和Spark架构，运行流程图，Spark运行的两种方式。

常用的Spark函数有哪些？

spark架构图+运行流程图（资源的调度+任务调度）+Sparkclient和SparkCluster+transformation算子+action算子+持久化操作算子

24：

GroupByKey的作用？

根据key分组

23.Spark了解多少？

Spark生态-架构-运行模式+任务调度和资源调度

关于SparkSql的面试题：

1.sparkSQL介绍下（RDD、DataFrame）

关于SparkStreaming的面试题：

1.sparkStreaming怎么跟kafka对接的,数据拉取到哪里？

2.日流量10G没必要sparkstreaming？

3.sparkstreaming例子。

问维护做过没？

说sparkStreaming的维护成本很高。

我告诉他是的，比如说可能会丢数据，wal会慢。

这一块儿不是我维护。

没细问。

4.sparkstreming调优?

5.sparkstreaming原理？

6.sparkStreaming介绍下？

和Storm比较？

7.sparkStreaming某一个task挂了，怎么解决的?

8.sparkstreaming?

spark的相关算法，比如推荐系统需要什么算法?

9.parkstreaming工作流程？

10.sparkstreanming没有问题，但无法计算，

展开阅读全文