数据分析大数据岗位常见面试问题.docx

资源描述

数据分析大数据岗位常见面试问题.docx

《数据分析大数据岗位常见面试问题.docx》由会员分享，可在线阅读，更多相关《数据分析大数据岗位常见面试问题.docx（17页珍藏版）》请在冰豆网上搜索。

数据分析大数据岗位常见面试问题.docx

数据分析大数据岗位常见面试问题

偏统计理论知识

1.扑克牌54张，平均分成2份，求这2份都有2张A的概率。

C（4,2）*C（50,25）*C（2,2）*C（25,25）/C（54,27）*（C27,27）=（27*13）/（53*17）

2.男生点击率增加，女生点击率增加，总体为何减少?

∙因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。

如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120。

现在男性100人，点击6人；女性20人，点击20人，总点击率26/120。

即那个段子“A系中智商最低的人去读B，同时提高了A系和B系的平均智商。

”

3.参数估计

用样本统计量去估计总体的参数

4.矩估计和极大似然估计

矩估计法：

矩估计法的理论依据是大数定律。

矩估计是基于一种简单的“替换”思想，即用样本矩估计总体矩。

矩的理解：

在数理统计学中有一类数字特征称为矩。

首先要明确的是我们求得是函数的最大值，因为log是单调递增的，加上log后并不影响的最大值求解。

为何导数为0就是最大值：

就是我们目前所知的概率分布函数一般属于指数分布族（exponentialfamily），例如正态分布，泊松分布，伯努利分布等。

所以大部分情况下这些条件是满足的。

但肯定存在那种不符合的情况，只是我们一般比较少遇到。

极大似然估计总结

似然函数直接求导一般不太好求,一般得到似然函数L（θ）之后,都是先求它的对数,即lnL（θ）,因为ln函数不会改变L的单调性.然后对lnL（θ）求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理嘛,因为似然估计是已知结果去求未知参数,对于已经发生的结果（一般是一系列的样本值）,既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.这个有点后验的意思

5.假设检验

参数估计和假设检验是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，但推断的角度不同。

参数估计讨论的是用样本估计总体参数的方法，总体参数μ在估计前是未知的。

而在假设检验中，则是先对μ的值提出一个假设，然后利用样本信息去检验这个假设是否成立。

6.协方差与相关系数的区别和联系。

协方差：

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。

如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。