数据分析大数据岗位常见面试问题.docx

上传人:b****2 文档编号:1918549 上传时间:2022-10-25 格式:DOCX 页数:17 大小:418.16KB
下载 相关 举报
数据分析大数据岗位常见面试问题.docx_第1页
第1页 / 共17页
数据分析大数据岗位常见面试问题.docx_第2页
第2页 / 共17页
数据分析大数据岗位常见面试问题.docx_第3页
第3页 / 共17页
数据分析大数据岗位常见面试问题.docx_第4页
第4页 / 共17页
数据分析大数据岗位常见面试问题.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

数据分析大数据岗位常见面试问题.docx

《数据分析大数据岗位常见面试问题.docx》由会员分享,可在线阅读,更多相关《数据分析大数据岗位常见面试问题.docx(17页珍藏版)》请在冰豆网上搜索。

数据分析大数据岗位常见面试问题.docx

数据分析大数据岗位常见面试问题

偏统计理论知识

1.扑克牌54张,平均分成2份,求这2份都有2张A的概率。

C(4,2)*C(50,25)*C(2,2)*C(25,25)/C(54,27)*(C27,27)=(27*13)/(53*17)

2.男生点击率增加,女生点击率增加,总体为何减少?

∙因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。

如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。

现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。

即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。

3.参数估计

用样本统计量去估计总体的参数

4.矩估计和极大似然估计

矩估计法:

矩估计法的理论依据是大数定律。

矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩。

矩的理解:

在数理统计学中有一类数字特征称为矩。

首先要明确的是我们求得是函数的最大值,因为log是单调递增的,加上log后并不影响的最大值求解。

为何导数为0就是最大值:

就是我们目前所知的概率分布函数一般属于指数分布族(exponentialfamily),例如正态分布,泊松分布,伯努利分布等。

所以大部分情况下这些条件是满足的。

但肯定存在那种不符合的情况,只是我们一般比较少遇到。

极大似然估计总结

似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即lnL(θ),因为ln函数不会改变L的单调性.然后对lnL(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理嘛,因为似然估计是已知结果去求未知参数,对于已经发生的结果(一般是一系列的样本值),既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.这个有点后验的意思

5.假设检验

参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。

参数估计讨论的是用样本估计总体参数的方法,总体参数μ在估计前是未知的。

而在假设检验中,则是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

6.协方差与相关系数的区别和联系。

协方差:

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。

如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

相关系数:

研究变量之间线性相关程度的量,取值范围是[-1,1]。

相关系数也可以看成协方差:

一种剔除了两个变量量纲影响、标准化后的特殊协方差。

7.中心极限定理

∙中心极限定理定义:

(1)任何一个样本的平均值将会约等于其所在总体的平均值。

(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。

∙中心极限定理作用:

(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。

(2)根据总体的平均值和标准差,判断某个样本是否属于总体。

8.PCA为什么要中心化?

PCA的主成分是什么?

∙因为要算协方差。

单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。

∙在统计学中,主成分分析(PCA)是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。

主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分,忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是,这也不是一定的,要视具体应用而定。

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。

最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Va(rF1)越大,表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

9.偏差和方差

∙  1)偏差:

预测值与真实值差异,偏差大表示欠拟合。

然后引申到计算方式和解决方法

∙  2)方差:

预测值与均值的波动,方差大表示过拟合。

然后引申到计算方式和解决方法

10.观测宇宙中单位体积内星球的个数,属于什么分布:

∙A学生分布:

小样本量下对正态分布的均值进行估计

∙B泊松分布:

某段时间内,事件发生的概率。

也可以认为是n很大p很小的二项分布。

∙C正态分布:

多组(多次独立重复实验下的随机变量的均值)

∙D二项分布:

多次抛硬币的独立重复试验

∙把体积看成时间,那么本题符合B泊松分布。

11.贝叶斯定理

偏机器学习、数据挖掘

1.给你一个无序数组,怎么才能合理采样?

∙无序数组是相对有序数组而言的,无序数组并不等于随机,我们要做的是将无序数组洗牌,得到随机排列。

对于无序数组,n个元素能产生n!

种排序。

如果洗牌算法能产生n!

种不同的结果,并且这些结果产生的概率相等,那么这个洗牌算法是正确的。

方法:

foriinrange(len(n)):

swap(arr[i],arr[random(i,n)])

这段代码是对随机确定数组第一位的值,然后递归对剩余的数组进行相同的过程,可以产生n!

中等可能的排序情况。

2.常用的Python库有哪些?

∙numpy:

矩阵运算

∙sklearn:

常用机器学习和数据挖掘工具库

∙scipy:

基于numpy做高效的数学计算,如积分、线性代数、稀疏矩阵等

∙pandas:

将数据用表的形式进行操作

∙matplotlib:

数据可视化工具

∙seaborn:

数据可视化工具

∙keras/tensorflow/theano:

深度学习工具包

∙NLTK:

自然语言处理工具包

∙beautifulsoap:

网页文档解析工具

4.K-Means算法原理及改进,遇到异常值怎么办?

评估算法的指标有哪些?

∙k-means原理:

在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。

∙改进:

a.kmeans++:

初始随机点选择尽可能远,避免陷入局部解。

方法是n+1个中心点选择时,对于离前n个点选择到的概率更大

b.minibatchkmeans:

每次只用一个子集做重入类并找到类心(提高训练速度)

c.ISODATA:

对于难以确定k的时候,使用该方法。

思路是当类下的样本小时,剔除;类下样本数量多时,拆分

d.kernelkmeans:

kmeans用欧氏距离计算相似度,也可以使用kernel映射到高维空间再聚类

∙遇到异常值:

a.有条件的话使用密度聚类或者一些软聚类的方式先聚类,剔除异常值。

不过本来用kmeans就是为了快,这么做有些南辕北辙了

b.局部异常因子LOF:

如果点p的密度明显小于其邻域点的密度,那么点p可能是异常值

c.多元高斯分布异常点检测

d.使用PCA或自动编码机进行异常点检测:

使用降维后的维度作为新的特征空间,其降维结果可以认为剔除了异常值的影响(因为过程是保留使投影后方差最大的投影方向)

e.isolationforest:

基本思路是建立树模型,一个节点所在的树深度越低,说明将其从样本空间划分出去越容易,因此越可能是异常值。

是一种无监督的方法,随机选择n个sumsampe,随机选择一个特征一个值。

f.winsorize:

对于简单的,可以对单一维度做上下截取

∙评估聚类算法的指标:

a.外部法(基于有标注):

Jaccard系数、纯度

b.内部法(无标注):

内平方和WSS和外平方和BSS

c.此外还要考虑到算法的时间空间复杂度、聚类稳定性等

5.数据预处理过程有哪些?

∙缺失值处理:

删、插

∙异常值处理

∙特征转换:

时间特征sin化表示

∙标准化:

最大最小标准化、z标准化等

∙归一化:

对于文本或评分特征,不同样本之间可能有整体上的差异,如a文本共20个词,b文本30000个词,b文本中各个维度上的频次都很可能远远高于a文本

∙离散化:

onehot、分箱等

6.随机森林原理?

有哪些随机方法?

∙随机森林原理:

通过构造多个决策树,做bagging以提高泛化能力

∙subsample(有放回抽样)、subfeature、低维空间投影

7.PCA(主成分分析)

∙主成分分析是一种降维的方法

∙思想是将样本从原来的特征空间转化到新的特征空间,并且样本在新特征空间坐标轴上的投影方差尽可能大,这样就能涵盖样本最主要的信息

∙方法:

a.特征归一化

b.求样本特征的协方差矩阵A

c.求A的特征值和特征向量,即AX=λX

d.将特征值从大到小排列,选择topK,对应的特征向量就是新的坐标轴(采用最大方差理论解释

∙PCA也可以看成激活函数为线性函数的自动编码机

8.hive?

spark?

sql?

nlp?

∙Hive允许使用类SQL语句在hadoop集群上进行读、写、管理等操作

∙Spark是一种与hadoop相似的开源集群计算环境,将数据集缓存在分布式内存中的计算平台,每轮迭代不需要读取磁盘的IO操作,从而答复降低了单轮迭代时间

9.Linux基本命令

∙目录操作:

ls、cd、mkdir、find、locate、whereis等

∙文件操作:

mv、cp、rm、touch、cat、more、less

∙权限操作:

chmod+rwx421

∙账号操作:

su、whoami、last、who、w、id、groups等

∙查看系统:

history、top

∙关机重启:

shutdown、reboot

∙vim操作:

i、w、w!

、q、q!

、wq等

12.sql中null与‘’的区别。

∙null表示空,用isnull判断

∙''表示空字符串,用=''判断

14.SQL的数据类型。

∙字符串:

char、varchar、text

∙二进制串:

binary、varbinary

∙布尔类型:

boolean

∙数值类型:

integer、smallint、bigint、decimal、numeric、float、real、double

∙时间类型:

date、time、timestamp、interval

15.分类算法性能的主要评价指标。

∙查准率、查全率、F1

∙AUC

16.数据缺失怎么办

∙删除样本或删除字段

∙用中位数、平均值、众数等填充

∙插补:

同类

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1