BAT机器学习面试1000题系列文档格式.docx

资源描述

BAT机器学习面试1000题系列文档格式.docx

《BAT机器学习面试1000题系列文档格式.docx》由会员分享，可在线阅读，更多相关《BAT机器学习面试1000题系列文档格式.docx（20页珍藏版）》请在冰豆网上搜索。

BAT机器学习面试1000题系列文档格式.docx

225.用贝叶斯机率讲明Dropout的原理。

226.为什么很多做人脸的Paper会最后参加一个LocalConnectedConv

许韩

以FaceBookDeepFace为例

DeepFace先进展了两次全卷积一次池化提取了低层次的边缘纹理等特征。

后接了3个Local-Conv层这里是用Local-Conv的原因是人脸在不同的区域存在不同的特征眼睛鼻子嘴的分布位置相对固定当不存在全局的部分特征分布时Local-Conv更合适特征的提取。

227.什么事共线性,跟过拟合有什么关联?

抽象猴

共线性多变量线性回归中变量之间由于存在高度相关关系而使回归估计不准确。

共线性会造成冗余导致过拟合。

解决方法排除变量的相关性参加权重正那么。

228.为什么网络够深（Neurons足够多）的时候总是可以避开较差LocalOptima

参见

229.机器学习中的正负样本。

在分类问题中这个问题相对好理解一点比方人脸识别中的例子正样本很好理解就是人脸的图片负样本的选取就与问题场景相关详细而言假如你要进展教室中学生的人脸识别那么负样本就是教室的窗子、墙等等也就是讲不能是与你要研究的问题毫不相关的乱七八糟的场景图片这样的负样本并没有意义。

负样本可以根据背景生成有时候不需要寻找额外的负样本。

一般3000-10000的正样本需要5000,000-100,000,000的负样本来学习在互金领域一般在入模前将正负比例通过采样的方法调整到3:

1-5:

1。

230.机器学习中有哪些特征选择的工程方法

数据以及特征决定了机器学习的上限而模型以及算法只是逼近这个上限而已。

1.计算每一个特征与响应变量的相关性工程上常用的手段有计算皮尔逊系数以及互信息系数皮尔逊系数只能衡量线性相关性而互信息系数可以很好地度量各种相关性但是计算相对复杂一些好在很多toolkit里边都包含了这个工具如sklearn的MINE得到相关性之后就可以排序选择特征了2.构建单个特征的模型通过模型的准确性为特征排序借此来选择特征3.通过L1正那么项来选择特征L1正那么方法具有稀疏解的特性因此天然具备特征选择的特性但是要注意L1没有选到的特征不代表不重要原因是两个具有高相关性的特征可能只保存了一个假如要确定哪个特征重要应再通过L2正那么方法穿插检验*4.训练可以对特征打分的预选模型RandomForest以及LogisticRegression等都能对模型的特征打分通过打分获得相关性后再训练最终模型5.通过特征组合后再来选择特征如对用户id以及用户特征最组合来获得较大的特征集再来选择特征这种做法在推荐系统以及广告系统中比拟常见这也是所谓亿级甚至十亿级特征的主要来源原因是用户数据比拟稀疏组合特征可以同时兼顾全局模型以及个性化模型这个问题有时机可以展开讲。

6.通过深度学习来进展特征选择目前这种手段正在随着深度学习的流行而成为一种手段尤其是在计算机视觉领域原因是深度学习具有自动学习特征的才能这也是深度学习又叫unsupervisedfeaturelearning的原因。

从深度学习模型中选择某一神经层的特征后就可以用来进展最终目的模型的训练了。

231.在一个n维的空间中最好的检测outlier（离群点）的方法是C

A.作正态分布概率图B.作盒形图C.马氏间隔D.作散点图

答案C

马氏间隔是基于卡方分布的度量多元outlier离群点的统计方法。

更多请详见。

232.对数几率回归logisticsregression以及一般回归分析有什么区别D

A.对数几率回归是设计用来预测事件可能性的B.对数几率回归可以用来度量模型拟合程度C.对数几率回归可以用来估计回归系数D.以上所有

答案DA:

对数几率回归其实是设计用来解决分类问题的B:

对数几率回归可以用来检验模型对数据的拟合度C:

固然对数几率回归是用来解决分类问题的但是模型建立好后就可以根据独立的特征估计相关的回归系数。

就我认为这只是估计回归系数不能直接用来做回归模型。

233.bootstrap数据是什么意思提示考“bootstrap〞以及“boosting〞区别C

A.有放回地从总共M个特征中抽样m个特征B.无放回地从总共M个特征中抽样m个特征C.有放回地从总共N个样本中抽样n个样本D.无放回地从总共N个样本中抽样n个样本

234.“过拟合〞只在监视学习中出现在非监视学习中没有〞过拟合〞这是B

A.对的B.错的答案B

我们可以评估无监视学习方法通过无监视学习的指标如我们可以评估聚类模型通过调整兰德系数adjustedrandscore。

235.对于k折穿插验证,以下对k的讲法正确的选项是:

A.k越大,不一定越好,选择大的k会加大评估时间B.选择更大的k,就会有更小的bias（因为训练集更加接近总数据集）C.在选择k时,要最小化数据集之间的方差D.以上所有

答案D

k越大,bias越小,训练时间越长.在训练时,也要考虑数据集间方差差异不大的原那么.比方,对于二类分类问题,使用2-折穿插验证,假如测试集里的数据都是A类的,而训练集中数据都是B类的,显然,测试效果会很差。

236.回归模型中存在多重共线性,你怎样解决这个问题

1.去除这两个共线性变量2.我们可以先去除一个共线性变量3.计算VIF（方差膨胀因子）,采取相应措施4.为了防止损失信息,我们可以使用一些正那么化方法,比方,岭回归以及lasso回归.以下哪些是对的D

A.1B.2C.2以及3D.2,3以及4

答案:

解决多重公线性,可以使用相关矩阵去去除相关性高于75%的变量（有主观成分）.可以以VIF,假如VIF值4讲明相关性不是很高,VIF值10讲明相关性较高.我们可以以用岭回归以及lasso回归的带有惩罚正那么项的方法.我们可以以在一些变量上加随机噪声,使得变量之间变得不同,但是这个方法要小心使用,可能会影响预测效果。

237.模型的高bias是什么意思,我们怎样降低它?

A.在特征空间中减少特征B.在特征空间中增加特征C.增加数据点D.B以及CE.以上所有

bias太高讲明模型太简单了,数据维数不够,无法准确预测数据,所以,升维吧!

238.训练决策树模型,属性节点的分裂,具有最大信息增益的图是下列图的哪一个:

A.OutlookB.HumidityC.WindyD.Temperature

信息增益,增加平均子集纯度。

239.对于信息增益,决策树分裂节点,下面讲法正确的选项是:

1.纯度高的节点需要更多的信息去区分2.信息增益可以用〞1比特-熵〞获得3.假如选择一个属性具有许多归类值,那么这个信息增益是有偏向的

A.1B.2C.2以及3D.所有以上

240.假如SVM模型欠拟合,以下方法哪些可以改良模型:

A.增大惩罚参数C的值B.减小惩罚参数C的值C.减小核系数（gamma参数）

答案A

假如SVM模型欠拟合,我们可以调高参数C的值,使得模型复杂度上升。

241.下列图是同一个SVM模型,但是使用了不同的径向基核函数的gamma参数,依次是g1,g2,g3,下面大小比拟正确的选项是:

A.g1g2g3B.g1g2g3C.g1g2g3D.g1g2g3E.g1g2g3

242.假设我们要解决一个二类分类问题,我们已经建立好了模型,输出是0或者1,初始时设阈值为0.5,超过0.5概率估计,就判别为1,否那么就判别为0;

假如我们如今用另一个大于0.5的阈值,那么如今关于模型讲法,正确的选项是:

1.模型分类的召回率会降低或者不变2.模型分类的召回率会升高3.模型分类准确率会升高或者不变4.模型分类准确率会降低

A.1B.2C.1以及3D.2以及4E.以上都不是

243.〞点击率问题〞是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,如今我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:

A.模型预测准确率已经很高了,我们不需要做什么了B.模型预测准确率不高,我们需要做点什么改良模型C.无法下结论D.以上都不对

99%的预测准确率可能讲明,你预测的没有点进去的人很准确（因为有99%的人是不会点进去的,这很好预测）。

不能讲明你的模型对点进去的人预测准确,所以,对于这样的非平衡数据集,我们要把注意力放在小局部的数据上,即那些点击进去的人。

244.使用k1的KNN算法,下列图二类分类问题,“〞以及“o〞分别代表两个类,那么,用仅拿出一个测试样本的穿插验证方法,穿插验证的错误率是多少:

A.0%B.100%C.0%到100%D.以上都不是

KNN算法就是,在样本周围看k个样本,其中大多数样本的分类是A类,我们就把这个样本分成A类.显然,k1的KNN在上图不是一个好选择,分类的错误率始终是100%。

245.我们想在大数据集上训练决策树,为了使用较少时间,我们可以:

A.增加树的深度B.增加学习率（learningrate）C.减少树的深度D.减少树的数量

A.增加树的深度,会导致所有节点不断分裂,直到叶子节点是纯的为止.所以,增加深度,会延长训练时间。

B.决策树没有学习率参数可以调。

（不像集成学习以及其它有步长的学习方法）D.决策树只有一棵树,不是随机森林。

246.对于神经网络的讲法,下面正确的选项是:

A1.增加神经网络层数,可能会增加测试数据集的分类错误率2.减少神经网络层数,总是能减小测试数据集的分类错误率3.增加神经网络层数,总是能减小训练数据集的分类错误率

A.1B.1以及3C.1以及2D.2

深度神经网络的成功,已经证明,增加神经网络层数,可以增加模型范化才能,即训练数据集以及测试数据集都表现得更好.但更多的层数,也不一定能保证有更好的表现。

所以,不能绝对地讲层数多的好坏,只能选A。

247.假设我们使用非线性可分的SVM目的函数作为最优化对象,我们怎么保证模型线性可分C

A.设C1B.设C0C.设C无穷大D.以上都不对

C无穷大保证了所有的线性不可分都是可以忍受的。

248.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,可以以继续分类:

A.正确B.错误

ASVM模型中,真正影响决策边界的是支持向量。

249.以下哪些算法,可以用神经网络去构造:

B1.KNN2.线性回归3.对数几率回归

A.1以及2B.2以及3C.1,2以及3D.以上都不是

B1.KNN算法不需要训练参数,而所有神经网络都需要训练参数,因此神经网络帮不上忙2.最简单的神经网络,感悟器,其实就是线性回归的训练3.我们可以用一层的神经网络构造对数几率回归

250.请选择下面可以应用隐马尔科夫（HMM）模型的选项:

A.基因序列数据集B.电影阅读数据集C.股票市场数据集D.所有以上

D只要是以及时间序列问题有关的,都可以试试HMM。

251.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练:

A.我们随机抽取一些样本,在这些少量样本之上训练B.我们可以试用在线机器学习算法C.我们应用PCA算法降维,减少特征数D.B以及CE.A以及BF.以上所有

252.我们想要减少数据集中的特征数,即降维.选择以下合适的方案:

D1.使用前向特征选择方法2.使用后向特征排除方法3.我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用穿插验证看看测试集上的表现.假如表现比原来还要好,我们可以去除这个特征4.查看相关性表,去除相关性最高的一些特征

A.1以及2B.2,3以及4C.1,2以及4D.All

D1.前向特征选择方法以及后向特征排除方法是我们特征选择的常用方法2.假如前向特征选择方法以及后向特征排除方法在大数据上不适用,可以用这里第三种方法3.用相关性的度量去删除多余特征,也是一个好方法

所以D是正确的。

253.对于随机森林以及GradientBoostingTrees,下面讲法正确的选项是:

A1.在随机森林的单个树中,树以及树之间是有依赖的,而GradientBoostingTrees中的单个树之间是没有依赖的2.这两个模型都使用随机特征子集,来生成许多单个的树3.我们可以并行地生成GradientBoostingTrees单个树,因为它们之间是没有依赖的,GradientBoostingTrees训练模型的表现总是比随机森林好

A.2B.1and2C.1,3and4D.2and4

A1.随机森林是基于bagging的,而GradientBoostingtrees是基于boosting的,所有讲反了,在随机森林的单个树中,树以及树之间是没有依赖的,而GradientBoostingTrees中的单个树之间是有依赖关系。

2.这两个模型都使用随机特征子集,来生成许多单个的树。

所以A是正确的。

254.对于PCA（主成分分析）转化过的特征,朴素贝叶斯的〞不依赖假设〞总是成立,因为所有主要成分是正交的,这个讲法是:

A.正确的B.错误的

B这个讲法是错误的。

首先“不依赖〞以及“不相关〞是两回事其次,转化过的特征,可以能是相关的。

255.对于PCA讲法正确的选项是:

A1.我们必须在使用PCA前标准化数据2.我们应该选择使得模型有最大variance的主成分3.我们应该选择使得模型有最小variance的主成分4.我们可以使用PCA在低维度上做数据可视化

A.1,2and4B.2and4C.3and4D.1and3E.1,3and4

A1PCA对数据尺度很敏感,打个比方,假如单位是从km变为cm,这样的数据尺度对PCA最后的结果可能很有影响（从不怎么重要的成分变为很重要的成分）2我们总是应该选择使得模型有最大variance的主成分3有时在低维度上左图是需要PCA的降维帮助的

256.对于下列图,最好的主成分选择是多少?

A.7B.30C.35D.不确定

B主成分选择使variance越大越好在这个前提下主成分越少越好。

257.数据科学家可能会同时使用多个算法模型进展预测并且最后把这些算法的结果集成起来进展最后的预测集成学习以下对集成学习讲法正确的选项是:

A.单个模型之间有高相关性B.单个模型之间有低相关性C.在集成学习中使用“平均权重〞而不是“投票〞会比拟好D.单个模型都是用的一个算法

258.在有监视学习中我们怎样使用聚类方法B1.我们可以先创立聚类类别然后在每个类别上用监视学习分别进展学习2.我们可以使用聚类“类别id〞作为一个新的特征项然后再用监视学习分别进展学习3.在进展监视学习之前我们不能新建聚类类别4.我们不可以使用聚类“类别id〞作为一个新的特征项然后再用监视学习分别进展学习

A.2以及4B.1以及2C.3以及4D.1以及3

B我们可以为每个聚类构建不同的模型进步预测准确率“类别id〞作为一个特征项去训练可以有效地总结了数据特征。

所以B是正确的。

259.以下讲法正确的选项是:

C1.一个机器学习模型假如有较高准确率总是讲明这个分类器是好的2.假如增加模型复杂度那么模型的测试错误率总是会降低3.假如增加模型复杂度那么模型的训练错误率总是会降低4.我们不可以使用聚类“类别id〞作为一个新的特征项然后再用监视学习分别进展学习

A.1B.2C.3D.1and3

C考的是过拟合以及欠拟合的问题。

260.对应GradientBoostingtree算法以下讲法正确的选项是:

C1.当增加最小样本分裂个数我们可以抵抗过拟合2.当增加最小样本分裂个数会导致过拟合3.当我们减少训练单个学习器的样本个数我们可以降低variance4.当我们减少训练单个学习器的样本个数我们可以降低bias

A.2以及4B.2以及3C.1以及3D.1以及4

C最小样本分裂个数是用来控制“过拟合〞参数。

太高的值会导致“欠拟合〞这个参数应该用穿插验证来调节。

第二点是靠bias以及variance概念的。

261.以下哪个图是KNN算法的训练边界?

A）BB）AC）DD）CE）都不是

答案BKNN算法肯定不是线性的边界所以直的边界就不用考虑了。

另外这个算法是看周围最近的k个样本的分类用以确定分类所以边界一定是坑坑洼洼的。

262.假如一个训练好的模型在测试集上有100%的准确率这是不是意味着在一个新的数据集上也会有同样好的表现B

A.是的这讲明这个模型的范化才能已经足以支持新的数据集合了B.不对仍然后其他因素模型没有考虑到比方噪音数据

答案B没有一个模型是可以总是适应新的数据的。

我们不可能到达100%的准确率。

263.下面的穿插验证方法:

Bi.有放回的Bootstrap方法ii.留一个测试样本的穿插验证iii.5折穿插验证iv.重复两次的5折穿插验证当样本是1000时下面执行时间的顺序正确的选项是

A.iiiiiiivB.iiiviiiiC.iviiiiiiD.iiiiiivi

答案B

Bootstrap方法是传统的随机抽样验证一次的验证方法只需要训练1个模型所以时间最少。

留一个测试样本的穿插验证需要n次训练经过n是样本个数这里需要训练1000个模型。

5折穿插验证需要训练5个模型。

重复两次的5折穿插验证需要训练10个模型。

264.变量选择是用来选择最好的判别器子集假如要考虑模型效率我们应该做哪些变量选择的考虑:

C1.多个变量其实有一样的用途2.变量对于模型的解释有多大作用3.特征携带的信息4.穿插验证

A.1以及4B.1,2以及3C.1,3以及4D.以上所有

答案C注意这题的题眼是考虑模型效率所以不要考虑选项B

265.对于线性回归模型包括附加变量在内以下的可能正确的选项是:

D1.R-Squared以及AdjustedR-squared都是递增的2.R-Squared是常量的AdjustedR-squared是递增的3.R-Squared是递减的AdjustedR-squared也是递减的4.R-Squared是递减的AdjustedR-squared是递增的

A.1以及2B.1以及3C.2以及4D.

展开阅读全文