ImageVerifierCode 换一换
格式:DOCX , 页数:20 ,大小:39.41KB ,
资源ID:17805886      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/17805886.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(BAT机器学习面试1000题系列文档格式.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

BAT机器学习面试1000题系列文档格式.docx

1、 225.用贝叶斯机率讲明Dropout的原理。 226.为什么很多做人脸的Paper会最后参加一个Local Connected Conv 许韩 以FaceBook DeepFace 为例 DeepFace 先进展了两次全卷积 一次池化 提取了低层次的边缘 纹理等特征。后接了3个Local-Conv层 这里是用Local-Conv的原因是 人脸在不同的区域存在不同的特征 眼睛 鼻子 嘴的分布位置相对固定 当不存在全局的部分特征分布时 Local-Conv更合适特征的提取。 227.什么事共线性, 跟过拟合有什么关联? 抽象猴 共线性 多变量线性回归中 变量之间由于存在高度相关关系而使回归估计

2、不准确。 共线性会造成冗余 导致过拟合。 解决方法 排除变量的相关性 参加权重正那么。 228.为什么网络够深(Neurons 足够多)的时候 总是可以避开较差Local Optima 参见 229.机器学习中的正负样本。 在分类问题中 这个问题相对好理解一点 比方人脸识别中的例子 正样本很好理解 就是人脸的图片 负样本的选取就与问题场景相关 详细而言 假如你要进展教室中学生的人脸识别 那么负样本就是教室的窗子、墙等等 也就是讲 不能是与你要研究的问题毫不相关的乱七八糟的场景图片 这样的负样本并没有意义。负样本可以根据背景生成 有时候不需要寻找额外的负样本。一般3000-10000的正样本需要

3、5 000,000-100,000,000的负样本来学习 在互金领域一般在入模前将正负比例通过采样的方法调整到3:1-5:1。 230.机器学习中 有哪些特征选择的工程方法 数据以及特征决定了机器学习的上限 而模型以及算法只是逼近这个上限而已。 1.计算每一个特征与响应变量的相关性 工程上常用的手段有计算皮尔逊系数以及互信息系数 皮尔逊系数只能衡量线性相关性而互信息系数可以很好地度量各种相关性 但是计算相对复杂一些 好在很多toolkit里边都包含了这个工具 如sklearn的MINE 得到相关性之后就可以排序选择特征了 2.构建单个特征的模型 通过模型的准确性为特征排序 借此来选择特征 3.

4、通过L1正那么项来选择特征 L1正那么方法具有稀疏解的特性 因此天然具备特征选择的特性 但是要注意 L1没有选到的特征不代表不重要 原因是两个具有高相关性的特征可能只保存了一个 假如要确定哪个特征重要应再通过L2正那么方法穿插检验* 4.训练可以对特征打分的预选模型 RandomForest以及Logistic Regression等都能对模型的特征打分 通过打分获得相关性后再训练最终模型 5.通过特征组合后再来选择特征 如对用户id以及用户特征最组合来获得较大的特征集再来选择特征 这种做法在推荐系统以及广告系统中比拟常见 这也是所谓亿级甚至十亿级特征的主要来源 原因是用户数据比拟稀疏 组合特

5、征可以同时兼顾全局模型以及个性化模型 这个问题有时机可以展开讲。 6.通过深度学习来进展特征选择 目前这种手段正在随着深度学习的流行而成为一种手段 尤其是在计算机视觉领域 原因是深度学习具有自动学习特征的才能 这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进展最终目的模型的训练了。 231.在一个n维的空间中 最好的检测outlier(离群点)的方法是 C A. 作正态分布概率图 B. 作盒形图 C. 马氏间隔 D. 作散点图 答案 C 马氏间隔 是基于卡方分布的 度量多元outlier离群点的统计方法。更多

6、请详见 。 232.对数几率回归 logistics regression 以及一般回归分析有什么区别 D A. 对数几率回归是设计用来预测事件可能性的 B. 对数几率回归可以用来度量模型拟合程度 C. 对数几率回归可以用来估计回归系数 D. 以上所有 答案 D A: 对数几率回归其实是设计用来解决分类问题的 B: 对数几率回归可以用来检验模型对数据的拟合度 C: 固然对数几率回归是用来解决分类问题的 但是模型建立好后 就可以根据独立的特征 估计相关的回归系数。就我认为 这只是估计回归系数 不能直接用来做回归模型。 233.bootstrap数据是什么意思 提示 考“bootstrap以及“b

7、oosting区别 C A. 有放回地从总共M个特征中抽样m个特征 B. 无放回地从总共M个特征中抽样m个特征 C. 有放回地从总共N个样本中抽样n个样本 D. 无放回地从总共N个样本中抽样n个样本 234.“过拟合只在监视学习中出现 在非监视学习中 没有过拟合 这是 B A. 对的 B. 错的 答案 B 我们可以评估无监视学习方法通过无监视学习的指标 如 我们可以评估聚类模型通过调整兰德系数 adjusted rand score 。 235.对于k折穿插验证, 以下对k的讲法正确的选项是 : D A. k越大, 不一定越好, 选择大的k会加大评估时间 B. 选择更大的k, 就会有更小的bi

8、as (因为训练集更加接近总数据集) C. 在选择k时, 要最小化数据集之间的方差 D. 以上所有 答案 D k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差异不大的原那么. 比方, 对于二类分类问题, 使用2-折穿插验证, 假如测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差。 236.回归模型中存在多重共线性, 你怎样解决这个问题 1.去除这两个共线性变量 2.我们可以先去除一个共线性变量 3.计算VIF(方差膨胀因子), 采取相应措施 4.为了防止损失信息, 我们可以使用一些正那么化方法, 比方, 岭回归以及lasso回归. 以下

9、哪些是对的 D A. 1 B. 2 C. 2以及3 D. 2, 3以及4 答案: 解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 可以以VIF, 假如VIF值 4讲明相关性不是很高, VIF值 10讲明相关性较高. 我们可以以用 岭回归以及lasso回归的带有惩罚正那么项的方法. 我们可以以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果。 237.模型的高bias是什么意思, 我们怎样降低它 ? B A. 在特征空间中减少特征 B. 在特征空间中增加特征 C. 增加数据点 D. B以及C E. 以上所有 bias

10、太高讲明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 ! 238.训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下列图的哪一个: A A. Outlook B. Humidity C. Windy D. Temperature 信息增益, 增加平均子集纯度。 239.对于信息增益, 决策树分裂节点, 下面讲法正确的选项是: C 1.纯度高的节点需要更多的信息去区分 2.信息增益可以用1比特-熵获得 3.假如选择一个属性具有许多归类值, 那么这个信息增益是有偏向的 A. 1 B. 2 C. 2以及3 D. 所有以上 240.假如SVM模型欠拟合, 以下方法哪些可

11、以改良模型 : A. 增大惩罚参数C的值 B. 减小惩罚参数C的值 C. 减小核系数(gamma参数) 答案 A 假如SVM模型欠拟合, 我们可以调高参数C的值, 使得模型复杂度上升。 241.下列图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比拟正确的选项是 : A. g1 g2 g3 B. g1 g2 g3 C. g1 g2 g3 D. g1 g2 g3 E. g1 g2 g3 242.假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或者1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否那

12、么就判别为0 ; 假如我们如今用另一个大于0.5的阈值, 那么如今关于模型讲法, 正确的选项是 : 1.模型分类的召回率会降低或者不变 2.模型分类的召回率会升高 3.模型分类准确率会升高或者不变 4.模型分类准确率会降低 A. 1 B. 2 C.1以及3 D. 2以及4 E. 以上都不是 243.点击率问题是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 如今我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是 : A. 模型预测准确率已经很高了, 我们不需要做什么了 B. 模型预测准确率不高, 我

13、们需要做点什么改良模型 C. 无法下结论 D. 以上都不对 99%的预测准确率可能讲明, 你预测的没有点进去的人很准确 (因为有99%的人是不会点进去的, 这很好预测)。不能讲明你的模型对点进去的人预测准确, 所以, 对于这样的非平衡数据集, 我们要把注意力放在小局部的数据上, 即那些点击进去的人。 244.使用k 1的KNN算法, 下列图二类分类问题, “ 以及 “o 分别代表两个类, 那么, 用仅拿出一个测试样本的穿插验证方法, 穿插验证的错误率是多少 : A. 0% B. 100% C. 0% 到 100% D. 以上都不是 KNN算法就是, 在样本周围看k个样本, 其中大多数样本的分类

14、是A类, 我们就把这个样本分成A类. 显然, k 1 的KNN在上图不是一个好选择, 分类的错误率始终是100%。 245.我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 : A. 增加树的深度 B. 增加学习率 (learning rate) C. 减少树的深度 D. 减少树的数量 A.增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间。 B.决策树没有学习率参数可以调。(不像集成学习以及其它有步长的学习方法) D.决策树只有一棵树, 不是随机森林。 246.对于神经网络的讲法, 下面正确的选项是 : A 1.增加神经网络层数

15、, 可能会增加测试数据集的分类错误率 2.减少神经网络层数, 总是能减小测试数据集的分类错误率 3.增加神经网络层数, 总是能减小训练数据集的分类错误率 A. 1 B. 1 以及 3 C. 1 以及 2 D. 2 深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化才能, 即训练数据集以及测试数据集都表现得更好. 但更多的层数, 也不一定能保证有更好的表现。所以,不能绝对地讲层数多的好坏, 只能选A。 247.假设我们使用非线性可分的SVM目的函数作为最优化对象, 我们怎么保证模型线性可分 C A. 设C 1 B. 设C 0 C. 设C 无穷大 D. 以上都不对 C无穷大保证

16、了所有的线性不可分都是可以忍受的。 248.训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 可以以继续分类: A. 正确 B. 错误 A SVM模型中, 真正影响决策边界的是支持向量。 249.以下哪些算法, 可以用神经网络去构造: B 1.KNN 2.线性回归 3.对数几率回归 A. 1以及 2 B. 2 以及 3 C. 1, 2 以及 3 D. 以上都不是 B 1.KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙 2.最简单的神经网络, 感悟器, 其实就是线性回归的训练 3.我们可以用一层的神经网络构造对数几率回归 250.请选择下面可以应用隐马

17、尔科夫(HMM)模型的选项: A. 基因序列数据集 B. 电影阅读数据集 C. 股票市场数据集 D. 所有以上 D 只要是以及时间序列问题有关的 , 都可以试试HMM。 251.我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 : F A. 我们随机抽取一些样本, 在这些少量样本之上训练 B. 我们可以试用在线机器学习算法 C. 我们应用PCA算法降维, 减少特征数 D. B 以及 C E. A 以及 B F. 以上所有 252.我们想要减少数据集中的特征数, 即降维. 选择以下合适的方案 : D 1.使用前向特征选择方法 2.使用后向特征排除方法

18、 3.我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用穿插验证看看测试集上的表现. 假如表现比原来还要好, 我们可以去除这个特征 4.查看相关性表, 去除相关性最高的一些特征 A. 1 以及 2 B. 2, 3以及4 C. 1, 2以及4 D. All D 1.前向特征选择方法以及后向特征排除方法是我们特征选择的常用方法 2.假如前向特征选择方法以及后向特征排除方法在大数据上不适用, 可以用这里第三种方法 3.用相关性的度量去删除多余特征, 也是一个好方法 所以D是正确的。 253.对于随机森林以及GradientBoosting Tre

19、es, 下面讲法正确的选项是: A 1.在随机森林的单个树中, 树以及树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的 2.这两个模型都使用随机特征子集, 来生成许多单个的树 3.我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好 A. 2 B. 1 and 2 C. 1, 3 and 4 D. 2 and 4 A 1.随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的,

20、所有讲反了,在随机森林的单个树中, 树以及树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系。 2.这两个模型都使用随机特征子集, 来生成许多单个的树。 所以A是正确的。 254.对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的不依赖假设总是成立, 因为所有主要成分是正交的, 这个讲法是 : A. 正确的 B. 错误的 B 这个讲法是错误的。首先 “不依赖以及“不相关是两回事 其次, 转化过的特征, 可以能是相关的。 255.对于PCA讲法正确的选项是 : A 1.我们必须在使用PCA前标准化数据 2.我们应该选择使得模型有最大variance

21、的主成分 3.我们应该选择使得模型有最小variance的主成分 4.我们可以使用PCA在低维度上做数据可视化 A. 1, 2 and 4 B. 2 and 4 C. 3 and 4 D. 1 and 3 E. 1, 3 and 4 A 1 PCA对数据尺度很敏感, 打个比方, 假如单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分) 2 我们总是应该选择使得模型有最大variance的主成分 3 有时在低维度上左图是需要PCA的降维帮助的 256.对于下列图, 最好的主成分选择是多少 ? A. 7 B. 30 C. 35 D. 不确定 B

22、 主成分选择使variance越大越好 在这个前提下 主成分越少越好。 257.数据科学家可能会同时使用多个算法 模型 进展预测 并且最后把这些算法的结果集成起来进展最后的预测 集成学习 以下对集成学习讲法正确的选项是 : A. 单个模型之间有高相关性 B. 单个模型之间有低相关性 C. 在集成学习中使用“平均权重而不是“投票会比拟好 D. 单个模型都是用的一个算法 258.在有监视学习中 我们怎样使用聚类方法 B 1.我们可以先创立聚类类别 然后在每个类别上用监视学习分别进展学习 2.我们可以使用聚类“类别id作为一个新的特征项 然后再用监视学习分别进展学习 3.在进展监视学习之前 我们不能

23、新建聚类类别 4.我们不可以使用聚类“类别id作为一个新的特征项 然后再用监视学习分别进展学习 A. 2 以及 4 B. 1 以及 2 C. 3 以及 4 D. 1 以及 3 B 我们可以为每个聚类构建不同的模型 进步预测准确率 “类别id作为一个特征项去训练 可以有效地总结了数据特征。所以B是正确的。 259.以下讲法正确的选项是 : C 1.一个机器学习模型 假如有较高准确率 总是讲明这个分类器是好的 2.假如增加模型复杂度 那么模型的测试错误率总是会降低 3.假如增加模型复杂度 那么模型的训练错误率总是会降低 4.我们不可以使用聚类“类别id作为一个新的特征项 然后再用监视学习分别进展学

24、习 A. 1 B. 2 C. 3 D. 1 and 3 C 考的是过拟合以及欠拟合的问题。 260.对应GradientBoosting tree算法 以下讲法正确的选项是 : C 1.当增加最小样本分裂个数 我们可以抵抗过拟合 2.当增加最小样本分裂个数 会导致过拟合 3.当我们减少训练单个学习器的样本个数 我们可以降低variance 4.当我们减少训练单个学习器的样本个数 我们可以降低bias A. 2 以及 4 B. 2 以及 3 C. 1 以及 3 D. 1 以及 4 C 最小样本分裂个数是用来控制“过拟合参数。太高的值会导致“欠拟合 这个参数应该用穿插验证来调节。第二点是靠bias

25、以及variance概念的。 261.以下哪个图是KNN算法的训练边界 ? A) B B) A C) D D) C E) 都不是 答案 B KNN算法肯定不是线性的边界 所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类 所以边界一定是坑坑洼洼的。 262.假如一个训练好的模型在测试集上有100%的准确率 这是不是意味着在一个新的数据集上 也会有同样好的表现 B A. 是的 这讲明这个模型的范化才能已经足以支持新的数据集合了 B. 不对 仍然后其他因素模型没有考虑到 比方噪音数据 答案 B 没有一个模型是可以总是适应新的数据的。我们不可能到达100%的准确率。 26

26、3.下面的穿插验证方法 : B i. 有放回的Bootstrap方法 ii. 留一个测试样本的穿插验证 iii. 5折穿插验证 iv. 重复两次的5折穿插验证 当样本是1000时 下面执行时间的顺序 正确的选项是 A. i ii iii iv B. ii iv iii i C. iv i ii iii D. ii iii iv i 答案 B Bootstrap方法是传统的随机抽样 验证一次的验证方法 只需要训练1个模型 所以时间最少。留一个测试样本的穿插验证 需要n次训练经过 n是样本个数 这里 需要训练1000个模型。5折穿插验证需要训练5个模型。重复两次的5折穿插验证 需要训练10个模型。

27、 264.变量选择是用来选择最好的判别器子集 假如要考虑模型效率 我们应该做哪些变量选择的考虑 : C 1.多个变量其实有一样的用途 2.变量对于模型的解释有多大作用 3.特征携带的信息 4.穿插验证 A. 1 以及 4 B. 1, 2 以及 3 C. 1,3 以及 4 D. 以上所有 答案 C 注意 这题的题眼是考虑模型效率 所以不要考虑选项B 265.对于线性回归模型 包括附加变量在内 以下的可能正确的选项是 : D 1.R-Squared 以及 Adjusted R-squared都是递增的 2.R-Squared 是常量的 Adjusted R-squared是递增的 3.R-Squared 是递减的 Adjusted R-squared 也是递减的 4.R-Squared 是递减的 Adjusted R-squared是递增的 A. 1 以及 2 B. 1 以及 3 C. 2 以及 4 D.

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1