ImageVerifierCode 换一换
格式:DOCX , 页数:33 ,大小:37.69KB ,
资源ID:2777165      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2777165.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(华为大数据HCIEv20笔试题库及答案.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

华为大数据HCIEv20笔试题库及答案.docx

1、华为大数据HCIEv20笔试题库及答案华为大数据HCIE-v2.0笔试题库及答案1.( 判断 ) 数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程 A.TRUE ( 正确答案 )B.FALSE2. 数据挖掘的开发工具除了 Python 以外,还包含以下哪些工具 ? A. Spark MLlib ( 正确答案 )B.MLS( 机器学习服务 ) ( 正确答案 )C.IBM SPSS Modeler ( 正确答案 )D.Oracle Data Mining ( 正确答案 )3. 以下哪些属于 Python 运算符 ? A. 算数运算符 ( 正确答案 )B. 推理

2、运算符C. 逻辑运算符 ( 正确答案 )D. 比较运算符 ( 正确答案 )4.( 单选 ) 假设 A , B.C 是三个矩阵, A 是 2X2 , B 是 2X2 阶, C 是 3x 2 阶,以下哪一个矩阵的运算是有意义的 ? A.A+B ( 正确答案 )B.ACC.AB+ACD.B+C5. 以下关于 Python 列表的描述正确的是 ? A.Python 中的列表可以随时进行元素的添加和删除。 ( 正确答案 )B.Python 中的列表是可变的,定的元素可以是任何的数据类型。 ( 正确答案 )C.Python 中的列表由个括号包裹住元素,元素用逗号隔开。 ( 正确答案 )D.Python 中

3、的列表企形式上类似于数组,是一个有序的序列。6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ? A. 投影B. 伸缩C. 曲线化 ( 正确答案 )D. 旋转7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o2) ,则随机变量 Y=aX+b 服从以下哪个正态分布 ? A.N(a2 u+b,a2 o2)B.N(a u+b,a2 o2) ( 正确答案 )C.N(a u+b,a2 o2+b)D.N(a u,a2 o2)8. 与面向过程相比,以下哪些是面向对象的特点 ? A. 程序可拓展性没有明显的变化B. 提高代码复用性 ( 正确答案 )C. 增加了开发效率 ( 正确答案 )D. 使程

4、序的编码更加灵活,提高了代码的可维护性 ( 正确答案 )9.( 单选 ) 以下哪个措施属于反爬措施 ? A. 字体B. 滑块验证码C. 数据收费D. 以上全部正确 ( 正确答案 )10.( 判断 ) 数据的 ETL ,其中 E 为 Extract , T 为 Transform , L 为 Load 。 A.TRUE ( 正确答案 )B. FALSE11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ? A. 数值高散化实际是一个数据简化机制,通过数值离散化过程,一个完整的数据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。B. 离散化数值在提高建模速度和提高模型精度上有显著

5、作用。C. 离散化过程并没有带来信息丢失 ( 正确答案 )D. 离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节点对数据的影响。12.( 判断 ) 不要在整个数据集上做归一化处理,要区分训练集和测试集。 A.TRUEB.FALSE ( 正确答案 )13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ? A. 分类 ( 正确答案 )B. 流行C. 回归 ( 正确答案 )D. 复变14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处理。 A.TRUE ( 正确答案 )B.FALSE15.( 单选 ) 点击率问题 是这样一个预测问题, 99% 的人不会点击,而

6、1% 的人会点击,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了 99% 的预测准确率,我们可以下的结论是 ? A. 模型预测准确率已经很高了,我们不需要做什么了。B. 模型预测准确率不高,我们需要做点什么改进模型。 ( 正确答案 )C. 无法下结论D. 以上都不对16. 机器学习中做特征选择时,以下哪种技术属于 Filter( 过滤法 ) A. 方差选择法B.B. 互信息法C.C. 卡方检验D. 相关系数法E. 以上全都正确 ( 正确答案 )17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数,来对样本集进 feat

7、ure_selection( 特征选择 ) 和 dimensionality reduction( 降维 )? A.sklearn. neighborsB.sklearn. feature_selection ( 正确答案 )C.sklearn.linear modelD.sklearn. cluster18. 当数据预处理完成后,我们需要选择有意义的特征输入算法和模型进行训练。通常来说,可以从哪些方面考虑来如何进行特征选择 ? A. 特征是否发散 ( 正确答案 )B. 特征与目标的相关性 ( 正确答案 )C. 特征的名称D. 以上全都正对19. 对于特征选择中的互信息法,以下理解正确的是 ?

8、 A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 . ( 正确答案 )B. 在 Python 工具的 sklearn 模块中,可使用 mutual_info_classif( 分类 ) ( 正确答案 )和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值之间的互信息。C. 互信息的结果对离散化的方式不敏感D. 互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。 ( 正确答案 )20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述不正确的是 ? A.Wrapper 方法由于每次对子集的评价

9、都要进行分类器的训练和测试,所以算法计算复杂度很高。B.Trapper 方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。 ( 正确答案 )C. 相对于 Filter( 过滤法 ) , Wrapper 方法找到的特征子集分类性能通常更好。D. 对于大规模数据集来说, Wrapper 算法的执行时间很长。21. 机器学习的分类主要有哪些 ? A. 无监督学习 ( 正确答案 )B. 强化学习 ( 正确答案 )C. 监督学习 ( 正确答案 )D. 半监督学习 ( 正确答案 )22. 关于装袋 (Bagging) 算法的特点,以下描述正确的有 ? A.Bagzing

10、改进了预测准确率,也具有非常好的解释性。B. 由于每一个样本被选中的概率相同,因此装袋并不侧重于训练数据集中的任何特定实例。 ( 正确答案 )C. 对于噪声数据,装袋不太受过分拟合的影响 . ( 正确答案 )D.Bagging 通过降低基学习器的方差改善了泛化误差。 ( 正确答案 )23.( 单选 ) 当决策树出现过拟合后,需要使用 ) 技术来缩小树的结构和规模。 A. 剪枝 ( 正确答案 )B. 回归C. 小波D. 调和24.( 单选 ) 以下哪项不是 KNN 算法的三要素 ? A.K 值的选取B. 分类决策规则C. 距离度量的方式D. 特征的顺序 ( 正确答案 )25.( 单选 ) 在其它

11、条件不变的前逞下家以千哪一方法容易引起模型的过拟合问题 ? A. 增加训练集数量 ( 正确答案 )B. 减少神经网络险敲层市索数C. 删除稀疏的特征D.SVM 算法中使用高斯核 /RBP 核替代26.( 单选 ) 朴素贝叶斯分类方法 (Naive Bayes) 是一种特殊的 Bayes 分类器,特征变量是 x ,类别标签是 C ,它的一个假定是 ? A. 以 0 为均值, sqr(2)/2 为标准差的正态分布B.P(XIC) 是高斯分布C. 特征变量 x 的各个属性之间互相独立 ( 正确答案 )D. 各类别的先验概率 P(C) 是相等的27. 以下哪些是朴素贝叶斯算法的特点 A. 低偏差 (

12、正确答案 )B. 高方差C. 低方差D. 高偏差答崇 CD28.( 单选 ) 下列哪个选项不是常用的聚类算法 ? A.SYM ( 正确答案 )B.DBSCAN 算法C.K-means 算法D.Hierarchical Clustering 算法、 BIRCH 算法29.( 单选 ) 以下关于聚类算法的理华确的是 ? A. 簇内的相似性越大,族间的差别越小,聚类的效果就越好。B. 簇内的相似性越大,簇间的差别越小,聚类的效果就越差,C. 簇内的相似性越大,族间的差别越大,聚类的效果就越好, ( 正确答案 )D. 簇内的相似性越大,簇间的差别越大,聚类的效果就越差。30. 影响 K- 均值算法的主

13、要因素有 ? A.K 值的大小 ( 正确答案 )B. 模式相似性测度 ( 正确答案 )C. 初始中心点的选择 ( 正确答案 )D. 聚类准则31.( 单选 ) 以下哪一项不属于抽样的类别 ? A. 简单随机抽样B. 分层抽样C. 系统抽样D. 整群抽样E. 循环抽样 ( 正确答案 )32. 分类和回归是预测问题的两种主要类型,以下关于分类和回归理解正确的是 ? A. 回归的输出是连续数值 ( 正确答案 )B. 分类的输出是离散的类别值 ( 正确答案 )C. 回归的输出是离散的类别值D. 分类的输出是连续数值33.( 单选 ) 以下哪一项不是最优化问题的三个基本要素 ? A. 约束条件 需要满足

14、的误判条件,B. 参数值 未知的因子且需要通过数据来确定。C. 目标函数 用来衡量结果的好坏。D. 数据规模。 ( 正确答案 )34.( 单选 ) 以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况 ? A. 搜索 ( 正确答案 )B. 地震检测C. 金融欺诈D. 癌症检测35. 以下关于模型过拟合、欠拟合的理解正确的是 ? A. 一般来说,模型过拟合容易出现高方差,低偏差 ( 正确答案 )B. 一般来说,模型过拟合容易出现高偏差,低方差C. 一般来说,模型欠拟合容易出观高方差,低偏差D. 一般来说,模型欠拟合容易出现高偏差,低方差 ( 正确答案 )36.( 判断 ) 最小二乘法

15、常被用于线性回归中,它将回归的问题转化为凸优化的问 A. TRUE ( 正确答案 )B.FALSE37. 使用单独的测试集或者验证集对于模型会有哪些局限性 ? A. 分割后的测试转样本规模太小, ( 正确答案 )B. 不同测试集生成的结果不同,则会造成测试集具备极大的不确定性, ( 正确答案 )C. 测试集是对模型的单次评估,无法完全展现评估结果的不确定性。 ( 正确答案 )D. 将大的测试集划分成测试集和验证集会增加模型性能评估的偏差。E. 模型可能需要每个可能存在的数据点来确定模型值。38. 以下哪些属于数据挖掘的基本流程 ? A. 特征工程 ( 正确答案 )B. 模型评估C. 数据加载D. 需求分析E. 模型选择F. 数据预处理答案 bcdf39.( 判断 ) 哑编码与 OneHot 编码很实似区别在于哑变量认为对于一个具有 N 个类别的特征,我们只需要考察 N-1 个类

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1