1、华为大数据HCIEv20笔试题库及答案华为大数据HCIE-v2.0笔试题库及答案1.( 判断 ) 数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程 A.TRUE ( 正确答案 )B.FALSE2. 数据挖掘的开发工具除了 Python 以外,还包含以下哪些工具 ? A. Spark MLlib ( 正确答案 )B.MLS( 机器学习服务 ) ( 正确答案 )C.IBM SPSS Modeler ( 正确答案 )D.Oracle Data Mining ( 正确答案 )3. 以下哪些属于 Python 运算符 ? A. 算数运算符 ( 正确答案 )B. 推理
2、运算符C. 逻辑运算符 ( 正确答案 )D. 比较运算符 ( 正确答案 )4.( 单选 ) 假设 A , B.C 是三个矩阵, A 是 2X2 , B 是 2X2 阶, C 是 3x 2 阶,以下哪一个矩阵的运算是有意义的 ? A.A+B ( 正确答案 )B.ACC.AB+ACD.B+C5. 以下关于 Python 列表的描述正确的是 ? A.Python 中的列表可以随时进行元素的添加和删除。 ( 正确答案 )B.Python 中的列表是可变的,定的元素可以是任何的数据类型。 ( 正确答案 )C.Python 中的列表由个括号包裹住元素,元素用逗号隔开。 ( 正确答案 )D.Python 中
3、的列表企形式上类似于数组,是一个有序的序列。6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ? A. 投影B. 伸缩C. 曲线化 ( 正确答案 )D. 旋转7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o2) ,则随机变量 Y=aX+b 服从以下哪个正态分布 ? A.N(a2 u+b,a2 o2)B.N(a u+b,a2 o2) ( 正确答案 )C.N(a u+b,a2 o2+b)D.N(a u,a2 o2)8. 与面向过程相比,以下哪些是面向对象的特点 ? A. 程序可拓展性没有明显的变化B. 提高代码复用性 ( 正确答案 )C. 增加了开发效率 ( 正确答案 )D. 使程
4、序的编码更加灵活,提高了代码的可维护性 ( 正确答案 )9.( 单选 ) 以下哪个措施属于反爬措施 ? A. 字体B. 滑块验证码C. 数据收费D. 以上全部正确 ( 正确答案 )10.( 判断 ) 数据的 ETL ,其中 E 为 Extract , T 为 Transform , L 为 Load 。 A.TRUE ( 正确答案 )B. FALSE11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ? A. 数值高散化实际是一个数据简化机制,通过数值离散化过程,一个完整的数据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。B. 离散化数值在提高建模速度和提高模型精度上有显著
5、作用。C. 离散化过程并没有带来信息丢失 ( 正确答案 )D. 离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节点对数据的影响。12.( 判断 ) 不要在整个数据集上做归一化处理,要区分训练集和测试集。 A.TRUEB.FALSE ( 正确答案 )13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ? A. 分类 ( 正确答案 )B. 流行C. 回归 ( 正确答案 )D. 复变14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处理。 A.TRUE ( 正确答案 )B.FALSE15.( 单选 ) 点击率问题 是这样一个预测问题, 99% 的人不会点击,而
6、1% 的人会点击,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了 99% 的预测准确率,我们可以下的结论是 ? A. 模型预测准确率已经很高了,我们不需要做什么了。B. 模型预测准确率不高,我们需要做点什么改进模型。 ( 正确答案 )C. 无法下结论D. 以上都不对16. 机器学习中做特征选择时,以下哪种技术属于 Filter( 过滤法 ) A. 方差选择法B.B. 互信息法C.C. 卡方检验D. 相关系数法E. 以上全都正确 ( 正确答案 )17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数,来对样本集进 feat
7、ure_selection( 特征选择 ) 和 dimensionality reduction( 降维 )? A.sklearn. neighborsB.sklearn. feature_selection ( 正确答案 )C.sklearn.linear modelD.sklearn. cluster18. 当数据预处理完成后,我们需要选择有意义的特征输入算法和模型进行训练。通常来说,可以从哪些方面考虑来如何进行特征选择 ? A. 特征是否发散 ( 正确答案 )B. 特征与目标的相关性 ( 正确答案 )C. 特征的名称D. 以上全都正对19. 对于特征选择中的互信息法,以下理解正确的是 ?
8、 A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 . ( 正确答案 )B. 在 Python 工具的 sklearn 模块中,可使用 mutual_info_classif( 分类 ) ( 正确答案 )和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值之间的互信息。C. 互信息的结果对离散化的方式不敏感D. 互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。 ( 正确答案 )20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述不正确的是 ? A.Wrapper 方法由于每次对子集的评价
9、都要进行分类器的训练和测试,所以算法计算复杂度很高。B.Trapper 方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。 ( 正确答案 )C. 相对于 Filter( 过滤法 ) , Wrapper 方法找到的特征子集分类性能通常更好。D. 对于大规模数据集来说, Wrapper 算法的执行时间很长。21. 机器学习的分类主要有哪些 ? A. 无监督学习 ( 正确答案 )B. 强化学习 ( 正确答案 )C. 监督学习 ( 正确答案 )D. 半监督学习 ( 正确答案 )22. 关于装袋 (Bagging) 算法的特点,以下描述正确的有 ? A.Bagzing
10、改进了预测准确率,也具有非常好的解释性。B. 由于每一个样本被选中的概率相同,因此装袋并不侧重于训练数据集中的任何特定实例。 ( 正确答案 )C. 对于噪声数据,装袋不太受过分拟合的影响 . ( 正确答案 )D.Bagging 通过降低基学习器的方差改善了泛化误差。 ( 正确答案 )23.( 单选 ) 当决策树出现过拟合后,需要使用 ) 技术来缩小树的结构和规模。 A. 剪枝 ( 正确答案 )B. 回归C. 小波D. 调和24.( 单选 ) 以下哪项不是 KNN 算法的三要素 ? A.K 值的选取B. 分类决策规则C. 距离度量的方式D. 特征的顺序 ( 正确答案 )25.( 单选 ) 在其它
11、条件不变的前逞下家以千哪一方法容易引起模型的过拟合问题 ? A. 增加训练集数量 ( 正确答案 )B. 减少神经网络险敲层市索数C. 删除稀疏的特征D.SVM 算法中使用高斯核 /RBP 核替代26.( 单选 ) 朴素贝叶斯分类方法 (Naive Bayes) 是一种特殊的 Bayes 分类器,特征变量是 x ,类别标签是 C ,它的一个假定是 ? A. 以 0 为均值, sqr(2)/2 为标准差的正态分布B.P(XIC) 是高斯分布C. 特征变量 x 的各个属性之间互相独立 ( 正确答案 )D. 各类别的先验概率 P(C) 是相等的27. 以下哪些是朴素贝叶斯算法的特点 A. 低偏差 (
12、正确答案 )B. 高方差C. 低方差D. 高偏差答崇 CD28.( 单选 ) 下列哪个选项不是常用的聚类算法 ? A.SYM ( 正确答案 )B.DBSCAN 算法C.K-means 算法D.Hierarchical Clustering 算法、 BIRCH 算法29.( 单选 ) 以下关于聚类算法的理华确的是 ? A. 簇内的相似性越大,族间的差别越小,聚类的效果就越好。B. 簇内的相似性越大,簇间的差别越小,聚类的效果就越差,C. 簇内的相似性越大,族间的差别越大,聚类的效果就越好, ( 正确答案 )D. 簇内的相似性越大,簇间的差别越大,聚类的效果就越差。30. 影响 K- 均值算法的主
13、要因素有 ? A.K 值的大小 ( 正确答案 )B. 模式相似性测度 ( 正确答案 )C. 初始中心点的选择 ( 正确答案 )D. 聚类准则31.( 单选 ) 以下哪一项不属于抽样的类别 ? A. 简单随机抽样B. 分层抽样C. 系统抽样D. 整群抽样E. 循环抽样 ( 正确答案 )32. 分类和回归是预测问题的两种主要类型,以下关于分类和回归理解正确的是 ? A. 回归的输出是连续数值 ( 正确答案 )B. 分类的输出是离散的类别值 ( 正确答案 )C. 回归的输出是离散的类别值D. 分类的输出是连续数值33.( 单选 ) 以下哪一项不是最优化问题的三个基本要素 ? A. 约束条件 需要满足
14、的误判条件,B. 参数值 未知的因子且需要通过数据来确定。C. 目标函数 用来衡量结果的好坏。D. 数据规模。 ( 正确答案 )34.( 单选 ) 以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况 ? A. 搜索 ( 正确答案 )B. 地震检测C. 金融欺诈D. 癌症检测35. 以下关于模型过拟合、欠拟合的理解正确的是 ? A. 一般来说,模型过拟合容易出现高方差,低偏差 ( 正确答案 )B. 一般来说,模型过拟合容易出现高偏差,低方差C. 一般来说,模型欠拟合容易出观高方差,低偏差D. 一般来说,模型欠拟合容易出现高偏差,低方差 ( 正确答案 )36.( 判断 ) 最小二乘法
15、常被用于线性回归中,它将回归的问题转化为凸优化的问 A. TRUE ( 正确答案 )B.FALSE37. 使用单独的测试集或者验证集对于模型会有哪些局限性 ? A. 分割后的测试转样本规模太小, ( 正确答案 )B. 不同测试集生成的结果不同,则会造成测试集具备极大的不确定性, ( 正确答案 )C. 测试集是对模型的单次评估,无法完全展现评估结果的不确定性。 ( 正确答案 )D. 将大的测试集划分成测试集和验证集会增加模型性能评估的偏差。E. 模型可能需要每个可能存在的数据点来确定模型值。38. 以下哪些属于数据挖掘的基本流程 ? A. 特征工程 ( 正确答案 )B. 模型评估C. 数据加载D. 需求分析E. 模型选择F. 数据预处理答案 bcdf39.( 判断 ) 哑编码与 OneHot 编码很实似区别在于哑变量认为对于一个具有 N 个类别的特征,我们只需要考察 N-1 个类
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1