华为大数据HCIEv20笔试题库及答案.docx-资源下载

华为大数据HCIEv20笔试题库及答案.docx

1、华为大数据HCIEv20笔试题库及答案华为大数据HCIE-v2.0笔试题库及答案1.( 判断 ) 数据挖掘是通过对大量的数据进行分析，以发现和提取隐含在其中的具有价值的信息和知识的过程 A.TRUE ( 正确答案 )B.FALSE2. 数据挖掘的开发工具除了 Python 以外，还包含以下哪些工具 ? A. Spark MLlib ( 正确答案 )B.MLS( 机器学习服务 ) ( 正确答案 )C.IBM SPSS Modeler ( 正确答案 )D.Oracle Data Mining ( 正确答案 )3. 以下哪些属于 Python 运算符 ? A. 算数运算符 ( 正确答案 )B. 推理

2、运算符C. 逻辑运算符 ( 正确答案 )D. 比较运算符 ( 正确答案 )4.( 单选 ) 假设 A ， B.C 是三个矩阵， A 是 2X2 ， B 是 2X2 阶， C 是 3x 2 阶，以下哪一个矩阵的运算是有意义的 ? A.A+B ( 正确答案 )B.ACC.AB+ACD.B+C5. 以下关于 Python 列表的描述正确的是 ? A.Python 中的列表可以随时进行元素的添加和删除。 ( 正确答案 )B.Python 中的列表是可变的，定的元素可以是任何的数据类型。 ( 正确答案 )C.Python 中的列表由个括号包裹住元素，元素用逗号隔开。 ( 正确答案 )D.Python 中

3、的列表企形式上类似于数组，是一个有序的序列。6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ? A. 投影B. 伸缩C. 曲线化 ( 正确答案 )D. 旋转7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o2) ，则随机变量 Y=aX+b 服从以下哪个正态分布 ? A.N(a2 u+b,a2 o2)B.N(a u+b,a2 o2) ( 正确答案 )C.N(a u+b,a2 o2+b)D.N(a u,a2 o2)8. 与面向过程相比，以下哪些是面向对象的特点 ? A. 程序可拓展性没有明显的变化B. 提高代码复用性 ( 正确答案 )C. 增加了开发效率 ( 正确答案 )D. 使程

4、序的编码更加灵活，提高了代码的可维护性 ( 正确答案 )9.( 单选 ) 以下哪个措施属于反爬措施 ? A. 字体B. 滑块验证码C. 数据收费D. 以上全部正确 ( 正确答案 )10.( 判断 ) 数据的 ETL ，其中 E 为 Extract ， T 为 Transform ， L 为 Load 。 A.TRUE ( 正确答案 )B. FALSE11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ? A. 数值高散化实际是一个数据简化机制，通过数值离散化过程，一个完整的数据集变成一个个按照某种规则分类的子集，增强了模型的稳定性。B. 离散化数值在提高建模速度和提高模型精度上有显著

5、作用。C. 离散化过程并没有带来信息丢失 ( 正确答案 )D. 离散化后的特征对异常数据有很强的鲁棒性，能减少噪音节点对数据的影响。12.( 判断 ) 不要在整个数据集上做归一化处理，要区分训练集和测试集。 A.TRUEB.FALSE ( 正确答案 )13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ? A. 分类 ( 正确答案 )B. 流行C. 回归 ( 正确答案 )D. 复变14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处理。 A.TRUE ( 正确答案 )B.FALSE15.( 单选 ) 点击率问题是这样一个预测问题， 99% 的人不会点击，而

6、1% 的人会点击，所以这是一个非常不平衡的数据集。假设，现在我们已经建了一个模型来分类，而且有了 99% 的预测准确率，我们可以下的结论是 ? A. 模型预测准确率已经很高了，我们不需要做什么了。B. 模型预测准确率不高，我们需要做点什么改进模型。 ( 正确答案 )C. 无法下结论D. 以上都不对16. 机器学习中做特征选择时，以下哪种技术属于 Filter( 过滤法 ) A. 方差选择法B.B. 互信息法C.C. 卡方检验D. 相关系数法E. 以上全都正确 ( 正确答案 )17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数，来对样本集进 feat

7、ure_selection( 特征选择 ) 和 dimensionality reduction( 降维 )? A.sklearn. neighborsB.sklearn. feature_selection ( 正确答案 )C.sklearn.linear modelD.sklearn. cluster18. 当数据预处理完成后，我们需要选择有意义的特征输入算法和模型进行训练。通常来说，可以从哪些方面考虑来如何进行特征选择 ? A. 特征是否发散 ( 正确答案 )B. 特征与目标的相关性 ( 正确答案 )C. 特征的名称D. 以上全都正对19. 对于特征选择中的互信息法，以下理解正确的是 ?

8、 A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 . ( 正确答案 )B. 在 Python 工具的 sklearn 模块中，可使用 mutual_info_classif( 分类 ) ( 正确答案 )和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值之间的互信息。C. 互信息的结果对离散化的方式不敏感D. 互信息值越大，说明该特征和输出值之间的相关性越大，越需要保留。 ( 正确答案 )20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述不正确的是 ? A.Wrapper 方法由于每次对子集的评价

9、都要进行分类器的训练和测试，所以算法计算复杂度很高。B.Trapper 方法选出的特征通用性较强，当改变学习算法时，也不需要针对该学习算法重新进行特征选择。 ( 正确答案 )C. 相对于 Filter( 过滤法 ) ， Wrapper 方法找到的特征子集分类性能通常更好。D. 对于大规模数据集来说， Wrapper 算法的执行时间很长。21. 机器学习的分类主要有哪些 ? A. 无监督学习 ( 正确答案 )B. 强化学习 ( 正确答案 )C. 监督学习 ( 正确答案 )D. 半监督学习 ( 正确答案 )22. 关于装袋 (Bagging) 算法的特点，以下描述正确的有 ? A.Bagzing

10、改进了预测准确率，也具有非常好的解释性。B. 由于每一个样本被选中的概率相同，因此装袋并不侧重于训练数据集中的任何特定实例。 ( 正确答案 )C. 对于噪声数据，装袋不太受过分拟合的影响 . ( 正确答案 )D.Bagging 通过降低基学习器的方差改善了泛化误差。 ( 正确答案 )23.( 单选 ) 当决策树出现过拟合后，需要使用 ) 技术来缩小树的结构和规模。 A. 剪枝 ( 正确答案 )B. 回归C. 小波D. 调和24.( 单选 ) 以下哪项不是 KNN 算法的三要素 ? A.K 值的选取B. 分类决策规则C. 距离度量的方式D. 特征的顺序 ( 正确答案 )25.( 单选 ) 在其它

11、条件不变的前逞下家以千哪一方法容易引起模型的过拟合问题 ? A. 增加训练集数量 ( 正确答案 )B. 减少神经网络险敲层市索数C. 删除稀疏的特征D.SVM 算法中使用高斯核 /RBP 核替代26.( 单选 ) 朴素贝叶斯分类方法 (Naive Bayes) 是一种特殊的 Bayes 分类器，特征变量是 x ，类别标签是 C ，它的一个假定是 ? A. 以 0 为均值， sqr(2)/2 为标准差的正态分布B.P(XIC) 是高斯分布C. 特征变量 x 的各个属性之间互相独立 ( 正确答案 )D. 各类别的先验概率 P(C) 是相等的27. 以下哪些是朴素贝叶斯算法的特点 A. 低偏差 (

12、正确答案 )B. 高方差C. 低方差D. 高偏差答崇 CD28.( 单选 ) 下列哪个选项不是常用的聚类算法 ? A.SYM ( 正确答案 )B.DBSCAN 算法C.K-means 算法D.Hierarchical Clustering 算法、 BIRCH 算法29.( 单选 ) 以下关于聚类算法的理华确的是 ? A. 簇内的相似性越大，族间的差别越小，聚类的效果就越好。B. 簇内的相似性越大，簇间的差别越小，聚类的效果就越差，C. 簇内的相似性越大，族间的差别越大，聚类的效果就越好， ( 正确答案 )D. 簇内的相似性越大，簇间的差别越大，聚类的效果就越差。30. 影响 K- 均值算法的主

13、要因素有 ? A.K 值的大小 ( 正确答案 )B. 模式相似性测度 ( 正确答案 )C. 初始中心点的选择 ( 正确答案 )D. 聚类准则31.( 单选 ) 以下哪一项不属于抽样的类别 ? A. 简单随机抽样B. 分层抽样C. 系统抽样D. 整群抽样E. 循环抽样 ( 正确答案 )32. 分类和回归是预测问题的两种主要类型，以下关于分类和回归理解正确的是 ? A. 回归的输出是连续数值 ( 正确答案 )B. 分类的输出是离散的类别值 ( 正确答案 )C. 回归的输出是离散的类别值D. 分类的输出是连续数值33.( 单选 ) 以下哪一项不是最优化问题的三个基本要素 ? A. 约束条件需要满足

14、的误判条件，B. 参数值未知的因子且需要通过数据来确定。C. 目标函数用来衡量结果的好坏。D. 数据规模。 ( 正确答案 )34.( 单选 ) 以下哪种场景比较适用于在保证召回率的前提下，尽量提升精确率的情况 ? A. 搜索 ( 正确答案 )B. 地震检测C. 金融欺诈D. 癌症检测35. 以下关于模型过拟合、欠拟合的理解正确的是 ? A. 一般来说，模型过拟合容易出现高方差，低偏差 ( 正确答案 )B. 一般来说，模型过拟合容易出现高偏差，低方差C. 一般来说，模型欠拟合容易出观高方差，低偏差D. 一般来说，模型欠拟合容易出现高偏差，低方差 ( 正确答案 )36.( 判断 ) 最小二乘法

15、常被用于线性回归中，它将回归的问题转化为凸优化的问 A. TRUE ( 正确答案 )B.FALSE37. 使用单独的测试集或者验证集对于模型会有哪些局限性 ? A. 分割后的测试转样本规模太小， ( 正确答案 )B. 不同测试集生成的结果不同，则会造成测试集具备极大的不确定性， ( 正确答案 )C. 测试集是对模型的单次评估，无法完全展现评估结果的不确定性。 ( 正确答案 )D. 将大的测试集划分成测试集和验证集会增加模型性能评估的偏差。E. 模型可能需要每个可能存在的数据点来确定模型值。38. 以下哪些属于数据挖掘的基本流程 ? A. 特征工程 ( 正确答案 )B. 模型评估C. 数据加载D. 需求分析E. 模型选择F. 数据预处理答案 bcdf39.( 判断 ) 哑编码与 OneHot 编码很实似区别在于哑变量认为对于一个具有 N 个类别的特征，我们只需要考察 N-1 个类

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？