华为大数据HCIEv20笔试题库及答案.docx

上传人:b****5 文档编号:2777165 上传时间:2022-11-15 格式:DOCX 页数:33 大小:37.69KB
下载 相关 举报
华为大数据HCIEv20笔试题库及答案.docx_第1页
第1页 / 共33页
华为大数据HCIEv20笔试题库及答案.docx_第2页
第2页 / 共33页
华为大数据HCIEv20笔试题库及答案.docx_第3页
第3页 / 共33页
华为大数据HCIEv20笔试题库及答案.docx_第4页
第4页 / 共33页
华为大数据HCIEv20笔试题库及答案.docx_第5页
第5页 / 共33页
点击查看更多>>
下载资源
资源描述

华为大数据HCIEv20笔试题库及答案.docx

《华为大数据HCIEv20笔试题库及答案.docx》由会员分享,可在线阅读,更多相关《华为大数据HCIEv20笔试题库及答案.docx(33页珍藏版)》请在冰豆网上搜索。

华为大数据HCIEv20笔试题库及答案.docx

华为大数据HCIEv20笔试题库及答案

华为大数据HCIE-v2.0笔试题库及答案

1.(判断)数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程

A.TRUE(正确答案)

B.FALSE

2.数据挖掘的开发工具除了Python以外,还包含以下哪些工具?

A.SparkMLlib(正确答案)

B.MLS(机器学习服务)(正确答案)

C.IBMSPSSModeler(正确答案)

D.OracleDataMining(正确答案)

3.以下哪些属于Python运算符?

A.算数运算符(正确答案)

B.推理运算符

C.逻辑运算符(正确答案)

D.比较运算符(正确答案)

4.(单选)假设A,B.C是三个矩阵,A是2X2,B是2X2阶,C是3x2阶,以下哪一个矩阵的运算是有意义的?

A.A+B(正确答案)

B.AC

C.AB+AC

D.B+C

5.以下关于Python列表的描述正确的是?

A.Python中的列表可以随时进行元素的添加和删除。

(正确答案)

B.Python中的列表是可变的,定的元素可以是任何的数据类型。

(正确答案)

C.Python中的列表由个括号包裹住元素,元素用逗号隔开。

(正确答案)

D.Python中的列表企形式上类似于数组,是一个有序的序列。

6.(单选)以下哪个选项不是矩阵乘法对向量的变换?

A.投影

B.伸缩

C.曲线化(正确答案)

D.旋转

7.(单选)若随机变量X服从正态分布N(u,o^2),则随机变量Y=aX+b服从以下哪个正态分布?

A.N(a^2u+b,a^2o^2)

B.N(au+b,a^2o^2)(正确答案)

C.N(au+b,a^2o^2+b)

D.N(au,a^2o^2)

8.与面向过程相比,以下哪些是面向对象的特点?

A.程序可拓展性没有明显的变化

B.提高代码复用性(正确答案)

C.增加了开发效率(正确答案)

D.使程序的编码更加灵活,提高了代码的可维护性(正确答案)

9.(单选)以下哪个措施属于反爬措施?

A.字体

B.滑块验证码

C.数据收费

D.以上全部正确(正确答案)

10.(判断)数据的ETL,其中E为Extract,T为Transform,L为Load。

A.TRUE(正确答案)

B.FALSE

11.(单选)以下哪些选项不属于数值特征离散化的必要性?

A.数值高散化实际是一个数据简化机制,通过数值离散化过程,一个完整的数

据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。

B.离散化数值在提高建模速度和提高模型精度上有显著作用。

C.离散化过程并没有带来信息丢失(正确答案)

D.离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节点对数据的影响。

12.(判断)不要在整个数据集上做归一化处理,要区分训练集和测试集。

A.TRUE

B.FALSE(正确答案)

13.数据挖掘中用于解决预测问题的模型主要包括哪几大类?

A.分类(正确答案)

B.流行

C.回归(正确答案)

D.复变

14.(判断)可以利用Python中的KNN算法进行数据缺失值的处理。

A.TRUE(正确答案)

B.FALSE

15.(单选)"点击率问题"是这样一个预测问题,99%的人不会点击,而1%的人会点击,所以这是一个非常不平衡的数据集。

假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是?

A.模型预测准确率已经很高了,我们不需要做什么了。

B.模型预测准确率不高,我们需要做点什么改进模型。

(正确答案)

C.无法下结论

D.以上都不对

16.机器学习中做特征选择时,以下哪种技术属于Filter(过滤法)

A.方差选择法

B.B.互信息法

C.C.卡方检验

D.相关系数法

E.以上全都正确(正确答案)

17.(单选)我们可以使用Python中scikit-learn库的()函数,来对样本集进feature_selection(特征选择)和dimensionalityreduction(降维)?

A.sklearn.neighbors

B.sklearn.feature_selection(正确答案)

C.sklearn.linearmodel

D.sklearn.cluster

18.当数据预处理完成后,我们需要选择有意义的特征输入算法和模型进行训练。

通常来说,可以从哪些方面考虑来如何进行特征选择?

A.特征是否发散(正确答案)

B.特征与目标的相关性(正确答案)

C.特征的名称

D.以上全都正对

19.对于特征选择中的互信息法,以下理解正确的是?

A.互信息法是从信息嫡的角度分析特征和输出值之间的关系评分.(正确答案)

B.在Python工具的sklearn模块中,可使用mutual_info_classif(分类)(正确答案)

和mutual_info_regression(回归)来计算各个输入行征和输出值之间的互信息。

C.互信息的结果对离散化的方式不敏感

D.互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。

(正确答案)

20.(单选)以下关于Trapper(包装法)和FiLter(过滤法)的描述不正确的是?

A.Wrapper方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高。

B.Trapper方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。

(正确答案)

C.相对于Filter(过滤法),Wrapper方法找到的特征子集分类性能通常更

好。

D.对于大规模数据集来说,Wrapper算法的执行时间很长。

21.机器学习的分类主要有哪些?

A.无监督学习(正确答案)

B.强化学习(正确答案)

C.监督学习(正确答案)

D.半监督学习(正确答案)

22.关于装袋((Bagging)算法的特点,以下描述正确的有?

A.Bagzing改进了预测准确率,也具有非常好的解释性。

B.由于每一个样本被选中的概率相同,因此装袋并不侧重于训练数据集中的任何特定实例。

(正确答案)

C.对于噪声数据,装袋不太受过分拟合的影响.(正确答案)

D.Bagging通过降低基学习器的方差改善了泛化误差。

(正确答案)

23.(单选)当决策树出现过拟合后,需要使用)技术来缩小树的结构和规模。

A.剪枝(正确答案)

B.回归

C.小波

D.调和

24.(单选)以下哪项不是KNN算法的三要素?

A.K值的选取

B.分类决策规则

C.距离度量的方式

D.特征的顺序(正确答案)

25.(单选)在其它条件不变的前逞下家以千哪一方法容易引起模型的过拟合问题?

A.增加训练集数量(正确答案)

B.减少神经网络险敲层市索数

C.删除稀疏的特征

D.SVM算法中使用高斯核/RBP核替代

26.(单选)朴素贝叶斯分类方法(NaiveBayes)是一种特殊的Bayes分类器,特征变量是x,类别标签是C,它的一个假定是?

A.以0为均值,sqr

(2)/2为标准差的正态分布

B.P(XIC)是高斯分布

C.特征变量x的各个属性之间互相独立(正确答案)

D.各类别的先验概率P(C)是相等的

27.以下哪些是朴素贝叶斯算法的特点

A.低偏差(正确答案)

B.高方差

C.低方差

D.高偏差答崇∶CD

28.(单选)下列哪个选项不是常用的聚类算法?

A.SYM(正确答案)

B.DBSCAN算法

C.K-means算法

D.HierarchicalClustering算法、BIRCH算法

29.(单选)以下关于聚类算法的理华确的是?

A.簇内的相似性越大,族间的差别越小,聚类的效果就越好。

B.簇内的相似性越大,簇间的差别越小,聚类的效果就越差,

C.簇内的相似性越大,族间的差别越大,聚类的效果就越好,(正确答案)

D.簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

30.影响K-均值算法的主要因素有?

A.K值的大小(正确答案)

B.模式相似性测度(正确答案)

C.初始中心点的选择(正确答案)

D.聚类准则

31.(单选)以下哪一项不属于抽样的类别?

A.简单随机抽样

B.分层抽样

C.系统抽样

D.整群抽样

E.循环抽样(正确答案)

32.分类和回归是预测问题的两种主要类型,以下关于分类和回归理解正确的是?

A.回归的输出是连续数值(正确答案)

B.分类的输出是离散的类别值(正确答案)

C.回归的输出是离散的类别值

D.分类的输出是连续数值

33.(单选)以下哪一项不是最优化问题的三个基本要素?

A.约束条件∶需要满足的误判条件,

B.参数值∶未知的因子且需要通过数据来确定。

C.目标函数∶用来衡量结果的好坏。

D.数据规模。

(正确答案)

34.(单选)以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况?

A.搜索(正确答案)

B.地震检测

C.金融欺诈

D.癌症检测

35.以下关于模型过拟合、欠拟合的理解正确的是?

A.一般来说,模型过拟合容易出现高方差,低偏差(正确答案)

B.一般来说,模型过拟合容易出现高偏差,低方差

C.一般来说,模型欠拟合容易出观高方差,低偏差

D.一般来说,模型欠拟合容易出现高偏差,低方差(正确答案)

36.(判断)最小二乘法常被用于线性回归中,它将回归的问题转化为凸优化的问

A.TRUE(正确答案)

B.FALSE

37.使用单独的测试集或者验证集对于模型会有哪些局限性?

A.分割后的测试转样本规模太小,(正确答案)

B.不同测试集生成的结果不同,则会造成测试集具备极大的不确定性,(正确答案)

C.测试集是对模型的单次评估,无法完全展现评估结果的不确定性。

(正确答案)

D.将大的测试集划分成测试集和验证集会增加模型性能评估的偏差。

E.模型可能需要每个可能存在的数据点来确定模型值。

38.以下哪些属于数据挖掘的基本流程?

A.特征工程(正确答案)

B.模型评估

C.数据加载

D.需求分析

E.模型选择

F.数据预处理

答案∶bcdf

39.(判断)哑编码与OneHot编码很实似区别在于哑变量认为对于一个具有N个类别的特征,我们只需要考察N-1个类

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1