华为大数据 HCIEv20版本笔试题库.docx

上传人:b****6 文档编号:9058322 上传时间:2023-02-03 格式:DOCX 页数:45 大小:41.89KB
下载 相关 举报
华为大数据 HCIEv20版本笔试题库.docx_第1页
第1页 / 共45页
华为大数据 HCIEv20版本笔试题库.docx_第2页
第2页 / 共45页
华为大数据 HCIEv20版本笔试题库.docx_第3页
第3页 / 共45页
华为大数据 HCIEv20版本笔试题库.docx_第4页
第4页 / 共45页
华为大数据 HCIEv20版本笔试题库.docx_第5页
第5页 / 共45页
点击查看更多>>
下载资源
资源描述

华为大数据 HCIEv20版本笔试题库.docx

《华为大数据 HCIEv20版本笔试题库.docx》由会员分享,可在线阅读,更多相关《华为大数据 HCIEv20版本笔试题库.docx(45页珍藏版)》请在冰豆网上搜索。

华为大数据 HCIEv20版本笔试题库.docx

华为大数据HCIEv20版本笔试题库

华为大数据HCIE-v2.0版本笔试题库

1.(判断)数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程[单选题]*

A.TRUE(正确答案)

B.FALSE

2.数据挖掘的开发工具除了Python以外,还包含以下哪些工具?

*

A.SparkMLlib(正确答案)

B.MLS(机器学习服务)(正确答案)

C.IBMSPSSModeler(正确答案)

D.OracleDataMining(正确答案)

3.以下哪些属于Python运算符?

*

A.算数运算符(正确答案)

B.推理运算符

C.逻辑运算符(正确答案)

D.比较运算符(正确答案)

4.(单选)假设A,B.C是三个矩阵,A是2X2,B是2X2阶,C是3x2阶,以下哪一个矩阵的运算是有意义的?

[单选题]*

A.A+B(正确答案)

B.AC

C.AB+AC

D.B+C

5.以下关于Python列表的描述正确的是?

*

A.Python中的列表可以随时进行元素的添加和删除。

(正确答案)

B.Python中的列表是可变的,定的元素可以是任何的数据类型。

(正确答案)

C.Python中的列表由个括号包裹住元素,元素用逗号隔开。

(正确答案)

D.Python中的列表企形式上类似于数组,是一个有序的序列。

6.(单选)以下哪个选项不是矩阵乘法对向量的变换?

[单选题]*

A.投影

B.伸缩

C.曲线化(正确答案)

D.旋转

7.(单选)若随机变量X服从正态分布N(u,o^2),则随机变量Y=aX+b服从以下哪个正态分布?

[单选题]*

A.N(a^2u+b,a^2o^2)

B.N(au+b,a^2o^2)(正确答案)

C.N(au+b,a^2o^2+b)

D.N(au,a^2o^2)

8.与面向过程相比,以下哪些是面向对象的特点?

*

A.程序可拓展性没有明显的变化

B.提高代码复用性(正确答案)

C.增加了开发效率(正确答案)

D.使程序的编码更加灵活,提高了代码的可维护性(正确答案)

9.(单选)以下哪个措施属于反爬措施?

[单选题]*

A.字体

B.滑块验证码

C.数据收费

D.以上全部正确(正确答案)

10.(判断)数据的ETL,其中E为Extract,T为Transform,L为Load。

[单选题]*

A.TRUE(正确答案)

B.FALSE

11.(单选)以下哪些选项不属于数值特征离散化的必要性?

[单选题]*

A.数值高散化实际是一个数据简化机制,通过数值离散化过程,一个完整的数

据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。

B.离散化数值在提高建模速度和提高模型精度上有显著作用。

C.离散化过程并没有带来信息丢失(正确答案)

D.离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节点对数据的影响。

12.(判断)不要在整个数据集上做归一化处理,要区分训练集和测试集。

[单选题]*

A.TRUE

B.FALSE(正确答案)

13.数据挖掘中用于解决预测问题的模型主要包括哪几大类?

*

A.分类(正确答案)

B.流行

C.回归(正确答案)

D.复变

14.(判断)可以利用Python中的KNN算法进行数据缺失值的处理。

[单选题]*

A.TRUE(正确答案)

B.FALSE

15.(单选)"点击率问题"是这样一个预测问题,99%的人不会点击,而1%的人会点击,所以这是一个非常不平衡的数据集。

假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是?

[单选题]*

A.模型预测准确率已经很高了,我们不需要做什么了。

B.模型预测准确率不高,我们需要做点什么改进模型。

(正确答案)

C.无法下结论

D.以上都不对

16.机器学习中做特征选择时,以下哪种技术属于Filter(过滤法)[单选题]*

A.方差选择法

B.B.互信息法

C.C.卡方检验

D.相关系数法

E.以上全都正确(正确答案)

17.(单选)我们可以使用Python中scikit-learn库的()函数,来对样本集进feature_selection(特征选择)和dimensionalityreduction(降维)?

[单选题]*

A.sklearn.neighbors

B.sklearn.feature_selection(正确答案)

C.sklearn.linearmodel

D.sklearn.cluster

18.当数据预处理完成后,我们需要选择有意义的特征输入算法和模型进行训练。

通常来说,可以从哪些方面考虑来如何进行特征选择?

*

A.特征是否发散(正确答案)

B.特征与目标的相关性(正确答案)

C.特征的名称

D.以上全都正对

19.对于特征选择中的互信息法,以下理解正确的是?

*

A.互信息法是从信息嫡的角度分析特征和输出值之间的关系评分.(正确答案)

B.在Python工具的sklearn模块中,可使用mutual_info_classif(分类)(正确答案)

和mutual_info_regression(回归)来计算各个输入行征和输出值之间的互信息。

C.互信息的结果对离散化的方式不敏感

D.互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。

(正确答案)

20.(单选)以下关于Trapper(包装法)和FiLter(过滤法)的描述不正确的是?

[单选题]*

A.Wrapper方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高。

B.Trapper方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。

(正确答案)

C.相对于Filter(过滤法),Wrapper方法找到的特征子集分类性能通常更

好。

D.对于大规模数据集来说,Wrapper算法的执行时间很长。

21.机器学习的分类主要有哪些?

*

A.无监督学习(正确答案)

B.强化学习(正确答案)

C.监督学习(正确答案)

D.半监督学习(正确答案)

22.关于装袋((Bagging)算法的特点,以下描述正确的有?

*

A.Bagzing改进了预测准确率,也具有非常好的解释性。

B.由于每一个样本被选中的概率相同,因此装袋并不侧重于训练数据集中的任何特定实例。

(正确答案)

C.对于噪声数据,装袋不太受过分拟合的影响.(正确答案)

D.Bagging通过降低基学习器的方差改善了泛化误差。

(正确答案)

23.(单选)当决策树出现过拟合后,需要使用)技术来缩小树的结构和规模。

[单选题]*

A.剪枝(正确答案)

B.回归

C.小波

D.调和

24.(单选)以下哪项不是KNN算法的三要素?

[单选题]*

A.K值的选取

B.分类决策规则

C.距离度量的方式

D.特征的顺序(正确答案)

25.(单选)在其它条件不变的前逞下家以千哪一方法容易引起模型的过拟合问题?

[单选题]*

A.增加训练集数量(正确答案)

B.减少神经网络险敲层市索数

C.删除稀疏的特征

D.SVM算法中使用高斯核/RBP核替代

26.(单选)朴素贝叶斯分类方法(NaiveBayes)是一种特殊的Bayes分类器,特征变量是x,类别标签是C,它的一个假定是?

[单选题]*

A.以0为均值,sqr

(2)/2为标准差的正态分布

B.P(XIC)是高斯分布

C.特征变量x的各个属性之间互相独立(正确答案)

D.各类别的先验概率P(C)是相等的

27.以下哪些是朴素贝叶斯算法的特点[单选题]*

A.低偏差(正确答案)

B.高方差

C.低方差

D.高偏差答崇∶CD

28.(单选)下列哪个选项不是常用的聚类算法?

[单选题]*

A.SYM(正确答案)

B.DBSCAN算法

C.K-means算法

D.HierarchicalClustering算法、BIRCH算法

29.(单选)以下关于聚类算法的理华确的是?

[单选题]*

A.簇内的相似性越大,族间的差别越小,聚类的效果就越好。

B.簇内的相似性越大,簇间的差别越小,聚类的效果就越差,

C.簇内的相似性越大,族间的差别越大,聚类的效果就越好,(正确答案)

D.簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

30.影响K-均值算法的主要因素有?

*

A.K值的大小(正确答案)

B.模式相似性测度(正确答案)

C.初始中心点的选择(正确答案)

D.聚类准则

31.(单选)以下哪一项不属于抽样的类别?

[单选题]*

A.简单随机抽样

B.分层抽样

C.系统抽样

D.整群抽样

E.循环抽样(正确答案)

32.分类和回归是预测问题的两种主要类型,以下关于分类和回归理解正确的是?

*

A.回归的输出是连续数值(正确答案)

B.分类的输出是离散的类别值(正确答案)

C.回归的输出是离散的类别值

D.分类的输出是连续数值

33.(单选)以下哪一项不是最优化问题的三个基本要素?

[单选题]*

A.约束条件∶需要满足的误判条件,

B.参数值∶未知的因子且需要通过数据来确定。

C.目标函数∶用来衡量结果的好坏。

D.数据规模。

(正确答案)

34.(单选)以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况?

[单选题]*

A.搜索(正确答案)

B.地震检测

C.金融欺诈

D.癌症检测

35.以下关于模型过拟合、欠拟合的理解正确的是?

*

A.一般来说,模型过拟合容易出现高方差,低偏差(正确答案)

B.一般来说,模型过拟合容易出现高偏差,低方差

C.一般来说,模型欠拟合容易出观高方差,低偏差

D.一般来说,模型欠拟合容易出现高偏差,低方差(正确答案)

36.(判断)最小二乘法常被用于线性回归中,它将回归的问题转化为凸优化的问[单选题]*

A.TRUE(正确答案)

B.FALSE

37.使用单独的测试集或者验证集对于模型会有哪些局限性?

*

A.分割后的测试转样本规模太小,(正确答案)

B.不同测试集生成的结果不同,则会造成测试集具备极大的不确定性,(正确答案)

C.测试集是对模型的单次评估,无法完全展现评估结果的不确定性。

(正确答案)

D.将大的测试集划分成测试集和验证集会增加模型性能评估的偏差。

E.模型可能需要每个可能存在的数据点来确定模型值。

38.以下哪些属于数据挖掘的基本流程?

[单选题]*

A.特征工程(正确答案)

B.模型评估

C.数据加载

D.需求分析

E.模型选择

F.数据预处理

答案∶bcdf

39.(判断)哑编码与OneHot编码很实似区别在于哑变量认为对于一个具有N个类别的特征,我们只需要考察N-1个类别是否存在,第N个类别自然就能得到。

[单选题]*

A.TRUE(正确答案)

40.(单选)以下不属于决策树算法?

[单选题]*

A.ID3(正确答案)

B.CART

C.C4.5

41.(判断)SVM的核心要想就是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化。

[单选题]*

A.TRUE(正确答案)

B.FALSE

42.除了精确率(Precision)和召回率(Recal1),以下还有哪些常用的模型评估指标?

*

A.AUC数据(正确答案)

B.ROC曲线(ReceiverOperatingCharacteristic)(正确答案)

C.F1值(F1-Measure)(正确答案)

D.混淆矩阵((ConfusionMatrix)(正确答案)

43.BasicStatistic为数据度处理数据中统计分析提供支撑方法,包括(),(),()等数据分析方法。

*

A.ElementwiseProduct

B.Stratifiedsampling(正确答案)

C.Summarystatistics(正确答案)

D.Hypothesistesting(正确答案)

44.可以用来计算相似度的指标有?

*

A.Tanimoto系数(正确答案)

B.Pearson相关系数(正确答案)

C.Cosine相似度(正确答案)

D.欧式距离(正确答案)

45.关于FP-groqth算法,以下描述正确的是?

*

A.FP-growth算法与Apriori算法不同,该算法的第二步使用后缀树(FP-tree)结构(正确答案)

来编码事务,不显式生成候选集。

B.SparkMLlib中实现关联规则算法的包是∶org.apache.spark.mllib.fpa.(正确答案)

C.SparkMlib中实现了FP-growth的平行版本,叫做PFP.PFP可以将FP-growth的工作分发到其他机器,比单机运行有更好的扩展性。

(正确答案)

D.给定一个交易数据集,FP-growth的第一步骤是计算项目的频率,并确定频繁项目。

46.(判断)使用Breeze库时,需要同时导入相关包;∶bTeaze.finalg._和breeze.numerics._[单选题]*

A.TRUE(正确答案)

B.FALSE

47.(单选)关于SparkMLlib中SVD算法的使用说法错误的是?

[单选题]*

A.必须先通过已有数据创建出相应矩阵类型的对象,然后调用该类的成员方法来进行SVD分解。

(正确答案)

B.如果需要获得U成员,可以在进行SVD分解时,指定computet参数,令其等于False,即可在分解后的svd对象中拿到U成员.

C.SparkMLlib中SVD方法位于org.apache.spark.mllib.Linalg包下的RowMatrix和IndexedRowMatrix类中.

48.(判断)K-Means算法选择初始中心点的基本思想就是,初始的聚类中心之间的相互距离要尽可能的近。

[单选题]*

A.TRUE

B.FALSE(正确答案)

49.(判断)华为M机S机器学习服务以MLS实例的方式提供给用户,具备的优势包括开放交互式Notebook,支持多种开源建模语言(Python等)。

[单选题]*

A.TRUE(正确答案)

B.FALSE

50.(判断)MS,即MachineLearningService,是一→期数据挖掘分析平台服务,可以帮助用户通过机器学习技术发现已有数据中的趣律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用任成预测结果。

[单选题]*

A.TRUE(正确答案)

B.FALSE

51.(单选)购买与登录专属版MS的描述不正确的有?

[单选题]*

A.确认集群信息无误后,依次单击"立即购买"、"提交".(正确答案)

B.在购买专属版S实例之前需要先购买"MapReduce服务"。

C.在购买界面上,依次配置所需参数,其中,Kerberos认证∶关闭或者开启均可.

E.一旦提交,集群会立刻创建完成。

52.在华为MLS中,使用、"梯度提升树回归"算法进行建模,以下操作描述正确的有?

*

A.创建工作流需要在主菜单中选择"项目"->"创建",在弹出的对话框中的名称栏输入"Rearesen"。

(正确答案)

B.选择"建模"->"回归"->"梯度提升树回归",并拖拽到右侧的画布中,并进行连线。

(正确答案)

C把实验数据以csv格式下载到本地后,就可以进入MLS主菜单界面,选择"数据"->"文件系统"->"mls"->"上传文件".(正确答案)

D.选择"数据转换"-)"字段操作"->"修改元数据",并拖拽到右侧的画布中,并进行连线。

(正确答案)

E.选择"输入"->"保存模型",并拖拽到右侧的画布中,并进行连线。

53.(判断)大数据统架构将机器学习和数据处理进一步整合,从核心上来说,统一架构依然以大数据基础架构为主,只是对其进行了优化和改造,重点是在流处理层新增了数据服务层(数据挖掘、机器学习等[单选题]*

A.TRUE(正确答案)

B.FALSE

54.以下关于大数据架构重要性的描述正确的有?

*

A.好的大数据架构可扩展性强,可维护性高,能为企业未来的业务发展提供数据支撑。

(正确答案)

B.大数据架构作为数据提供者角色为大数据系统提供可用的数据。

(正确答案)

C.好的大数据架构需要围绕着企业的业务进行设计,而不是单单围绕着技(正确答案)

术架构。

业务是核心,而技术是业务的支持,好的大数据架构能满足业务的持续发展,

D.大数据架构作为大数据应用程序提供者可以是单个实例,也可以是一组更细粒度的大数据应用提供者实例的集合、集合中的每个实例执行数据生命周期中的不同活动。

(正确答案)

55.(单选)一个典型的大数据平台系统架构不包括以下哪个层次?

[单选题]*

A.数据平台层

B.数据服务层

C.数据应用层

D.数据可视化层(正确答案)

56.(单选)以下关于大数据Kappa架构描述不正确的是?

[单选题]*

A.Kappa架构在Lambda架构的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,依旧以流处理为主,但是数据却在数据湖层面进行了存储

B.在Kappa架构中,如果需要进行离线分析或者我次计算的时候,不必像实时分析那样将数据湖的数据再次经过消息队列重播少次(正确答案)

C.Kappa架构的缺点∶实施难度相对较高,第其是在数据重播的部分

D.Kappa架构的优点∶解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构军常简洁

57.以下关于大数据流式架构的相关描述正确的有。

*

A.对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。

对于离线分析仅仅支撑窗口之内的分析(正确答案)

B.流数据是一组顺序、大量、快速、连续到达的数据序列。

应用于网络监控、(正确答案)

传感器网络、航空航天、气象测控和金融服务等领域。

流式架构在数据接入端没有了ETL,转而替换为数据通道。

经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求。

C.大数据流式架构在大数据基础架构上,去掉批处理部分,从而更专注处理流式数据。

(正确答案)

D.流式架构在数据接入端没有E配,转而替换为数据通道。

经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求。

(正确答案)

58.(单选)以下关于数据挖掘描述不准确的是?

[单选题]*

A.大数据挖掘主要基于人工智能、机器学习、模式学习、统计学等。

通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。

B.通过数据挖掘可以建立起企业整体而不是某个业务过程局部的不同类型的模型。

(正确答案)

C.目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业风险规避等

D.大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程。

59.(单选)在案例"银行客户精准画像"中,数据阶段可以做的质量核查不包括?

[单选题]*

A.数据的有效性校验

B.数据的可替换性校验(正确答案)

C.数据的缺失性校验

D.数据的连续性校验

60.以下描述属于数据准备阶段的是*

A.因数据来自数据仓库中多个数据表,可以经过数据采集、清理和集成,生成个针对数据挖掘目标,确定与交易行为有关的数据项集合。

(正确答案)

B.考虑样本是否具有代表性。

(正确答案)

C.为了确保各变量在分析中的地位相同,可以对数据进行中心化和标准化变换。

(正确答案)

D.检查数据的逻辑性,区分数据缺失"和"0"。

根据逻辑推断某些值、寻找反常数据、评估数据是否真实。

(正确答案)

61.(判断)一家公司或企使用数据挖掘作为工具或方法处理商业问题就像拥有了一把金钥匙,这往往比拥有大量的熟悉和理解业务的人员更重要。

[单选题]*

A.TRUE(正确答案)

B.FALSE

62.Python常用数据结构,除了Number(数值)和String(字符串)外,还有哪些?

*

A.List(列表)(正确答案)

B.Tuple(元组)(正确答案)

C.Set(集合)(正确答案)

D.Dictionary(字典)(正确答案)

63.(单选)以下关于Python中函数定义的描述不正确的是?

[单选题]*

A.函数内容以冒号起始,并且缩进。

B.在python中只能用关键字def创建函数。

(正确答案)

C.Return用于返回一个函数执行的结果。

D.用def声明函数,后面跟函数名和小括号,括号内可以放置所需参数。

64.(单选)设X、X1、X2、Y是四个随机变量,a,b是常数,以下关于协方差的性质描述错误的是?

[单选题]*

A.如果Cov(X,Y)=0,则随机变量X,Y相互独立

B.Cov(X1+X2.Y)=Cov(X1,Y)+Cov(X2,Y)

C.Cov(aX,bY)=abCov(X,Y)(正确答案)

D.如果随机变量x,Y相互独立,则Cov(X,Y)=0

65.设x、Y是两个随机变量,C是常数,以下关于数学期望的性质描述正确的是?

[单选题]*

A.E(X+Y)=E(X)+(Y)(正确答案)

B.E(CX)=CE(X)

C.E(C)=C

66.(单选)以下关于Python正则表达式描述不正确的是?

[单选题]*

A.re正则表达式可以处理字符串数据,也能处理数值数据。

(正确答案)

B.re正则表达式模块使Python语拥有部分正则表是式功能。

C.re正则表达式是用于处理字符串的强大工其

67.以下关于特征值与特征向量分解的应用,说法正确的有?

*

A.在二次型最优化中,矩阵特征值的大小与函数值的变化快慢有关,在最大特征值所对应的特征方向上函数值变化最大,也就是该方向上的方向导数最大。

(正确答案)

B.如果某几个特征值很小,说明这个方向上的信息量很小,可以用来降维,(正确答案)

也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据维度减少,但有用信息量变化不大。

C.从线性空间的角度看,特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。

(正确答案)

D.在数据挖掘中,最大特征值对应的特征向量上包含最多的信息量。

(正确答案)

68.(单选)在数据抽取、转换和加载过程中,以下哪种不是数据抽取的方式?

[单选题]*

A.全量抽取

B.倒置抽取(正确答案)

C.更新抽取

D.增量抽取

69.(单选)一般而言,若数据类别比例超过(),即认为数据集中存在不均衡数据的现象。

[单选题]*

A.2:

1

B.4:

1(正确答案)

C.1:

1

D.3:

1

70.(单选)以下哪个选项不属于数据减洗的范畴?

[单选题]*

A.缺失值处理

B.不均衡数据处理

C.异常值处理

D.数据加载处理(正确答案)

71.(判断)若数据集中存在不均衡数据,都需要进行不均衡数据处理。

[单选题]*

A.TRUE(正

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 金融投资

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1