CPDA考试真题与答案5Word文件下载.docx
《CPDA考试真题与答案5Word文件下载.docx》由会员分享,可在线阅读,更多相关《CPDA考试真题与答案5Word文件下载.docx(14页珍藏版)》请在冰豆网上搜索。
二、单选题(题数:
30,共45.0分)
15.某超市研究销售记录发现,购买牛奶的人很大概率会购买面包,这种属于数据挖掘的哪类
问题?
A、聚类分析
B、关联规则
C、分类分析
D、自然语言处理
B
16.以下两种描述分别对应哪两种对分类算法的评价标准?
(a)警察抓杀人犯,描述警察抓的人中有多少个是杀人犯的标准。
(b)描述有多少比例的杀人犯给警察抓了的标准。
A、Precision,Recall
B、Recall,Precision
C、Precision,ROC
D、Recall,ROC
A
17.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
A、数据获取
B、分类和预测
C、数据预处理
D、数据可视化
C
18.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据
相分离?
A、分类
B、聚类
C、关联分析
D、主成分分析
下面哪种不属于数据预处理的方法?
A、变量代换
B、离散化
C、聚集
D、估计遗漏值
D
19.假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215
使用等宽划分(宽度为50)方法将它们划分成四个箱,求15在哪个箱子里?
A、第一个
B、第二个
C、第三个
D、第四个
20.以下哪些算法是分类算法?
A、DBSCAN
B、C4.5
C、K-Mean
D、K-medoids
21.以下哪些分类方法可以较好地避免样本的不平衡问题?
A、KNN
B、SVM
C、Bayes
D、神经网络
22.关于K均值和DBSCAN的比较,以下说法不正确的是()。
A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状
的簇
D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并
有重叠的簇
23.下列不属于关联分析的关键要素的是()
A、支持度
B、置信度
C、满意度
D、提升度
24.因子分析的主要作用有()
A、对变量进行降维
B、对变量进行判别
C、对变量进行聚类
D、以上都不对
ROC曲线凸向哪个角,代表模型越理想?
A、左上角
B、左下角
C、右上角
D、右下角
25.SQL语句中删除表的命令是()
A、DROPTABLE
B、DELETETABLE
C、ERASETABLE
D、DELETEDBF
26.在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否
存在线性相关关系的检验是()
A、r检验
B、t检验
C、f检验
D、DW检验
27.()提供的支撑技术,有效解决了大数据分析、研发的问题,比如虚拟化技术、并行
计算、海量存储和海量管理等。
A、点计算
B、线计算
C、云计算
D、面计算
28.智能健康手环的应用开发,体现了()的数据采集技术的应用。
A、统计报表
B、网络爬虫
C、API接口
D、传感器
29.下列关于数据重组的说法中,错误的是()
A、数据重组是数据的重新生产和重新采集
B、数据重组能够使数据焕发新的光芒
C、数据重组实现的关键在于多源数据融合和数据集成
D、数据重组有利于实现新颖的数据模式创新
30.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与
洋流可能发生的地点。
这体现了大数据分析理念中的()
A、在数据基础上倾向于全体数据而不是抽样数据
B、在分析方法上更注重相关分析而不是因果分析
C、在分析效果上更追究效率而不是绝对精确
D、在数据规模上强调相对数据而不是绝对数据
当前国内社会中,最为突出的大数据环境是()
A、互联网
B、物联网
C、综合国力
D、自然资源
31.下列关于聚类挖掘技术的说法中,错误的是()
A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B、要求同类数据的内容相似度尽可能小
C、要求不同类数据的内容相似度尽可能小
D、与分类挖掘技术相似的是,都是要对数据进行分类处理
32.下列关于大数据的分析理念的说法中,错误的是()
33.对于企业来说,数据使用的关键是()
A、数据收集
B、数据存储
C、数据分析
D、数据再利用
34.数据仓库的最终目的是()
A、收集业务需求
B、建立数据仓库逻辑模型
C、开发数据仓库的应用分析
D、为用户和业务部门提供决策支持
35.大数据背景下,数据支撑业务的目的是()
A、建立数据科学
B、完成数据应用
C、配备数据硬件
D、吸纳数据人才
36.在SQL中,创建数据库用的命令是()
A、CREATESCHEMA
B、CREATETABLE
C、CREATEVIEW
D、CREATEDATABASE
37.下列四项中,不属于数据库特点的是()
A、数据共享
B、数据完整性
C、数据冗余很高
D、数据独立性高
38.资金的时间价值是()
A、同一资金在同一时点上价值量的差额
B、同一资金在不同时点上价值量的差额
C、不同资金在同一时点上价值量的差额
D、不同资金在不同时点上价值量的差额
39.下列选项中属于现金流入的项目是()
A、所得税
B、建设投资
C、经营成本
D、营业收入
40.下列关于计算机存储容量单位的说法中,错误的是()
A、1KB<
1MB<
1GB
B、基本单位是字节(Byte)
C、一个汉字需要一个字节的存储空间
D、一个字节能够容纳一个英文字符
41.按数据的结构程度来划分,分为()
A、结构化数据半结构化数据非结构化数据
B、强结构化数据弱结构化数据
C、截面数据面板数据
D、一级数据二级数据三级数据
三、多选题(题数:
20,共40.0分)
以下属于数据预处理的是()
A、缺失值填充
B、噪声数据剔除
C、异常值识别
ABC
42.缺失值的处理方法有哪些?
A、用平均值填充
B、忽略缺失记录
C、以任意数据填充
D、用默认值填充
ABD
43.以下属于数据规约方法的是()
A、数据离散化
B、数据标准化
C、噪声数据识别
D、数据压缩
AD
44.数据挖掘的预测建模任务主要包括哪几大类问题?
B、回归
C、模式发现
D、模式匹配
AB
45.以下说法正确的有哪些?
A、大数据仅仅是讲数据的体量大
B、大数据对传统行业有帮助
C、大数据会带来机器智能
D、大数据是一种思维方式
BCD
46.关于大数据的来源,以下理解正确的是()
A、大数据是数据量变积累达到质变的结果
B、数据的产生需要经历很长时间
C、我们每个人都是数据的制造者
D、当今的世界,基本上一切都可以用数字表达,所以叫数字化的世界
ACD
47.大数据在今天这个时间点上爆发的原因有哪些?
A、各种传感器无时无刻不在为我们提供大量的数据
B、各种监控设备无时无刻不在为我们提供大量的数据
C、各种智能设备无时无刻不在为我们提供大量的数据
D、互联网的收集和积累
ABCD
48.()这些数据特性都是对聚类分析具有很强影响的。
A、高维性
B、规模
C、稀疏性
D、噪声和离群点
49.以下哪个分布是右偏分布?
A、均匀分布
B、卡方分布
C、F分布
D、对数正态分布
50.以下哪些变量使用RFM方法构造出来的?
A、最近3期境外消费金额
B、最近6期网银消费交易笔数
C、信用额度
D、距最近一次逾期的月数
51.如下表student中,如何筛选type为包含数学或语文的记录?
A、select*fromstudentwheretype=“数学”andtype=“语文”
B、select*fromstudentwheretype=“数学”typeo=r“语文”
C、select*fromstudentwheretypein(“数学”,“语文”)
D、select*fromstudentwheretypein(“数学”?
“语文”)
BC
52.主成分分析计算选择相关系数计算法时,确定主成分个数的大致原则包括()
A、特征根值大于1
B、特征根值大于0.8
C、累积特征根值加总占总特征根值的80%以上
D、累积特征根值加总占总特征根值的90%以上
AC
53.在客户关系管理中,客户的生命周期都包括()阶段。
A、潜在客户
B、响应客户
C、即得客户
D、流失客户
54.分箱方法有哪些?
(2.0分)0.0分
A、等深分箱
B、等宽分箱
C、数据标准化
D、自定义区间法
55.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。
在以下的购物篮
中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是()ID项集。
1面包、牛奶
2面包、尿布、啤酒、鸡蛋
3牛奶、尿布、啤酒、可乐
4面包、牛奶、尿布、啤酒
5面包、牛奶、尿布、可乐
A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶
BD
56.我们可以用哪种方式来避免决策树过度拟合的问题?
A、利用修剪法来限制树的深度
B、利用盆栽法规定每个节点下的最小的记录数目
C、利用逐步回归法来删除部分数据
D、目前并无适合的方法来处理这问题
57.图中0预测的准确率和召回率是多少?
A、0.81
B、0.77
C、0.80
D、0.78
58.以下属于聚类算法的是()
A、K均值
B、DBSCAN
C、Apriori
D、k-medoids
59.下列对ID3算法的描述,正确的是()
A、每个节点的分支度都不相同
B、使用InformationGain作为节点分割的依据
C、可以处理数值型态的字段
D、无法处理空值的字段
以下属于聚类算法的是()
D、knn