数据挖掘题库带答案.docx
《数据挖掘题库带答案.docx》由会员分享,可在线阅读,更多相关《数据挖掘题库带答案.docx(57页珍藏版)》请在冰豆网上搜索。
数据挖掘题库带答案
数据挖掘■题库带答案
1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:
正确
2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:
错误
解析:
决策将日益基于数据和分析而作出,而并非基于经验和直觉
3、2011年被许多国外媒体和专家称为“大数据元年”()答案:
错误
解析:
2013年被许多国外媒体和专家称为“大数据元年”
4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案:
正确
5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。
()答案:
错误
前总商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。
6、数据整合、处理、校验在目前已经统称为EL()
答案:
错误
侖总数据整合、处理、校验在H前已经统称为ETL
7、大数据时代的主要特征()
A、数据量大
B、类型繁多
C'价值密度低
D、速度快时效高
答案:
ABCD
8、下列哪项不是大数据时代的热门技术()
A、数据整合
B'数据预处理
C、数据可视化
D、SQL
答案:
D
9、()是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。
A'预测
B、分析
C'预测分析
D、分析预测
答案:
C
1()、大数据发展的前提?
答案:
解i申:
硕件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起
11、调研、分析大数据发展的现状与应用领域。
?
答案:
解析:
略
12、大数据时代的主要特征?
答案:
解析:
数据量大(Volume)
笫一个特征是数据量大。
大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
类型繁多(Variety)
第二个特征是数据类型繁多。
包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提岀了更高的要求。
价值密度低(Value)
笫三个特征是数据价值密度相对较低。
如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
速度快、吋效高(Veloc辻y)
第四个特征是处理速度快,吋效性要求高。
这是大数据区分于传统数据挖掘最显著的特征。
13、列举大数据时代的主要技术?
答案:
解谆:
预测分析:
预测分析是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。
可为预测、优化、预报和模拟等许多其他用途而部署。
随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险;当前最流行的预测分析工具当属IBM公司的SPSS,SPSS这个软件大家都已经很熟悉了,它集数据录入•整理、分析功能于一身。
用户可以根据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上。
NoSQL数据库:
非矢系型数据库包括Key-value型(Rcdis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的吋间,但是不可否认,现在已经开始了第二代运动。
尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。
搜索和认知商业:
当今吋代大数据与分析已经发展到一个新的高度,那就是认知吋代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据来支撑人机交互的一种模式,例如前段时间的圉棋大战,就是一个很好的应用、现已经逐步推广到机器人的应用上面,也就是下一个经济爆发点一人工智能,互联网人都比较熟悉国内的BAT,以及国外的apple、googleAfacebook、IBM、微软、亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当然U前在认知商业这一块IBH当属领头羊,特别是当前主推的watson这个产品,以及取得了非常棒的效果;矢于更多认知商业资料
流式分析:
U前流式计算是业界研究的一个热点,最近Twitter.Linkedln等公司相继开源了流式计算系统Storm.Kafka等,加上Yahoo!
之前开源的S4,流式计算研究在互联网领域持续升温,流式分析可以对多个高呑吐量的数据源进行实吋的清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。
内存数据结构:
通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统提供海量数据的低延时访问和处理;
分布式存储系统:
分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可鼎性、可用性和存取效率,还易于扩展。
当前开源的HDFS还是非常不错
数据可视化:
数据可视化技术是指对各类型数据源(包括hadoop上的海量数据以及实吋和接近实时的分布式数据)进行显示;当前国内外数据分析展示的产品很多,如果是企业单位以及政府单位建议使用cognos,安全、稳定、功能强大、支持大数据、非常不費的选择。
数据整合:
通过亚马逊弹性MR(EMR)、Hive、Pig、Spark>MapReduceCouchbase>Hadoop和MongoDB等软件进行业务数据整合;
数据预处理:
数据整合是指对数据源进行清洗、裁剪,并共享多样化数据来加快数据分析;
数据校验:
对分布式存储系统和数据库上的海量、高频率数据集进行数据校验,去除非法数据,补全缺失。
数据整合、处理、校验在口前已经统称为ETL,ETL过程可以把结构化数据以及非结构化数据进行清洗、抽取、转换成你需要的数据、同吋还可以保障数据的安全性以及完整性、矢于ETL的产品推荐使用datastage就行、对于任何数据源都可以完美处理。
14.数据挖掘就是知识发现的过程()
:
错误
:
数据挖掘是数据库知识发现(英语:
Knowledge-DiscoveryinDatabases,:
KDD沖的一个步骤
15、数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程()
答案:
正确
16、DataMining有相当大的比重是由高等统计学中的多变量分析所支撑0
答案:
正确
17、现实意义中的数据挖掘分析对象是真实的海議数据;这些数据之间存在一定的逻辑矢系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据()
答案:
错误
解析:
现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间没有一定的逻辑矢系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据
18、数据挖掘主要构建四大类模型包括:
分类、聚类、预测和矢联()
答案:
正确
19、基于事物发展的延续性和随机性预测事物未来的发展属于吋间序列分析()
答案:
正确
2()、数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
A'大量的
B、不完全的
C、有噪声的
D、模糊的
答案:
ABCD
21、下列哪个领域没有应用数据挖掘技术
A、农业
B'金融
C、教育
D、以上全部应用答案:
D
22、依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况*属于()
A、聚类
B、分类
C、预测
D、矢联
答案:
B
23、在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。
属于()
A、聚类
B、分类
C、预测
D、矢联
答案:
A
24、基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()
A、聚类
B、分类
C、预测
D、矢联
答案:
C
25、从购物篮商品集中找出商品与商品之间的矢系,有助于发7T同商品之间的联系()
A、聚类
B、分类
C、预测
D、矢联
答案:
D
26、阐述数据挖掘与数据分析的区别?
答案:
27、数据挖掘就是知识发现的过程()
答案:
错误
28、数据挖掘被认为是从数据中发现有用知识的整个过程()
答案:
错误
解析:
知识发现(KDD)被认为是从数据中发现有用知识的整个过程
29、数据挖掘被认为是KDD过程中的一个特定步骤,它是用专门算法从数据中抽取模式。
答案:
正确
3()、知识发现的原始数据,可以是结构化的,如数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;但不能是异构型数据()
答案:
错误
W-tJf:
可以是结构化的,如数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
31、发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的()
答案:
正确
32、从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名()
答案:
正确
33、CRISP-DM过程是正确的顺序是:
商业理解一数据准备一理解数据一建立模型一模型评估一结果发布()
答案:
错误
前总商业理解一理解数据一数据准备一建立模型一模型评估一结果发布
34CRISP-DM是“跨行业数据挖掘标准过程”的简写()
答案:
正确
35、整个挖掘过程是一个不断反馈的过一
答案:
对
选择题;
36、知识发现的英文简写是()
A、DKD
B、KDD
C、DM
D、DA
答案:
B
37、数据挖掘的英文简写是()
A、DKD
B、KDD
C、DM
D、DA
答案:
C
38、CRISP-DM过程模型过程包括0个阶段
A、5
B'6
C、7
D、8
答案:
B
39、CRISP-DM是哪个术语的简写()
A、跨行业数据挖掘标准过程
B、数据分析
C、数据挖掘标准
D、数据挖掘过程
答案:
A
40'下面哪个CRISP-DM过程是正确的()
A、商业理解一理解数据一数据准备一模型评估一建立模型一结果发布
B、商业理解一理解数据一建立模型一数据准备一模型评估一结果发布
C、商业理解一理解数据一数据准备一建立模型一模型评估一结果发布
D、商业理解一数据准备一理解数据一建立模型一模型评估一结果发布答案:
C
41、KDD过程主要包括()
A、数据准备
B、数据挖掘
C、结果表达
D、结果表示答案:
ABCD
42、判断题:
SPSSM中的一个图标代表一个操作()
答案:
正确
43、判断题:
单击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上()
答案:
错误
W-tJf:
双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上
44、源节点是连接到初始数据源的节点,源节点只能发送数据()
答案:
正确
45、终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()答案:
错误
扁总终端节点是生成输岀、图形、表格和模型的节点,不能从终端节点连接到任何节点
46、填空题:
一系列连接在一起的节点被称作一
答案:
解析:
工作流
47、__来将数据读入SPSSModeler中
答案:
解析:
源节点
48、SPSSMode1er可以运行和__两种模式下
答案:
解祜:
SPSSModeler可以运行在客户端和服务器端两种模式下
11•当节点在选项板中被选中后,会变成()
A.红色
B.黃色
C.淡蓝色
D.绿色
49、在选项板上()节点,自动放置节点到数据流区域
A、单击
B'双击
C'选中
D'右键单击
答案:
B
50'SPSSM中所有的节点都放在()
A、数据流区
B、项目窗口
C、工具栏
D'选项板区
答案:
D
51、在Modeler中数据使用下列类型()
A、连续型:
用于描述数值。
B、离散型:
用于当一个具体值的精确数量未知时描述字符串。
C、标志型:
用于只取两个具体值的数据,如T或F,Y或()或1。
答案:
ABC
52、位于SPSSM窗口中间部分的是()区
A、工具箱
B、流管理
C、数据流编辑
D、工程管理
答案:
C
53、位于SPSSM主窗口左侧下方的窗口是()
A、工具箱
B、流管理
C、数据流编辑
D、工程管理窗口
答案:
D
54、节点工具箱窗口位于主窗口的()
A、下方
B、左侧
C'右侧
D、上方
答案:
A
55、()是组成数据流的最小单位
A、节点
B、文件
C'数据
D、超节点
答案:
A
56、SPSSM中()用于存放数据流中最常用的节点
A'收藏夹
B、源
C、字段选项
D、建模
答案:
A
57、SPSSM中()用于存放绘制各种统计图形的节点
A'收藏夹
B、源
C、字段选项
D、图形
答案:
D
58、SPSSM中()存放读入各种外部数据的节点
A'收藏夹
B、源
C、字段选项
D、建模
答案:
B
59、SPSSM中()用于存放针对字段操作的节点
A、收藏夹
B、源
C、字段选项
D、建模
答案:
C
60'SPSSM中()存放建立各种数据模型的节点
A、收藏夹
答案:
正确
69、Modeler中变量分为实例化和非实例化两种状态:
错
Modeler中变量分为实例化、半实例化和非实例化两种状态答案:
7()、当变量的存储类型和取值都未知时,变量为()状态
A、实例化
B、半实例化
C、非实例化
D、赋值
答案:
C
71、当变量的存储类型和取值都已经确定时,变量为()状态:
A、实例化
B、半实例化
C、非实例化
D、赋值
答案:
72、当仅知道变量的存储类型,但取值范围未知吋,变量为()状态
A、实例化
B、半实例化
C、非实例化
D、赋值
答案:
B
73、在数据挖掘的实际问题中,人么更多考虑变量的存储类型:
错在数据挖掘的实际问题中,人么更多考虑变量的计量类型
答案:
74、变量类型可以从数据挖掘和数据存储两个角度划分:
答案:
正确
75、Modeler中,表示客户的年龄、家庭人数的变量是类型变量()答案:
错误
解析:
表示客户的年龄、家庭人数的变量是数值型变量
76、Modeler中,表示性别、职业的变量是定序型变量()
答案:
错误
扁总表示性别、职业的变量是定类型变量()
77、Modeler中,表示学历和收入水平的变量是定序型变量()
答案:
正确
78、Modeler中,学号等编号变量或者长文字等复杂数扌居变量,往往是无类型变量,无类型变量可以参与数据建模()
答案:
错误
解析:
学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,无类型变量不可以参与数据建模
79、Modeler中,缺省型是一种尚未明确的变量类型()
答案:
正确
8()、Modeler中,连续数值型变量可采用整数型或者实数型类型存储()
答案:
正确
81、Modeler中,多分类型变量可采用整数型或字符串型存储一
答案:
对
选择题:
;
82、Modeler中,()选项卡用于指定读入数据的基本格式
A、【数据】
B、【文件】
C'【过滤】
D、【类型】
答案:
B
83、Modeler中,()选项卡用于指定所读变量的存储类型和输入格式
A、【数据】
B、【文件】
C'【过滤】
D、【类型】
答案:
A
84>Mode1er中»()选项卡用于指定读数扌居时不读哪些变量,还可以重新修改变量
名
A、【数据】
B、【文件】
C'【过滤】
D、【类型】
答案:
C
85、Modeler中,0选项卡用于指定变量的计量类型,对变量的缺失值和取值合理性进行检查
A、【数据】
B、【文件】
C'【过滤】
D、【类型】
答案:
D
86、Modeler中,数据理解主要包括()
A、数据质量评估
B、数据调整
C、数据的有序浏览
D、多维度汇总
答案:
ABCD
87'Modeler中,可以通过【字段选项】中的()进行变量说明
A、【源】
B、【节点】
C、【合并】
D、【类型】
答案:
D
88、Modeler中,离群点和极端值的调整方法中:
()表示剔除离群点和极端值
A、无效
B、丢弃
C、强制替换丢奔极值
D、强制替换使极值无效
答案:
B
89、Modeler中,离群点和极端值的调整方法中:
()用系统缺失值$null$代替离群点或极端值
A、无效
B'丟弃
C、强制替换丟弃极值
D、强制替换使极值无效
答案:
A
9()、Modeler中,离群点和极端值的调整方法中:
()表示按照强制方法修正离群点,并提出极端值
A、无效
B'丟弃
C、强制替换丟齐极值
D、强制替换使极值无效
答案:
C
91、Modeler中,离群点和极端值的调整方法中:
()表示按照强制方法修正离群点,并将极端值调整为系统缺失值
A、无效
B'丟弃
C、强制替换丟乔极值
D、强制替换使极值无效
答案:
D
92、填空:
Modeler中,可以通过【输出】选项卡中的一节点评估数据质量
答案:
【数据审核】;
93Modeler中,【类型】节点可以添加到数据流中的任何位置
答案:
正确
94'Modeler中的空,就是传统意义上的空字符串()
答案:
错误
解析:
Modeler中的空,并非一般意义上的空串,它可以使数值,也可以是空格'还可以是$null$
95',在Modeler中,分析顾客的收入对其消费的影响时,收入就是输入变量'消费就是目标变量
答案:
正确
96Modeler中,借助【数据】节点的执行结果,可自动保留质量高的变量'剔除质量不高的变量()
答案:
错误
解析:
Modeler中,借助【数据审核】节点的执行结果,可自动保留质量高的变量,剔除质量不高的变量
97、单变量排序只根据一个变量的升序或者降序排列数据一
答案对
答案:
98、【记录选项】选项卡中的【汇总】节点可实现数据的分类汇总()
答案:
正确
99、分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统计量()
答案:
错误
前总单变量分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统计量
10()、判断题:
CLEM可用于描述算数表达式和条件表达式()
答案:
正确
101、判断题:
在Modeler中,可通过【字段选项】选项卡中的【填充】节点实现对变量的重新计算
答案:
正确
102、判断题:
【字段选项】中的【导出】节点可实现变量类别的调整()
答案:
错误
扁总【字段选项】中的【重新分类】节点可实现变量类别的调整
103、判断题:
【字段选项】中的【导出】节点可实现派生新变量()
答案:
正确
104、判断题:
有些统计分析方法对变量的分布有限定,当不满足要求吋,通过
【变换】节点,来将原有变量变更为服从正态分布的新变量()
答案:
正确
105、判断题:
可以通过【记录选项】中的【筛选】节点,来实现对数据的精简和
抽样()
答案:
错误
扁总可以通过【记录选项】中的【样本】节点,来实现对数据的精简和抽样
106、判断题:
可以通过【记录选项】中的【样本】节点,来实现对数据的条件选取()
答案:
错误
解析:
可以通过【记录选项】中的【选择】节点,来实现对数据的条件选取
107、选择题:
Modeler中,【填充】的【设置】选项卡中()'表示指定一个或多个重新计算的变量名
A、填入字段
B、替换为
C、替换
D、设置
答案:
A
108、选择题:
Modeler【填充】的【设置】选项卡中(),指定重新计算的计算方法
A、填入字段
B、替换为
C、替换
D、设置
答案:
B
109、选择题:
Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重新计算的条件,其中()表示所有样本都重新计算
A、始终
B、空值
C、无效值
D、空值与无效值
答案:
A
11()、Modeler中,【填充】的【设置】选项卡中'【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值$nul1$
A、始终
B、空值
C、无效值
D、空值与无效值
答案:
C
Hl>Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的空
A、始终
B、空值
C、无效值
D、空值与无效值
答案:
B
112、Modeler中,【填充】的【设置】选项卡中,【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值$nul1$和空
A、始终
B、空值
C、无效值
D、空值与无效值
答案:
D
113、信息论的基本岀发点认为:
第一,信息传递是通过一个传递系统实现:
第二()
答案:
传递系统处于一个随机干扰的环境中
114、垃信度越大,所允许的悲观误差估计越()
答案:
高
113、被减去的子树越大,最终的决策树越()
答案:
小
116、一个只有一个根节点
答案:
正确
117、没有下层的节点成为叶肯点
答案:
正确
118>某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
()
A、矢联规则发现
B、聚类
C、分类
D、自然语言处理
答案:
A
119、以下两种描述分别对应哪两种对分类算法的评价标准?
()
A、警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
B、描述有多少比例的小偷给警察抓了的标准。
A.Precision,Recal1
B•Recal1,Precision
C、Precision,ROC
D'Recall,ROC
答案:
A
120、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
()
A、频繁模式挖掘
B、分类和预测
c、数据预处理
D、数据流挖掘
答案:
C
121、当不知道数据所带标签吋,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
()
A、分类
B、聚类
C、矢联分析
D、隐马尔可夫链
答案:
B
122、什么是KDD?
()
A、数据挖掘与知识发现
B、领域知识发现
C、文档知识发现
D'动态知识发现
答案:
A
123、使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一