数据挖掘题库带答案.docx-资源下载

数据挖掘题库带答案.docx

1、数据挖掘题库带答案数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案：正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案：错误解析：决策将日益基于数据和分析而作出，而并非基于经验和直觉3、 2011年被许多国外媒体和专家称为“大数据元年”()答案：错误解析：2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案：正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。()答案：错误Jf:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。6、数据整合、处理、校验在目前

2、已经统称为ELO答案：错误Jf:数据整合、处理、校验在H前已经统称为ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案：ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、 SQL答案：D9、（）是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。A、预测B、分析C、预测分析D、分析预测答案：C10、大数据发展的前提？答案：解伸：硕件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及，电子商务、社交网络、电子地图等的全

3、面应用，物联网的兴起11、调研、分析大数据发展的现状与应用领域。？答案：解析：略12、大数据时代的主要特征？答案：解析：数据量大（VOIUme）笫一个特征是数据量大。大数据的起始计量单位至少是P（IOOO个T）、E（IOO万个T）或Z（Io亿个T）。类型繁多（Variety）第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提岀了更高的要求。价值密度低（VaIUe）笫三个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在,信息海量,但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时

4、代亟待解决的难题。速度快、时效高（VeIOC辻y）第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。13、列举大数据时代的主要技术？答案：解谆：预测分析：预测分析是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险；当前最流行的预测分析工具当属IBM公司的SPSS, SPSS这个软件大家都已经很熟悉了，它集数据录入.整理、分析功能于

5、一身。用户可以根据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用，而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上。NOSQL数据库：非关系型数据库包括Key-VaIUe型(RediS)数据库、文档型 (MOnOgODB)数据库、图型(Neo4j)数据库；虽然NOSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。搜索和认知商业：当今时代大数据与分析已经发展到一个新的高度,那就是认知时代,认知时代不再是简单的数据分析与展示,它更多的

6、是上升到一个利用数据来支撑人机交互的一种模式,例如前段时间的圉棋大战,就是一个很好的应用、现已经逐步推广到机器人的应用上面,也就是下一个经济爆发点一人工智能,互联网人都比较熟悉国内的BAT,以及国外的apple、google facebook IBM、微软、亚马逊等等;可以大致看一下他们的商业布局，未来全是往人工智能方向发展，当然U前在认知商业这一块IBM当属领头羊,特别是当前主推的WatSOn这个产品，以及取得了非常棒的效果;关于更多认知商业资料流式分析：U前流式计算是业界研究的一个热点,最近TWitter.LinkedIn等公司相继开源了流式计算系统StOrm.Kafka等,

7、加上Yahoo!之前开源的S4,流式计算研究在互联网领域持续升温,流式分析可以对多个高呑吐量的数据源进行实时的清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。内存数据结构:通过动态随机内存访问(DRAM)、FIaSh和SSD等分布式存储系统提供海量数据的低延时访问和处理；分布式存储系统:分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息,它不但提高了系统的可鼎性、可用性和存取效率,还易于扩展。当前开源的 HDFS

8、还是非常不错数据可视化:数据可视化技术是指对各类型数据源(包括hadoop上的海量数据以及实时和接近实时的分布式数据)进行显示；当前国内外数据分析展示的产品很多，如果是企业单位以及政府单位建议使用COgnOS ,安全、稳定、功能强大、支持大数据、非常不错的选择。数据整合：通过亚马逊弹性 MR(EMR)、Hive、PigS Spark MapReduceCOUChbase HadOOP和MOngODB等软件进行业务数据整合；数据预处理:数据整合是指对数据源进行清洗、裁剪,并共享多样化数据来加快数据分析；数据校验:对分布式存储系统和数据库上的海量、高频率数据集进行数据校验，去除非法数据,

9、补全缺失。数据整合、处理、校验在IJ前已经统称为ETL,ETL过程可以把结构化数据以及非结构化数据进行清洗、抽取、转换成你需要的数据、同时还可以保障数据的安全性以及完整性、关于ETL的产品推荐使用datastage就行、对于任何数据源都可以完美处理。14.数据挖掘就是知识发现的过程()22、依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况,属于OA、聚类B、分类C、预测D、关联答案：B23、在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分，目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。属于OA、

10、聚类B、分类C、预测D、关联答案：A24、基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势，以确定未来目标数据的预测值()A、聚类B、分类C、预测D、关联答案：C25、从购物篮商品集中找出商品与商品之间的关系,有助于发Tr同商品之间的联系()A、聚类B、分类C、预测D、关联答案：D26、阐述数据挖掘与数据分析的区别?答案：27、数据挖掘就是知识发现的过程()答案：错误28、数据挖掘被认为是从数据中发现有用知识的整个过程()答案：错误解析：知识发现(KDD)被认为是从数据中发现有用知识的整个过程29、数据挖掘被认为是KDD过程中的一个特定步骤，它

11、是用专门算法从数据中抽取模式。答案：正确30、知识发现的原始数据,可以是结构化的,如数据库中的数据；也可以是半结构化的,如文本、图形和图像数据;但不能是异构型数据()答案：错误WtJf:可以是结构化的,如数据库中的数据；也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。31、发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的()答案：正确32、从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息, 就像从矿石中淘金一样，数据挖掘也因此而得名0答案：正确33、 CRlSP-DM过程是正确的顺序是:商业理解一数据准备一理解

12、数据一建立模型一模型评估一结果发布0答案：错误WJ=Jf:商业理解一理解数据一数据准备一建立模型一模型评估一结果发布34、 CRlSP-DM是“跨行业数据挖掘标准过程”的简写()答案：正确35、整个挖掘过程是一个不断反馈的过答案：对选择题；36、知识发现的英文简写是()A、 DKDB、 KDDC、 DMD、 DA答案：B37、数据挖掘的英文简写是()A、 DKDB、 KDDC、 DMD、 DA答案：C38、 CRlSP-DM过程模型过程包括O个阶段A、 5B、 6C、 7D、 8答案：B39、 CRISP-DM是哪个术语的简写()A、跨行业数据挖掘标准过程B、数据分析C、数据挖掘

13、标准D、数据挖掘过程答案：A40、下面哪个CRlSP-DM过程是正确的()A、商业理解一理解数据一数据准备一模型评估一建立模型一结果发布B、商业理解一理解数据一建立模型一数据准备一模型评估一结果发布C、商业理解一理解数据一数据准备一建立模型一模型评估一结果发布D、商业理解一数据准备一理解数据一建立模型一模型评估一结果发布答案：C41、 KDD过程主要包括()A、数据准备B、数据挖掘C、结果表达D、结果表示答案：ABCD42、判断题:SPSS M中的一个图标代表一个操作()答案：正确43、判断题:单击选项板上的节点，自动把新节点连接到数据流区域中的中心” 节点上()答

14、案：错误WtJf:双击选项板上的节点，自动把新节点连接到数据流区域中的“中心”节点上44、源节点是连接到初始数据源的节点,源节点只能发送数据()答案：正确45、终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()答案：错误扁总终端节点是生成输岀、图形、表格和模型的节点,不能从终端节点连接到任何节点46、填空题:一系列连接在一起的节点被称作答案：解析：工作流47、来将数据读入SPSS ModeIer中答案：解析:源节点48、 SPSS MOdeler可以运行和两种模式下答案：解析：SPSS MOdeIer可以运行在客户端和服务器端两种模式下11.当节点在选项板中被选

15、中后,会变成()A.红色B.黃色C.淡蓝色D.绿色49、在选项板上()节点，自动放置节点到数据流区域A、单击B、双击C、选中D、右键单击答案：B50、 SPSS M中所有的节点都放在()A、数据流区B、项目窗口C、工具栏D、选项板区答案：D51、在ModeIer中数据使用下列类型()A、连续型:用于描述数值。B、离散型:用于当一个具体值的精确数量未知时描述字符串。C、标志型:用于只取两个具体值的数据，如T或F, Y或0或1。答案：ABC52、位于SPSS M窗口中间部分的是()区A、工具箱B、流管理C、数据流编辑D、工程管理答案：C53、位于SPSS M

16、主窗口左侧下方的窗口是()A、工具箱B、流管理C、数据流编辑D、工程管理窗口答案：D54、节点工具箱窗口位于主窗口的()A、下方B、左侧C、右侧D、上方答案：A55、 O是组成数据流的最小单位A、节点B、文件C、数据D、超节点答案：A56、 SPSS M中()用于存放数据流中最常用的节点A、收藏夹B、源C、字段选项D、建模答案：A57、 SPSS M中()用于存放绘制各种统计图形的节点A、收藏夹B、源C、字段选项D、图形答案：D58、 SPSS M中O存放读入各种外部数据的节点A、收藏夹B、源C、字段选项D、建模答案：B59、 SPSS M中(

17、)用于存放针对字段操作的节点A、收藏夹B、源C、字段选项D、建模答案：C60、 SPSS M中()存放建立各种数据模型的节点A、收藏夹B、源C、字段选项D、建模答案：D61、 SPSS M中()用于存放显示数据集其基本统计特征的节点A、收藏夹B、输出C、字段选项D、建模答案：B62、 SPSS M中()存放将数据转换成其他格式的节点A、收藏夹B、导出C、字段选项D、建模答案：B63、通过窗口上的上下按钮可以使窗口呈现“可见”和“不可见”状态()答案：正确64、管理数据流是Modeler的核心操作()答案：正确65、源选项卡中的节点作为起始节点,可以有父节点连

18、接()答案：错误解析：源选项卡中的节点作为起始节点,不能有父节点连接66、缓冲节点用于建立一个数据缓冲区,存放数据流执行至此的中间结果()答案：正确67、在ModeIer中从“源”节点的“可变文件”读入TXT数据()答案：正确68、变量类型可以从数据挖掘和数据存储两个角度划分：答案：正确69、 MOdeler中变量分为实例化和非实例化两种状态:错Modeler中变量分为实例化、半实例化和非实例化两种状态答案：70、当变量的存储类型和取值都未知时,变量为()状态A、实例化B、半实例化C、非实例化D、赋值答案：C71、当变量的存储类型和取值都已经确定时,变量为()状态：A、实例

19、化B、半实例化C、非实例化D、赋值答案：72、当仅知道变量的存储类型,但取值范围未知时,变量为()状态A、实例化B、半实例化C、非实例化D、赋值答案：B73、在数据挖掘的实际问题中,人么更多考虑变量的存储类型:错在数据挖掘的实际问题中,人么更多考虑变量的计量类型答案:74、变量类型可以从数据挖掘和数据存储两个角度划分：答案：正确75、 MOdeler ,表示客户的年龄、家庭人数的变量是类型变量0答案：错误解析：表示客户的年龄、家庭人数的变量是数值型变量76、 MOdeler中,表示性别、职业的变量是定序型变量()答案：错误扁总表示性别、职业的变量是定类型变量()77、 M

20、Odeler中,表示学历和收入水平的变量是定序型变量()答案：正确78、 MOdeler中,学号等编号变量或者长文字等复杂数据变量,往往是无类型变量, 无类型变量可以参与数据建模0答案：错误解析：学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,无类型变量不可以参与数据建模79、 MOdeler中，缺省型是一种尚未明确的变量类型()答案：正确80、 MOdeler中,连续数值型变量可采用整数型或者实数型类型存储()答案：正确81、 MOdeler中，多分类型变量可采用整数型或字符串型存储答案：对选择题：；82、 MOdeler中，()选项卡用于指定读入数据的基本格式A、【数据】B、

21、【文件】C、【过滤】D、【类型】答案：B83、 Modeler中，()选项卡用于指定所读变量的存储类型和输入格式A、【数据】B、【文件】C、【过滤】D、【类型】答案：A84 Modeler中，()选项卡用于指定读数据时不读哪些变量,还可以重新修改变量名A、【数据】B、【文件】C、【过滤】D、【类型】答案：C85、ModeIer中，0选项卡用于指定变量的计量类型,对变量的缺失值和取值合理性进行检查A、【数据】B、【文件】C、【过滤】D、【类型】答案：D86、 MOdeler中,数据理解主要包括0A、数据质量评估B、数据调整C、数据的有序浏览D、多维度汇总

22、答案：ABCD87、 MOdeler中,可以通过【字段选项】中的()进行变量说明A、【源】B、【节点】C、【合并】D、【类型】答案：D88、 MOdeler中,离群点和极端值的调整方法中:（）表示剔除离群点和极端值A、无效B、丢弃C、强制替换丢奔极值D、强制替换使极值无效答案：B89、 MOdeler中,离群点和极端值的调整方法中：（）用系统缺失值$null$代替离群点或极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案：A90、 MOdeIer中,离群点和极端值的调整方法中：（）表示按照强制方法修正离群点, 并提出极端值A、无效B、丢弃C、强

23、制替换丢齐极值D、强制替换使极值无效答案：C91、 Modeler中,离群点和极端值的调整方法中：（）表示按照强制方法修正离群点, 并将极端值调整为系统缺失值A、无效B、丢弃C、强制替换丢乔极值D、强制替换使极值无效答案：D92、填空:MOdeIer中,可以通过【输出】选项卡中的节点评估数据质量答案：【数据审核】；93、 Modeler中，【类型】节点可以添加到数据流中的任何位置答案：正确94、 MOdeler中的空,就是传统意义上的空字符串()答案：错误解析：MOdeIer中的空,并非一般意义上的空串，它可以使数值,也可以是空格,还可以是$null$95、，在MOdeler中

24、,分析顾客的收入对其消费的影响时,收入就是输入变量,消费就是目标变量答案：正确96、 MOdeler中,借助【数据】节点的执行结果,可自动保留质量高的变量,剔除质量不高的变量0答案：错误解析：MOdeIer中，借助【数据审核】节点的执行结果,可自动保留质量高的变量, 剔除质量不高的变量97、单变量排序只根据一个变量的升序或者降序排列数据答案对答案：98、【记录选项】选项卡中的【汇总】节点可实现数据的分类汇总()答案：正确99、分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统计量0答案：错误WJ=Jf:单变量分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本

25、描述统计量100、判断题:CLEM可用于描述算数表达式和条件表达式()答案：正确101、判断题:在Modeler中,可通过【字段选项】选项卡中的【填充】节点实现对变量的重新计算答案：正确102、判断题：【字段选项】中的【导出】节点可实现变量类别的调整()答案：错误扁总【字段选项】中的【重新分类】节点可实现变量类别的调整103、判断题：【字段选项】中的【导出】节点可实现派生新变量()答案：正确104、判断题:有些统计分析方法对变量的分布有限定,当不满足要求时,通过【变换】节点,来将原有变量变更为服从正态分布的新变量0答案：正确105、判断题:可以通过【记录选项】中的【筛选】节点

26、,来实现对数据的精简和抽样0答案：错误扁总可以通过【记录选项】中的【样本】节点,来实现对数据的精简和抽样106、判断题:可以通过【记录选项】中的【样本】节点,来实现对数据的条件选取()答案：错误解析：可以通过【记录选项】中的【选择】节点,来实现对数据的条件选取107、选择题:MOdeler中，【填充】的【设置】选项卡中()，表示指定一个或多个重新计算的变量名A、填入字段B、替换为C、替换D、设置答案：A108、选择题:MOdeler ,【填充】的【设置】选项卡中()，指定重新计算的计算方法A、填入字段B、替换为C、替换D、设置答案：B109、选择题:MOdel

27、er中，【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中0表示所有样本都重新计算A、始终B、空值C、无效值D、空值与无效值答案：A110、MOdeler中，【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值 $null$A、始终B、空值C、无效值D、空值与无效值答案：C111 ModeIer ,【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中0用【替换为】框的计算结果替代变量中的空A、始终B、空值C、无效值D、空值与无效值答案：B112、 Mode

28、ler ,【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值 $null$和空A、始终B、空值C、无效值D、空值与无效值答案：D113、信息论的基本岀发点认为：第一，信息传递是通过一个传递系统实现：第二()答案：传递系统处于一个随机干扰的环境中114、垃信度越大，所允许的悲观误差估计越()答案: 高113、被减去的子树越大，最终的决策树越（）答案：小116、一个只有一个根节点答案：正确117、没有下层的节点成为叶肯点答案：正确118某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据

29、挖掘的哪类问题？（）A、关联规则发现B、聚类C、分类D、自然语言处理答案：A119、以下两种描述分别对应哪两种对分类算法的评价标准？（）A、警察抓小偷,描述警察抓的人中有多少个是小偷的标准。B、描述有多少比例的小偷给警察抓了的标准。A.PreCiSion, ReCalIB.Recall, PreCiSiOnC、 PreCiSiOnJ ROCD、 ReCalIJ ROC答案：A120、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（）A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案：C121、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B122、什么是 KDD?（）A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现答案：A123、使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?（）A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则答案：A124、为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务？（）A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则125

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？