参考答案of数据挖掘.docx

上传人:b****6 文档编号:5900918 上传时间:2023-01-02 格式:DOCX 页数:32 大小:63.38KB
下载 相关 举报
参考答案of数据挖掘.docx_第1页
第1页 / 共32页
参考答案of数据挖掘.docx_第2页
第2页 / 共32页
参考答案of数据挖掘.docx_第3页
第3页 / 共32页
参考答案of数据挖掘.docx_第4页
第4页 / 共32页
参考答案of数据挖掘.docx_第5页
第5页 / 共32页
点击查看更多>>
下载资源
资源描述

参考答案of数据挖掘.docx

《参考答案of数据挖掘.docx》由会员分享,可在线阅读,更多相关《参考答案of数据挖掘.docx(32页珍藏版)》请在冰豆网上搜索。

参考答案of数据挖掘.docx

参考答案of数据挖掘

第一章

以下属于数据挖掘任务的是〔〕

根据性别划分公司的顾客

计算公司的总销售额

预测一对骰子的结果

利用历史记录预测公司的未来股价

可以在不同维度合并数据,从而形成数据立方体的是〔〕

数据库

数据源

数据仓库

数据库系统

目的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果的是〔〕

数据清洗

数据集成

数据变换

数据归约

下述四种方法哪一种不是常见的分类方法〔〕

决策树

支持向量

K-Means〔聚类〕

朴素贝叶斯分类

以下任务中,属于数据挖掘技术在商务智能方面应用的是〔〕

欺诈检测

垃圾邮件识别

根据因特网的搜索引擎查找特定的Web页面

定向营销

异常检测的应用包括〔〕

网络攻击

预测某股票的未来价格

计算公司的总销售额

根据性别划分公司顾客

将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务〔〕

频繁模式挖掘

分类和预测

数据预处理

数据流挖掘

KDD1〔数据挖掘与知识发现〕

以下有关离群点的分析错误的选项是〔〕

一般情况下离群点会被当作噪声而丢弃

离群点即是噪声数据

在某些特殊应用中离群点有特殊的意义

信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴

以下关于模式识别的相关说法中错误的选项是〔〕

模式识别的本质是抽象出不同事物中的模式并由此对事物进行分类

医疗诊断属于模式识别的研究内容之一

的指纹解锁技术不属于模式识别的应用

自然语言理解也包含模式识别问题

〔〕不属于数据挖掘的应用领域。

商务智能

信息识别

搜索引擎

医疗诊断

目前数据分析和数据挖掘面临的挑战性问题不包括〔〕

数据类型的多样化

高维度数据

离群点数据

分析与挖掘结果可视化

常见的机器学习方法有监督学习、无监督学习、半监督学习

数据挖掘是从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。

频繁模式是指数据集中频繁出现的模式

离群点是指全局或者局部范围内偏离一般水平的观测对象

联机分析处理是数据仓库的主要应用

分类是指通过建立模型预测离散标签,回归是通过建立连续值模型推断新的数据的某个数值型属性。

数据库是面向事务,数据仓库是面向主题

数据挖掘主要侧重解决的四类问题:

分类、聚类、关联、预测

数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结。

特征化是一个目标类数据的一般特性或特性的汇总。

无监督学习可以在没有标记的数据集上进行学习。

聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比拟相似而不同组对象间差异较大。

事务数据库的每个记录代表一个事务。

数据仓库和数据库其实是相同的,都是数据或信息的存储系统。

区分是将目标类数据对象的一般特性与一个或多个比照类对象的一般特性进行比拟。

离群点因偏离一般水平而不需要考虑和研究。

聚类过程的输入对象有与之关联的目标信息。

数据挖掘的主要任务是从数据中发现潜在的规那么,从而能更好的完成描述数据、预测数据等任务。

数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的开掘。

数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。

数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,并提取出有用的信息

的过程。

数据分析的定义:

数据分析就是对数据进行分析。

专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

错〔说的是数据仓库〕

第二章

下面哪个不属于数据的属性类型〔〕

标称

序数

区间

相异

属于定量的属性类型是〔〕

标称

序数

区间

相异

一所大学内的各年纪人数分别为:

一年级200人,二年级160人,三年级130人,四年级110人。

那么年级属性的众数是〔〕

一年级

二年级

三年级

四年级

假设属性income的最大最小值分别是12000元和98000元。

利用最大最小标准化的方法将属性的值映射到0至1的范围内。

属性income的73600元将被转化为〔〕

 

考虑数据集{12243324556826},其四分位数极差是〔〕

31

24

55

3

光年所属的属性类型为〔〕

标称属性

序数属性

区间标度属性

比率标度属性

某班数学期末考成绩分组数据如下,那么数据的中位数区间是〔〕

At

J

II

It

86空静并

901m

1

60至69分

70至79分

80至89分

90至100分

军衔所属的属性类型为〔〕

标称属性

序数属性

二元属性

数值属性

计算p1〔2,1,4,10〕和p2〔3,0,3,8〕两个对象之间的曼哈顿距离〔〕

4

2

5

用AM和PM表示的时间的属性类型是〔

标称

序数二元区间

属性可分为标称、序数、二元和数值四类

中心趋势度量包括众数、均值、中位数和中列数

假设给定的数据集的值已经分组为区间。

区间和对应的频率如下。

那么数据的近似分组中位数是。

■*

1-3

*

卜轉

4M

U-2

»[

K»-l

某部门的月薪情况如下〔单位:

千元〕,30,33,48,50,53,53,57,60,64,68,70,70,90,那么该部门员工的月薪的均值为。

数据集{5,10,11,13,15,15,35,50,55,72,92,204,215}的中位数为,众数为。

3515

假设小明某一学期的考试成绩及每门课的学分如下表所示,那么小明本学期的加权平均成绩为

■ma

■a

n-

U

u

JH

1

4

1

4

给定两个对象的元组x=〔4,3,5,1〕与y=〔1,6,7,3〕,它们之间的余弦相似度为。

小明参加数学竞赛选拔赛,他十次测试成绩为:

76,84,90,86,81,87,86,82,85,83。

那么小明同学十次测试成绩的方差是。

点A的空间坐标为〔6,30,9〕,点B的空间坐标为〔10,35,2〕,那么A与B之间的切比雪夫距离为。

7

只有非零值才重要的二元属性被称作。

非对称二元属性

某组同学的成绩评定结果如下,那么A与B,A与C,B与C之间的相异性是、和。

矗字

A

[D)

ft(

All(Cl

a

A[>>

c

tC»

给定两个词向量元祖A〔6,2,5,8〕和B〔4,5,2,6〕,那么这两个对象之间的闵可夫斯基距离〔其中h=4〕是。

假定用于分析的数据包含属性age,数据元组中age的值如下〔按递增序〕:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,45,52,70。

那么该组数据的中歹U数是。

人的血型属于标称属性。

酒店的星级属于数值属性。

错〔序列〕

某品种玉米苗中抽取10株,测得它们的株高为:

21,42,39,14,19,22,37,41,40,25〔单位:

cm〕,那么玉米苗株高的标准差为

离散属性总是具有有限个值。

标称属性的值提供了足够的信息用于区分对象。

数值属性的值提供足够的信息确定对象的顺序。

欧几里得距离、曼哈顿距离、闵可夫斯基距离和切比雪夫距离均满足非负性、同一性和三角不等式。

余弦相似性利用向量空间中两个向量夹角的余弦值来衡量两个个体间的差异。

余弦值越接近0,夹角越大,向量之间匹配越大

〔小〕。

余弦值越接近1,夹角越小,向量之间匹配越小。

二元属性的相异性有两种,一种是对称的二元相异性,另一种是非对称的二元相异性。

点X的空间坐标为〔3,4,2〕,点Y的空间坐标为〔1,6,1〕,那么X与Y的欧几里得距离为3。

计算由不对称的二元变量描述的对象间的相异度可以使用Jaccard系数;

计算用分类变量描述的对象间的相异度可以采用属性值匹配的方法〔属性值匹配,相似度为1,否那么为0〕;对

第三章

下面属于维归约常用的线性代数技术的有〔〕

主成分分析

特征提取

特征加权

离散化

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务〔〕

频繁模式挖掘

分类和预测

数据预处理

数据流挖掘

假设12个销售价格记录组已经排序如下:

5,10,11,13,15,35,50,55,72,92,204,215

成四个箱。

等频〔等深〕划分时,15在第几个箱子内〔〕

第一个

第二个

第三个

第四个

数据清理不包括以下哪些处理〔〕

缺失值的处理

噪声的处理

重复数据的处理

不一致数据的处理

数据标准化方法包括〔〕

数据归约

数据泛化

数据集成

最小最大标准化

给定一组二维样本S,S={S1,S2,S3,S4,S5}={〔1,2〕,〔3,0〕,〔4,3〕,〔5,7〕,〔1,6〕},

的阈值局部p大于等于3时的噪声数据为〔〕欧几里得距离

S4,S5

51,S4

52,S5

S1,S5

两组向量x={6,4,7,10,8},y={5,6,1,4,12}的协方差为〔〕

cov〔x,y〕=Exy-ExEy=E[〔x-Ex〕〔y-Ey〕]

 

假定用于分析的数据包含属性age,数据元祖中age的值如下〔按递增序〕:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。

对age值35进行小数定标标准化转换,转换后的值为〔〕

 

使用如下每种方法将它们划分

在距离阈值d大于等于4、非邻点样本

0.35

某工厂车间工人的年终奖,其均值为34349元,标准差为16928元,对于观测值为57000元,使用z-score方法对其进

行标准化为〔〕

 

假定用于分析的数据包含属性age,数据元祖中age的值如下〔按递增序〕:

使用min-max标准化,将age值35转换d至I」

[0.0,1.0]区间的值为〔〕

 

以下数据变换类型及方法正确的选项是〔〕

数据平滑:

去噪,将连续数据离散化,增加粒度

数据聚集:

对数值属性进行监督或无监督离散化

特征构造:

构造出新的属性

数据标准化:

使数据按照比例缩放,落入特定区域

数据变换的类型包括〔〕

数据预处理

数据泛华

数据离散化

特征构造

数据规约的技术包括维规约、数量规约、数据压缩

下面哪些属于数据预处理的方法〔〕

变量代换

离散化

聚集

估计遗漏值

在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各方法正确的有〔〕

忽略元组

从数据中挑选一个数据填写

使用属性的平均值填写空缺值

使用与给定元组属同一类的所有样本的平均值

数据清理的原那么包括〔〕

相异性原那么

连续性原那么

唯一性原那么

空值原那么

高质量数据的要求有准确性、完整性、一致性

数据预处理的技术手段包括数据清理、数据变换、数据集成、数据规约

假定用于分析的数据包含属性age,数据元祖中age的值如下〔按递增序〕:

age的标准偏差为年,使用z-score标准化对age值35进行转换,转换后得到的值为。

删除数据对象或属性、估计遗漏值、忽

在现实世界的数据中,元组在某些属性上的缺失值是常有的。

处理该问题的常用方法有

略遗漏值

对数据进行偏差检测的3个原那么分别是唯一性原那么、连续性原那么、空值原那么

数据归约技术包括维归约、数量归约、数据压缩

在使用分箱法实现特征离散化时,可以用每个箱中的中值__或—平均值替换箱中所有的值。

某工厂车间工人的年终奖金结果如下〔已按照递增排序〕:

15750,20000,25000,36000,48000,50000,52000,56000,

57000,68000,10000,135000〔元〕。

使用最小-最大值标准化将奖金57000转换到[0.0,1.0]区间为0.35;

使用小数定标标准化将奖金57000转换到[-1,1]区间为

数据清理一般需要对—缺失值__和一噪声_进行处理。

我们要进行数据预处理,是因为原始数据大多都是“脏数据〞。

四种处理缺失数据的方法是、、、。

人工填写、使用全局常量填充缺失值、直接删除缺失属性的记录、使用

属性的中心趋势度量值填充缺失值

数据平滑的方法包括、和。

分箱、回归、聚类

噪声是指被测量的变量产生的错误或误差。

数据规约技术可以得到数据集的规约表示,虽然小,但仍大致保持原数据的完整性。

数据变换是通过平滑聚集、数据概化、标准化等方式将数据转换成适用于数据挖掘的形式。

数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。

唯一性原那么是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。

数据变换策略主要包括光滑、聚集、数据泛化、标准化、属性构造和离散化。

每个属性的最大值和最小值之间没有缺失值既满足连续性原那么。

数据挖掘所处理的数据必须具有准确性、完整性、一致性、时效性、可信性和可解释性。

数据规约就是指对数据集进行简化表示。

数据集成有助于减少结果数据集的冗余和不一致,可以提高集成之后的挖掘过程的准确性和速度。

在确定数据中的离群点时,一般不必检查整个数据集。

第四章

数据仓库是随着时间变化的,下面的描述不正确的选项是〔〕

捕捉到的新数据会覆盖原来的快照

数据仓库随时间的变化不断增加新的数据内容

数据仓库随着事件变化不断删去旧的数据内容

数据仓库中的综合数据会随着时间的变化不断地进行重新综合

关于根本数据的元数据是指〔〕

根本元数据包括与企业相关的管理方面的数据和信息

根本元数据包括日志文件和简历执行处理的时序调度信息

根本元数据包括数据源,数据仓库和应用程序等结构相关的信息

根本元数据包括关于装载和更新处理,分析处理以及管理方面的信息

下面关于数据粒度的描述不正确的选项是〔〕

数据越详细,粒度就越小,级别也就越高

粒度是指数据仓库小数据单元的详细程度和级别

数据综合度越高,粒度也就越大,级别也就越高

粒度的具体划分将直接影响数据仓库中的数据量以及查询质量

有关数据仓库的开发特点,不正确的描述是〔〕

数据仓库开发要从数据出发

数据仓库使用的需求在开发时就要明确

数据仓库的开发是一个不断循环的过程,是启发式的开发

在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式

在有关数据仓库测试,以下说法不正确的选项是〔〕

在完成数据仓库的实施过程中,需要对数据仓库进行各种测试

在数据仓库进行测试之前一般不必要制定非常详细的测试方案

系统测试需要对数据仓库的组件进行大量的功能测试和回归测试

当数据仓库的每个单独组件完成后,就需要对他们进行单元测试

OLAP技术的核心是〔〕多维分析

关于OLAF和OLTP的说法,以下不正确的选项是〔〕

OLAP管理大量历史数据,OLTF仅管理当前数据

OLAP主要用于事务和查询处理,而OLTP用于数据分析

OLAP中综合提炼的数据主要来自OLTP所依赖的底层数据库

OLAP数据较之OLTP数据要进行更多的数据维护或预处理的操作

数据仓库设计的三级数据模型不包含〔〕

概念模型

逻辑模型

关系模型

物理模型

改变数据立方体维次序的操作是〔〕旋转

在给定的数据立方体的一个维度上进行的选择操作为〔〕切片

以下选项中关于粒度描述错误的选项是:

粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别;

粒度影不响存放在数据仓库中的数据量的大小

粒度影响数据仓库所能答复查询问题的细节程度;

粒度组织数据的方式有:

①简单堆积结构;②轮转综合结构;③简单直接结构;④连续结构。

简述数据仓库设计的三级模型及其根本内容,不正确的选项是

概念模型设计:

对问题域内事务进行描述,是在较高的抽象层次上的设计,其主要内容包括:

界定系统边界和确定主要的主题

域;

逻辑模型设计:

对概念模型细化,定义实体属性及其关系,主要内容包括:

分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统;

物理数据模型设计:

在数据库中建立表及索引,主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。

三种模型设计时主要考虑的因素有I/O存取时间、空间利用率和维护代价等。

关于OLAP的特性,下面正确的选项是〔〕

集成性

快速性

多维性

可分析性

数据模型是数据仓库建设的根底,一个完整、灵活、稳定的数据模型对数据仓库工程的成功起到的重要作用有〔〕

利于数据的整合

消除数据仓库的冗余数据

排除数据描述的不一致性

为整个系统建设提供导航图

根据使用情况的不同,元数据可以分为〔〕技术元数据;业务元数据

关于数据仓库的逻辑模型,正确的说法有〔〕是数据仓库设计中的核心根底对概念数据模型的分解和细化

对物理模型设计和实现具有指导作用为全局效劳,集成全方位数据形成统一蓝图关于OLAF和OLTP的区别描述,正确的选项是〔〕

OLAP是信息处理,OLTP是操作处理

OLAP面向底层管理人员,OLTP面向高层决策人员

OLAP管理大量历史数据,OLTP主要关注当前数据

OLAP数据是细节性数据,OLTF数据那么是综合性数据

OLAP按照数据存储格式划分,实现方式有_MOLAP_、_ROLAP_gHOLAPE种

根据使用情况的不同,元数据可以分为_技术元数据___和业务元数据;根据数据状态的区别又可分为__静态元数据__和动态元

数据。

数据仓库按照设计顺序,依次分为_概念模型设计—、_逻辑模型设计—和一物理模型设计__三个设计步骤

OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术开展之后迅猛开展起来的一种新技术。

数据仓库中间层OLAP效劳器只能采用关系型OLAP错数据仓库系统的组成局部包括数据仓库,仓库管理,数据抽取,分析工具等四个局部。

错数据仓库测试工作中主要包括单元测试和系统测试。

改变数据立方体维度的操作称为下钻。

数据仓库实际的三级模型中的概念模型不是对软件实际的描述。

对数据仓库就是一个面向什么的数据集合?

主体、集成、非易失、时变数据仓库体系结构通常采用一种三层体系结构,底层、中间层、顶层分别通常为什么?

OLAP效劳器、数据仓库效劳器、前端工

/、

第五章回归分析中使用的距离是点到直线的垂直坐标距离,最小二乘准那么是指〔〕。

使各〔Yt-Yt平均值〕之和最小

回归分析的步骤为〔〕。

③确定变量②建立预测模型①进行相关分析⑤计算预测误④确定预测值以下变量之间的关系是函数关系的是〔〕

二次函数y=ax2+bx+c,其中a,c是常数,取b为自变量,因变量是这个函数的判别式△=b2—4ac。

光照时间和果树亩产量降雪量和交通事故发生率每亩施用肥料量和粮食产量

对于回归分析,以下说法错误的选项是〔〕

在回归分析中,变量间的关系假设是非确定性关系,那么因变量不能由自变量唯一确定线性相关系数可以是正的,也可以是负的

回归分析中,如果r2=1,说明x与y之间完全相关

样本相关系数r€〔-1,1〕

某地区调查了2~9岁儿童的身高,由此建立的身高y〔cm〕与年龄x〔岁〕的回归模型为,以下表达正确的选项是〔〕。

该地区一个儿童的身高为

该地区2~9岁的儿童每年的身高约增加

该地区9岁儿童的平均身高是

利用这个模型可以准确地预测该地区每个2~9岁儿童的身高

对一组观察值做出散点图后确定具有线性相关关系,假设对于y=bx+a,求得b=0.51,-x?

=61.75",-,那么线

性回归方程为〔〕。

y=0.51x+

下表是x和y之间的一组数据,那么y关于x的回归方程必过〔〕

点〔2.5,4〕平均值

反映由模型中解释变量所解释的那局部离差大小的是〔〕。

总离差平方和

回归平方和

残差平方和

可决系数

总离差平方和TSS残差平方和RSS与回归平方和ESS三者的关系是〔〕。

TSS=RS9ESS

决定系数R2的取值范围是〔〕。

0

回归分析中定义的〔〕。

解释变量和被解释变量都是随机变量

解释变量为非随机变量,被解释变量为随机变量

解释变量和被解释变量都为非随机变量

解释变量为随机变量,被解释变量为非随机变量

最大或然准那么是按从模型中得到既得的n组样本观测值的什么最大的准那么确定样本回归方程〔〕。

概率

下表为日本的汇率与汽车出口数量数据,其中X为平均汇率〔日元/美元〕,Y为汽车出口数量〔万辆〕,那么,X与Y的相关系

数为〔〕。

1393

3MQ

L99Q

IKE

■:

BBB

|J|&

ua

33B

LB

127

M

V

M|

m

m

sn

WT

MI

44C

 

那么早稻收获量对春季降雨量和春季温度的二元线性

某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据如下

回归方程为〔〕

■WiiT

b

MW

i>

44

ID

D

T3B

im

14

11

|

iJt

it

 

为研究某市家庭收入与月平均生活支出的关系,该市统计部门随机调查了

10个家庭,得数据如下,那么回归直线方程为〔〕

〕。

相关系数显著性检验法;t检验法;F检验法

在回归分析中,检验线性相关显著性常用的三种检验方法,包含〔

回归方程y=1.5x-15,那么以下说法不正确的有〔〕

y=1.5x-15

15是回归系数a是回归系数a

x=10时,y=0

以下关系中具有相关关系的是〔

人的年龄与他拥有的财富之间的关系曲线上的点与该点的坐标之间的关系

苹果的产量与气候之间的关系

森林中的同一种树木,其断面直径与高度之间的关系

以下变量中,属于正相关的是〔〕。

收入增加,储蓄额增加

产量增加,生产费用增加

收入增加,支出增加

价格下降,消费增加

回归分析按照涉及变量的多少,分为:

一元回归分析,多元回归分析

假设线性回归方程中的回归系数b=0,那么相关系数r为:

0

某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算得

聲山-皿臨扎.為雷⑷质,那么其线性回归方程为〔系数保存两位小数〕_

关于某

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 解决方案

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1