12《数据仓库与数据挖掘》复习题Word下载.docx

上传人:b****1 文档编号:14398331 上传时间:2022-10-22 格式:DOCX 页数:20 大小:314.53KB
下载 相关 举报
12《数据仓库与数据挖掘》复习题Word下载.docx_第1页
第1页 / 共20页
12《数据仓库与数据挖掘》复习题Word下载.docx_第2页
第2页 / 共20页
12《数据仓库与数据挖掘》复习题Word下载.docx_第3页
第3页 / 共20页
12《数据仓库与数据挖掘》复习题Word下载.docx_第4页
第4页 / 共20页
12《数据仓库与数据挖掘》复习题Word下载.docx_第5页
第5页 / 共20页
点击查看更多>>
下载资源
资源描述

12《数据仓库与数据挖掘》复习题Word下载.docx

《12《数据仓库与数据挖掘》复习题Word下载.docx》由会员分享,可在线阅读,更多相关《12《数据仓库与数据挖掘》复习题Word下载.docx(20页珍藏版)》请在冰豆网上搜索。

12《数据仓库与数据挖掘》复习题Word下载.docx

3、数据挖掘过技术的三个主要部分。

复习参考题:

一、填空题

(1数据库中的知识挖掘(KDD包括以下七个步骤:

数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。

(2数据挖掘的性能问题主要包括:

算法的效率、可扩展性和并行处理。

(3当前的数据挖掘研究中,最主要的三个研究方向是:

统计学、数据库技术和机器学习。

(4在万维网(WWW上应用的数据挖掘技术常被称为:

WEB挖掘。

(5孤立点是指:

一些与数据的一般行为或模型不一致的孤立数据。

二、单选题

(1数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:

B

A、所涉及的算法的复杂性;

B、所涉及的数据量;

C、计算结果的表现形式;

D、是否使用了人工智能技术

(2孤立点挖掘适用于下列哪种场合?

D

A、目标市场分析

B、购物篮分析

C、模式识别

D、信用卡欺诈检测

(3下列几种数据挖掘功能中,(D被广泛的应用于股票价格走势分析。

A.关联分析

B.分类和预测

C.聚类分析

D.演变分析

(4下面的数据挖掘的任务中,(B将决定所使用的数据挖掘功能。

A、选择任务相关的数据

B、选择要挖掘的知识类型

C、模式的兴趣度度量

D、模式的可视化表示

(5下列几种数据挖掘功能中,(A被广泛的用于购物篮分析。

A、关联分析

B、分类和预测

C、聚类分析

D、演变分析

(6根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是(B。

A.关联分析

C.演变分析

D.概念描述

(7帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是(C。

D.孤立点分析

E.演变分析

(8假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是(E

C.孤立点分析

E.概念描述

三、简答题

1、何谓数据挖掘?

它有哪些方面的功能?

答:

从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。

相关的名称有知识发现、数据分析、数据融合、决策支持等。

数据挖掘的功能包括:

概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。

2、一个典型的数据挖掘系统应该包括哪些组成部分?

一个典型的数据挖掘系统应该包括以下部分:

(1数据库、数据仓库或其他信息库;

(2数据库或数据仓库服务器;

(3知识库;

(4数据挖掘引擎;

(5模式评估模块;

(6图形用户界面。

3、请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘答:

常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:

空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy数据库、文本数据库和万维网(WWW等。

4、在哪些情况下,我们认为所挖掘出来的模式是有趣的?

一个模式是有趣的,如果(1它易于被人理解;

(2在某种程度上,对于新的或测试数据是有效的;

(3具有潜在效用;

(4新颖的;

(5符合用户确信的某种假设。

5、根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型。

第二讲数据的认识及预处理

1、什么是数据预处理,为什么要对数据进行预处理?

2、数据预处理的方法有哪些?

3、在数据预处理过程中度量中心趋势里中位数、众数等如何求取的?

4、度量数据离散度时如何求取极差、五数概括(基于四分位数、中间四分位数极差和标准差?

5、在消除数据的噪声时,采用的分箱技术中如何对数据进行等频(等深划分,如何进行等宽划分?

6、什么是数据变换?

如何使用“最小-最大规范化规范化”方法、“z-score规范化”方法以及“小数定标规范化”这三种方法将数据按比例缩放,使之落入一个小的特定区间里。

(1进行数据预处理时所使用的主要方法包括:

数据清理、数据集成、数据变换和数据规约。

(2处理噪声数据的方法主要包括:

分箱、聚类、计算机和人工检查结合、回归。

(3模式集成的主要问题包括:

整合不同数据源中的元数据,实体识别问题。

(4数据概化是指:

沿概念分层向上概化。

(5数据压缩可分为:

有损压缩和无损压缩两种类型。

(6进行数值归约时,三种常用的有参方法是:

线性回归方法,多元回归和对数线性模型。

(7数据离散度的最常用度量是五数概括、中间四分位数区间和标准差。

(1数据归约的目的是(C。

A、填补数据种的空缺值

B、集成多个数据源的数据

C、得到数据集的压缩表示

D、规范化数据

(2下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?

A.数据清理

B.数据集成

C.数据变换

D.数据归约

(3进行数据规范化的目的是(A。

A.去掉数据中的噪声

B.对数据进行汇总和聚集

C.使用概念分层,用高层次概念替换低层次“原始”数据

D.将属性按比例缩放,使之落入一个小的特定区间

(4数据的噪声是指(D。

A、孤立点

B、空缺值

C、测量变量中的随即错误或偏差

D、数据变换引起的错误

(5那种数据变换的方法将数据沿概念分层向上汇总C。

A、平滑

B、聚集

C、数据概化

D、规范化

(6(C通过将属性域划分为区间,从而减少给定连续值的个数。

A.概念分层

B.离散化

C.分箱

D.直方图

三、分析计算题

1、假设医院检测随机选择的18个成年人年龄和身体脂肪数据,得到如下结果:

(a计算年龄和脂肪百分比的均值、中位数和标准差

(b绘制年龄和脂肪百分比的盒图

(c根据Z-score规范化来规范化这两个属性

2、假定用于分析的数据包含属性age.数据元组age值(以递增序是:

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。

(a使用min-max规范化将age值35变换到[0.0,1.0]区间。

(b使用z-score规范化变换age值35,其中age的标准差为12.94岁。

(c使用小数定标规范化变换age值35。

(d对于给定的数据,你愿意使用哪种方法?

陈述你的理由。

3、假设12个销售价格记录组已经排序如下:

5,10,11,13,15,35,50,55,72,92,204,215。

使用如下每种方法将其划分成三个箱。

(a等频(等深划分。

(b等宽划分。

(c聚类。

第三讲数据仓库、数据立方体以及OLAP技术

1、什么是数据仓库,它的特点以及功能?

2、在数据仓库中提供的是联机分析处理(OLAP工具,它与OLTP有什么区别?

3、传统的数据库系统与数据仓库的区别?

4、什么是粒度?

它对数据仓库有什么影响?

按粒度组织数据的方式有哪些?

5、什么是数据立方体?

什么是维?

6、OLAP的基本操作有哪些?

(1数据仓库的多维数据模型可以有三种不同的形式,分别是:

星形模式、雪花模式

和事实星座模式。

(2给定基本方体,方体的物化有三种选择:

不物化、部分物化和全物化。

(3著名的数据仓库系统设计师W.H.Inmon认为,数据仓库与其他数据存储系统的区别的四个特征是:

面向主题、数据集成、随时间而变化和数据不易丢失。

(4在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。

(5数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:

分布的、代数的和整体的。

(6关于数据仓库的设计,四种不同的视图必须考虑,分别是:

自顶向下视图、数据源视图、数据仓库视图、商务查询视图。

(7OLAP服务器的类型主要包括:

关系OLAP服务器(ROLAP、多维OLAP服务器(MOLAP和混合OLAP服务器(HOLAP。

(8求和函数sum(是一个分布的的函数。

(9方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。

(1下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作(B。

A、上卷(roll-up

B、选择(select

C、切片(slice

D、转轴(pivot

(2以下哪个范围是数据仓库的数据库规模的一个合理范围(D。

A、1~100M

B、100M~10G

C、10~1000G

D、100GB~数TB

(3存放最低层汇总的方体称为:

C

A、顶点方体

B、方体的格

C、基本方体

D、维

(4哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?

A

A、上卷

B、下钻

C、切块

D、转轴

(5平均值函数avg(属于哪种类型的度量?

A、分布的

B、代数的

C、整体的

D、混合的

三、多选题

(1OLAP系统和OLTP系统的主要区别包括(ABD。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据;

B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;

C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多;

D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。

(2从结构的角度看,数据仓库模型包括以下几类:

ABC

A、企业仓库

B、数据集市

C、虚拟仓库

D、信息仓库

(3数据仓库的三层架构主要包括以下哪三部分?

BCD

A、数据源

B、数据仓库服务器

C、OLAP服务器

D、前端工具

(4以下哪些是数据仓库的主要应用?

ACD

A、信息处理

B、互联网搜索

C、分析处理

D、数据挖掘

四、分析与计算题

1、何谓数据仓库?

为什么要建立数据仓库?

数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性、随时间不断变化(不同时间的数据集合,为企业决策支持系统提供所需的集成信息。

建立数据仓库的目的有3个:

一、是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。

二、是解决决策分析对数据的特殊需求问题。

决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。

三、是解决决策分析对数据的特殊操作要求。

决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。

2、何谓粒度?

粒度是指数据仓库的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 化学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1