数据仓库与数据挖掘考试习题汇总Word下载.docx

资源描述

数据仓库与数据挖掘考试习题汇总Word下载.docx

《数据仓库与数据挖掘考试习题汇总Word下载.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘考试习题汇总Word下载.docx（26页珍藏版）》请在冰豆网上搜索。

数据仓库与数据挖掘考试习题汇总Word下载.docx

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。

5、使用星型模式可以从一定程度上提高查询效率。

因为星型模式中数据的组织已经经过预处理，主要数据都在庞大的事实表中。

6维度表一般又主键、分类层次和描述属性组成。

对于主键可以选择两种方式：

一种是采用自然键，另一种是采用代理键。

7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

8、数据仓库中存在不同综合级别的数据。

一般把数据分成4个级别：

早期细节级、当前细节级、轻度综合级和高度综合级。

第三章

1、SQLServerSSAS提供了所有业务数据的同意整合试图，可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。

2、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部分（包括名称、维度、类别、层次和度量）全面地描述出来。

3、数据仓库的逻辑模型通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述出来。

4、按照事实表中度量的可加性情况，可以把事实表对应的事实分为4种类型：

事务事实、快照事实、线性项目事实和事件事实。

5、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据拥护需求设计聚合模型。

6在项目实施时，根据事实表的特点和拥护的查询需求，可以选用时间、业务类型、区域和下属组织等多种数据分割类型。

7、当维表中的主键在事实表中没有与外键关联时，这样的维称为退化维。

它于事实表并无关系，但有时在查询限制条件（如订单号码、出货单编号等）中需要用至V。

8、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。

9、数据仓库的数据量通常较大，且数据一般很少更新，可以通过设计和优化索|引结构来提高数据存取性能。

10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割（分区）。

第四章

1、关联规则的经典算法包括Apriori算法和FP-growth算法，其中FP-grownth算法的效率更高。

2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再经过修剪，C3={{a,b,c},{a,b,d}}

3、设定supmin=50%,交易集如

则L仁{A}，{B}，{C}|L2={A,C}

T1ABC

T2AC

T3AD

T4BEF

第五章

1、分类的过程包括获取数据、预处理、分类器设计和分类决策。

2、分类器设计阶段包含三个过程：

划分数据集、分类器构造和分类器测试。

3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值。

4、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。

第六章

1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。

2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。

3、划分聚类方法对数据集进行聚类时包含三个要点：

选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值。

4、层次聚类方法包括凝聚型和分解型两中层次聚类方法。

填空题20分，简答题25分，计算题2个（25分），综合题30分

1、数据仓库的组成？

数据仓库数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统

2、数据挖掘技术对聚类分析的要求有哪几个方面？

P131

可伸缩性；

处理不同类型属性的能力；

发现任意形状聚类的能力；

减小对先验知识和用户自定义参数的依赖性；

处理噪声数据的能力；

可解释性和实用性

3、数据仓库在存储和管理方面的特点与关键技术？

数据仓库面对的是大量数据的存储与管理

并行处理

针对决策支持查询的优化

支持多维分析的查询模式

4、常见的聚类算法可以分为几类？

P132

基于划分的聚类算法，基于层次的聚类算法，基于密度的聚类算法，基于网格的聚类算法，基于模型的聚类算法等。

5、一个典型的数据仓库系统的组成？

P12

数据源、数据存储与管理、OLAP服务器、前端工具与应用

6数据仓库常见的存储优化方法？

P71

表的归并与簇文件；

反向规范化，引入冗余；

表的物理分割。

7、数据仓库发展演变的5个阶段？

P20

以报表为主

以分析为主

以预测模型为主

以运行向导为主以实时数据仓库、自动决策应用为主

8、ID3算法主要存在的缺点？

P116

（1）ID3算法在选择根结点和各内部结点中的分枝属性时，使用信息增益作为评价标准。

信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。

（2）ID3算法只能对描述属性为离散型属性的数据集构造决策树。

9、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。

P30

ETL软件的主要功能：

数据的抽取，数据的转换，数据的加载

对产生数据的目标要求：

详细的、历史的、规范化的、可理解的、即时的、质量可控制的

10、简述分类器设计阶段包含的3个过程

划分数据集，分类器构造，分类器测试

11、什么是数据清洗？

P33*

数据清洗是一种使用模式识别和其他技术，在将原始数据转换和移到数据仓

库之前来升级原始数据质量的技术。

12、支持度和置信度的计算公式及数据计算（P90）

找出所有的规则X丫,使支持度和置信度分别大于门限支持度：

事务中X和丫同时发生的比例，P（X?

丫）置信度：

项集X发生时，丫同时发生的条

件概率P（Y|X）Example:

13、利用信息包图设计数据仓库概念模型需要确定的三方面内容。

P57确定指标，确定维度，确定类别

14、K-近邻分类方法的操作步骤（包括算法的输入和输出）。

P128

It*1A：

［悔集Xmu*未知美标号的数据祥本沪（5&

JJUih输出；

林类标号帧据祥本油类标号，

（1）对于未知美标号的数据祥本X,拎购下式计算它与躺集X时,中每一个数

睢紛匸迟仅厂號y‘E,忆帖卜

（2）将第

（1）步中册所有廉氏距离挖照由小到大册顺序进厅U序，养且取前k牛距爲AOtExffix中的k*近黑假设“「皿分别是k个近邻中属于粪别皿昇“的祥本散量.祕

（9）如果p汁呼打if二山则沛类标号为汕鮒圧处屮

15、什么是技术元数据，主要包含的内容？

P29

技术元数据是描述关于数据仓库技术细节的数据，应用于开发、管理和维护Dvy包含：

DW结构的描述,如DW的模式、视图、维、层次结构和导出数据的定义，数据集市的位置和内容等业务系统、DW和数据集市的体系结构和模式汇总算法。

包括度量和维定义算法，数据粒度、主题领域、聚合、汇总和预定义的查询和报告。

由操作型业务环境到数据仓库业务环境的映射。

包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全（用户授权和存取控制）

16、业务元数据主要包含的内容？

业务元数据：

从业务角度描述了DW中的数据，提供了介于使用者和实际系统之间的语义层，主要包括：

使用者的业务属于所表达的数据模型、对象名和属性名

访问数据的原则和数据的来源

系统提供的分析方法及公式和报表的信息。

17、K-means算法的基本操作步骤（包括算法的输入和输出）。

P138*

输入；

数据集AbdkbN…说其中的数据样本只包含描述属性，不

包含类别属性/聚类个数knP

输出：

修渓差平方和准则最小的k个廉类・2

（1）从敢据集X中随机地选择k个数据样本作沟聚类的初始代表点，每一吓代表

点表示一个类别.*

（2）对于葢中的任一数据样本孟total）,计算它与k个初始代表点的距离，井且将它划分到距离最近的初始代表点所表示的类别中.仪

（3）完戚数据祥本的划分之后，对于每一个聚类，计茸其中所有数据样本的均值，

并且将其作为该聚类的新的代蔻点，由此需到k个均值代裘点°

（d）对于X中的任一数据样本x.（total）,计算它'

与k个均值代表点的

距离’开且将它划分到距离最近的均信代表点所表示的类别中"

（□）重复歩骤（3）和＜4）f直到各个聚黄不再发主变化丸止，即误差平為和准则函数的值达到最就-屮

18、数据从集结区加载到数据仓库中的主要方法？

P36

SQL命令（如Insert或Update）

由DW供应商或第三方提供专门的加载工具

由DW管理员编写自定义程序

19、多维数据模型中的基本概念：

维，维类别，维属性，粒度P37

维：

人们观察数据的特定角度，是考虑问题的一类属性，如时间维或产品维

维类别：

也称维分层。

即同一维度还可以存在细节程度不同的各个类别属性（如时间维包括年、季度、月等

维属性：

是维的一个取值，是数据线在某维中位置的描述。

粒度：

DW中数据综合程度高低的一个衡量。

粒度低，细节程度高，回答查询的种类多

？

20、Apriori算法的基本操作步骤P93^

Apriori使用一种称作逐层搜索的迭代方法，K项集用于探索K+1项集。

该方法是基于候选的策略，降低候选数

Apriori剪枝原则：

若任何项集是非频繁的，则其超集必然是非频繁的（不用产生和测试超集

该原则基于以下支持度的特性：

X,Y:

（XY）s（X）s（Y）

项集的支持度不会超过其子集支持度的反单调特性（anti-mon

展开阅读全文