数据仓库与数据挖掘期末复习.docx

资源描述

数据仓库与数据挖掘期末复习.docx

《数据仓库与数据挖掘期末复习.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘期末复习.docx（17页珍藏版）》请在冰豆网上搜索。

数据仓库与数据挖掘期末复习.docx

数据仓库与数据挖掘期末复习

1.数据仓库的概念和特点p11

定义：

一个面向主题的、集成的、非易失的且随时间变化的数据集合，用来支持管理人员作出决策。

特性：

面向主题的、集成的、非易失的、随时间不断变化的。

1、面向主题的：

数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体，是从整体的、全局的角度来衡量这些主题在企业中的作用。

2、集成的（最重要）：

数据仓库必须将不一致的数据进行有效的集成，使之在数据仓库中有一致性的表示形式。

一致性问题只是集成所包含的一部分工作，另外还需要根据主题进行有效的数据组织。

3、非易失性：

一旦操作型数据进入数据仓库，只要数据未超过数据仓库的数据存储期限，通常不对数据进行更新操作，而只进行查询操作。

即不进行一般意义上的更新，而且与操作型数据相比，更新频率要低得多，对时间的要求更为宽松。

4、随时间不断变化的（数据因时而变的特点）《与操作型数据比较的，书上14页》：

（1）数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。

操作型环境一般60-90天，数据仓库5-10年。

操作型环境中的数据库含有数据的“当前值”，其准确性访问是有效的，其当前值能被更新，数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。

操作型环境中的数据键码结构可能含有也可能不含有；数据仓库的键码结构总是包含某时间元素。

2.数据仓库中的关键概念14

外部数据源：

就是从系统外部获取的同分析主题相关的数据。

数据抽取：

是数据仓库按分析的主题从业务数据库抽取相关数据的过程。

数据清洗：

所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除，以免影响DSS决策的正确性。

数据转换：

各种数据库产品所提供的数据类型可能不同，需要将不同格式的数据转换成统一的数据格式，称为数据转换。

数据加载：

是指把清洗后的数据装入数据仓库的过程。

数据加载策略包括数据加载周期和数据追加策略。

数据加载周期要综合考虑经营分析需求和系统加载代价，对不同业务的数据采用不同的加载周期，但必须保持同一时刻业务数据的完整性和一致性。

元数据：

元数据是关于数据的数据。

元数据位于数据仓库的上层，而且能够记录数据仓库中对象的位置。

数据集市：

面向企业中的某个部门（主题）而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。

数据粒度：

粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。

细化程度越高，粒度级别就越低。

相反，细化程度越低，粒度级别就越高。

数据仓库的数据组织结构：

早期细节级（通常用于备用的、批量化的存储）、当前细节级、轻度综合数据级（数据集市）以及高度综合数据级。

一旦数据过期，就由当前细节级进入早期细节级。

经综合后的数据由当前细节级进入轻度综合数据级，然后由轻度综合数据级进入高度综合数据级。

数据粒度的两种形式：

第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量，另一种形式即样本数据库，是针对数据挖掘的，样本数据库是以一定的采样率（或按数据的重要程度的不同）从细节档案数据或轻度综合数据中抽取的一个子集。

数据分割：

分割是指将数据分割到各自的物理单元中以便能分别进行处理，提高数据处理效率，数据分割后形成的数据单元称为分片。

数据库

数据仓库

面向应用

数据是详细

保持当前数据

数据是可更新

对数据的操作是重复的

操作需求是事先可知的

一个操作只存取一条记录

数据非冗余

操作较频繁

所查询的是原始数据

事务处理需要当前数据

鲜有复杂的计算

支持事务处理

面向主题

数据是综合的或提炼的

保存过去的和现在的数据

数据是不可更新

对数据的操作是启发式的

操作需求是临时决定的

一个操作存取一个数据集合

数据常冗余

操作相对不频繁

所查询的是经过加工的数据

决策分析需要过去的和现在的数据

需做复杂的计算

支持决策分析

操作型数据

分析型数据

细节的

综合的或提炼的

在存取瞬间，数据是准确的

可更新的

事先可知操作需求

生命周期符合SDLC（软件开发生命周期）

对性能的要求较高

某一时刻操作一个单元

事务驱动

面向应用

一次操作的数据量较小

支持日常操作

历史数据

不可更新

操作需求事先不可知

完全不同的生命周期

对性能的要求较为宽松

某一时刻操作一个集合

分析驱动

面向分析

一次操作的数据量较大

支持管理需求

4.数据仓库的数据追加与方法

数据追加：

数据仓库中的数据初装完成后，再向数据仓库输入数据的过程。

数据仓库的内容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化的数据。

捕捉变化数据的常用途径如下：

（1）时标方法：

如果数据含有时标，对于插入或更新的数据记录，在记录中设置相应的时标，那么只需根据时标判断哪些数据是上次追加后变化的即可。

但并非所有数据库中的数据都含有时标。

（2）DELTA文件

1.DELTA文件是由应用生成的，记录应用所改变的所有内容。

2.利用DELTA文件效率很高，它避免扫描整个数据库。

但因应用系统常由不同的软件开发商开发，生成DELTA文件的应用并不普遍，还有更改应用代码的方法，可在生成新数据时将其自动记录下来，但应用数目庞大，修改的代码十分繁琐。

（3）前后映像文件的方法：

1.在抽取数据前后对数据库各做一次快照，然后比较两幅快照从而确定新数据。

2.它占用大量资源，对性能影响极大，因此无实际意义。

（4）日志文件（最切实有效）

日志是DMBS的固有机制

系统日志能把数据库服务器所执行的所有操作详细记录下来，通过分析日志获取数据变化情况。

它还具有DELTA文件的优越性质，提取数据只要局限日志文件即可，不用扫描整个数据库。

固有机制，不影响OLTP性能。

5..数据仓库的数据清理

1.数据加入失去原有细节的一个定期综合文件

2.数据从高性能介质转移到大容量介质上

3.数据从系统中实质性的清除

4.数据从体系结构的某一个层次转至另一个层次，必须从操作型层次转至数据仓库层次

6.数据集市的类型概念，在企业中很重要的作用

数据集市（DataMart），也叫数据市场，是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。

数据仓库在整个组织范围内为各个部门提供管理与决策支持，而数据集市通常处于部门级，只能为某个局部范围内的管理人员提供服务，因此也称为部门级数据仓库。

因此可以说数据集市是针对特定应用的数据仓库，即针对某个具有战略意义的应用或部门级应用，支持用户利用已有的数据做出管理决策。

数据集市（DataMarts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。

1.独立型数据集市（独立数据集市）其数据直接来自各个生产系统，许多企业考虑投资问题，最终建成独立数据集市，用来解决个别部门较为迫切的决策问题。

从这种意义上讲，它和企业数据仓库除了在数据量和服务对象上存在差别外，逻辑结构并无多大区别，也许就是把数据集市成为部门级数据仓库的主要原因。

2.从属性数据集市（从属集市）：

数据直接来自中央数据仓库访问数据仓库频繁的关键业务部门建立从属数据集市，可以提供查询操作的反应速度。

7.数据仓库VS数据集市

项目

数据仓库

数据集市

数据来源

范围

主题

数据粒度

数据结构

历史数据

遗留系统、OLTP系统、外部数据

企业级

企业主题

最细的粒度

规范化结构（第三范式）

数据仓库

部门级或工作级

部门级或特殊的分析主题

较粗的粒度

星型模式、雪花模式、两者混合

适量的历史数据

优化

索引

大量的历史数据

处理海量数据/数据索引

高度索引

便于访问、分析、快速查询

高度索引

8.数据仓库的体系结构

数据仓库系统的层次结构

数据仓库在逻辑上可以分为：

数据获取/管理层、数据存储层、数据分析/应用层

1.数据获取/管理层：

（1）.数据仓库的定义与修改、

（2）.数据的获取、（3.）数据仓库系统的管理

2.数据存储层：

是数据仓库的主体，包括

（1）.从外部数据源抽取数据，经清洗、转换处理，并按主题进行组织和存放称其为业务数据仓库

（2）.数据仓库的元数据（3.）针对不同的数据挖掘和分析主题而生成的数据集市

3.数据分析/应用层：

（1）查询/统计功能

（2）OLAP服务（3）数据挖掘服务

9.数据仓库的构造模式（加上有反馈的~~~六种）

1、自顶向下模式

2、自底向上模式、

3、平行开发模式

1.自定向下模式

特点：

在这种模式下，数据集市是数据仓库的真子集，数据由数据仓库流向数据集市。

数据仓库的设计过程直观，概念清晰，易于只要对外部数据源所支持的决策有较深入的额理解，保证各数据集市都是数据仓库的真子集，就可以完全消除信息之间的“蜘蛛网”现象。

这种模式不足之处在于要求设计者对具体业务有较深入的理解，系统设计规模较大，实施周期过长，项目见效缓慢，尤其是在项目实施初期，成效并不明显

构造方向：

从左到右

决策分析主题<数据集市数据仓库外部数据源

2.自底向上模式

自底向上模式设计思路是先具体，后综合

构造方向：

从右到左

决策分析主题<数据仓库数据集市外部数据源

特点：

投资少，见效快，由于数据集市缺少元数据，因而最终构造数据仓库的过程具有一定的难度，并有可能影响数据仓库整体构造的合理性以及系统的运行效率

3.平行开发模式（又称企业级数据集市模式）

平行模式是在自顶向下模式的基础上，吸收了自底向上的优点发展而成的，是他们的有机结合。

4.改进的开发模式

均在上面介绍的基础上经改进发展而来，共同特点是：

按照软件工程学的观点，接收用户对所构建的数据仓库系统的反馈信息，加以分析和整理，并以此为依据，对数据仓库进行修改，以不断提高数据系统对决策的支持能力。

12.联机分析处理p40

联机分析处理OLAP

定义：

OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。

目标是满足决策支持或多维环境下特定的查询和报表需求，因此OLAP可以说是多维数据分析工具的集合。

OLAP是针对特定问题的联机数据访问和分析处理

OLAP功能：

数据分析、报表（p67）

13.OLAP相关的基本概念p41

变量：

是数据的实际意义，用来描述数据”是什么”

维:

是人们观察数据的特定角度

维的层次：

人们观察数据的某个特定角度还可以存在细节程度不同的多个描述，这就是维的层次

维的成员：

维的一个取值称为该维的的一个成员

多维数组：

是维和变量的组合表示

数据单元：

是多维数据的取值

14.OLAP准则（12条，选择题）p44

1.OLAP模型必须提供多维概念

2.透明性

3.存取能力准则

4.稳定的报表能力

5.客户—服务器体系结构

6.维的等同性准则

7.动态的稀疏矩阵处理准则

8.多用户支持能力

9.非受限的夸维操作

10.直观的数据操作

11.灵活的报表的生成

12.非受限维语聚集层次

简化的5条原则：

1.快速性、2.可分析性、3.共享性、4.多维性、5.信息性

15.OLAP基本分析动作，每个动作是什么意思p49

数据切片：

多维数据的子集是多维数据的维i上切片

数据切片是一种优化功能，可以帮助将查询指向相应的数据。

数据切片无法为分区指定数据源。

也就是说，数据切片不能用于限制从分区事实数据表中选择的数据和包含在分区中的数据。

数据切片仅适用于使用ROLAP存储模式的对象。

使用分区向导创建分区时，可以指定一个数据切片。

数据切块：

是将完整的数据立方体切取一部分数据而得到得心的数据立方体

数据钻取：

就是从较高的维度层次下降到较低的维度层次上来观察多维数组

数据聚合:

是钻取得逆向操作，是对数据进行高层次综合的操作

数据旋转：

16.OLAP数据组织

1、多维数据组织MOLAPp57

多维数据库

基于多维数据库的MOLAP（多维联机分析处理）是以多维数据库（MDDB）为核心的。

简言之，多维数据库是以多维方式来组织和存储数据。

2、关系数据组织ROLAPp60

ROLAP（关系联机分析处理）将多维结构进行分解，利用两种表来表达多维信息。

17.星形结构的存储实现p61-62、雪花结构

星型模型由事实表和多个维度表组成。

事实表中存放大量关于企业的事实数据，对象个数通常都很大，而且非规范化程度很高。

为度表中存放描述性数据，维度表是围绕事实表建立的较小的表。

事实表是星型模型的核心，数据量大，冗余小

维度表是事实表的附属表

优点：

星形模型是非规范化的，以增加存储空间的代价，提高了多维数据的查询速度。

而规范化的关系数据库设计是使数据的冗余保持在最少，并减少了当数据改变时系统必须执行的动作。

容易从维度表中的数据分析开始，获得维度关键字，以便连接到事实表进行查询，减少事实表中扫描数据量，从而提高查询性能

缺点：

当事务问题发生变化，原来的维度不能满足要求时，需要增加新的维。

由于事实表的主键由所有的围标的主键组成，这种维度的变化带来数据变化将是非常复杂非常耗时的。

星形模型的数据冗余量很大。

2．雪花模型

雪花模型由一个事实表和多个维度表组成

雪花模型增加了用户必须处理的表的数量，增加了某些查询的复杂性。

但这种方式可以是系统进一步专业化和实用化，同时降低了系统的通用程度。

优点：

雪花模型在星型模型基础上，引入一个新表-----详细类别表，借助这个表对维度表进行描述，提高了数据模型的规范化程度，并使之具有较低的粒度。

雪花模型减少冗余，将表细化，具有较高的灵活性；

是最大限度的减少数据存储量，以及把较小的维度表联合在一起来改善查询性能。

缺点：

随着表的数量的增多，表之间的关联会增加，存在着降低系统性能的可能。

雪花模型是对星形模型的扩展，雪花模型对星形模型的维度表进一步层次化，原来的各维度可能被扩展为小的事实表，形成一些局部的“层次”区域。

18.星形模型和雪花模型的差异（p63，好像是选择？

）

星型模式VS雪花模式

1.雪花模式的维表可能是规范化的，以便减少冗余。

这种表易于维护，并节省存储空间。

2.实际上，与巨大的事实表相比，这种空间的节省可以忽略。

3.由于执行查询需要更多的连接操作，雪花结构可能降低浏览的性能。

4.在数据仓库设计中，雪花模式不如星型模式流行。

相同点：

进行OLAP处理，是以外键为基础进行维表与事实表、维表与维表之间的关联操作

不同点：

雪花模型虽然具有较小的事实表，但在执行某些查询时，需要做表间的二次链接运算，占用CPU资源较多，因而其与运行效率可能低于星型结构模型

19.两种数据组织的比较（MOLAP、ROLAP）P66表格

1.结构分析：

两种组织都满足OLAP数据处理流程，即数据装入、汇总、建立索引和提高使用方法。

MOLAP较之ROLAP要简明一些。

MOLAP的索引及数据综合可以自动完成，根据元数据。

自动管理所有的索引及模式，灵活性弱；ROLAP的实现较为复杂，但灵活性强

2.数据存取速度：

MOLAP相应速度快，ROLAP相应速度慢

3.数据存储容量：

ROLAP对于存储容量没有限制，MOLAP有限制

4.维度变化的适应性：

MOLAP支持高性能的决策型计算，包括跨维计算、行级计算；ROLAP无法完成多行的计算和维之间的计算

5.多维计算机能力：

ROLAP适应性更好

6.数据变化的适应性：

ROLAP对于数据变化的适应性高

7.软硬台平台的适应性：

ROLAP对软硬件平台的适应性很好，MOLAP则相对性差

8.元数据管理：

元数据是OLAP和数据仓库的核心数据，OLAP的元数据包括层次关系、计算转化信息、报表中的数据项描述、安全存取控制等

MOLAP以多维数据库为核心，在数据的存储和综合上有明显的优势，但它不适应太大的数据存储，特别对于汗大量稀疏数据的存储将浪费大量的存储空间；ROLAP以RDBMS为基础，利用成熟的技术为用户的使用和数据管理带来方便

9.系统培训和维护工作

项目

数据存储

技术

特征

MOLAP

详细数据通过关系表存储在数据仓库中；各种汇总数据保存在多维数据库中；从数据仓库中询问详细数据，从多维数据库中询问汇总数据

有MOLAP引擎创建；预先建立多维数据立方体；多维视图存储在阵列而非表格中；可以高速检索矩阵数据；利用稀疏矩阵技术来管理汇总的稀疏数据

询问的相应速度快；能轻松的适应多维分析；有广泛的钻取和多层次/多视角查询能力

ROLAP

全部数据以关系表形式存储在数据仓库中，可获得细节的综合汇总的数据；有非常大的数据容量；从数据仓库中询问所有数据

使用复杂SQL从数据库中获取数据；ROLAP引擎在数据分析中创建多维数据立方体；表示层能够表示多维视图

在复杂的数据分析功能上具有局限性，需要采用优化的OLAP；向下钻取数据较容易，但死跨维向下钻取数据较困难

24.概念模型设计p83很多，自己看

特点：

1.反映现实世界，满足用户对数据的需求，能帮助用户做出决策，是现实世界的真实模型

2.易于用户理解和参与，便于与用户交流

3.易于修改，能够随时根据用户需求的变化对模型进行修正与扩充

4.易于向数据仓库的数据模型（星型模型、雪花模型、事实星座模型）进行转换

24.1逻辑模型设计

逻辑模型包括：

1.初始数据组、2.二次数据组、3.连接数据组、4.类型数据组

维度表的设计：

维度表示事实表的进一步细化，它也要基于逻辑模型来设计；维度表就是将这些详细说明的额数据按逻辑关系进行存放工具。

一个维度表拥有很多属性，参考事实表的数据。

事实表的设计：

事实表是星型模型的核心，通常包括：

键（主键、外键）和详细指标，事实表需要大量的数据来对其属性和细节加以详细说明

索引策略：

了解B树P99

25.元数据的类型p102

1、按元数据描述的内容分

基于基本数据的元数据、关于数据处理的元数据、关于企业组织的元数据

2、按用户的角度分

技术元数据、业务元数据

3、按元数据在数据仓库中承担的任务分

静态元数据

动态元数据

4、按数据仓库的功能区域分类：

1.数据获取、2.数据存储、3.信息传递

螺旋式开发方式：

26.元数据的作用：

P104

1、元数据在数据求精、开发、重构中的作用

（1）描述业务规则与数据之间的映射

（2）数据分割

（3）概括与聚集

（4）提高系统灵活性

（5）定义标准处理规则

（6）预算与推导

（7）转换与再映射

2.元数据在数据抽取与转换中作用

（1）确定数据源

（2）保证数据仓库内容的质量

（3）实现属性间的映射与转换

元数据的收集：

1.来源于源系统、2.来源于抽取的数据、3.来源于转换与抽取和清洗的数据、4.来源于存储的数据、5.来源于装载的数据、6.来源于信息传递

26.粒度的划分：

粒度数据仓库数据单元的详细程度和级别

每个表的存储空间应是其数据存储空间和索引空间之和

（1）数据存储空间的估算

数据存储空间=表的行数X每行占用的空间

（2）索引存储空间估算

索引存储空间=表的行数X码占用的客户

一年数据

5年数据

10000000

双重粒度，仔细设计

20000000

双重粒度，仔细设计

1000000

双重粒度

10000000

双重粒度

100000

单粒度，仔细设计

1000000

单粒度，仔细设计

10000

不考虑

100000

不考虑

28.建立数据仓库的的步骤：

（1）收集并分析业务需求

（2）建立数据模型和数据仓库的物理设计

（3）定义数据源

（4）选择数据仓库技术和平台

（5）从操作型数据库提取、转换和净化数据并将其加载至数据仓库

（6）选择访问和报表工具

（7）选择数据库连接软件

（8）选择数据分析和数据展示软件

（9）更新数据仓库

30.SQLServer2005

是基于客户---服务器模型的关系型数据管理系统

工具：

（1）关系数据库:

作为数据仓库设计、构造和维护的基础

（2）数据转换服务：

用于向数据仓库加载数据

（3）数据复制：

用于分布式数据仓库分布和加载数据

（4）AnalysisServices：

用于采集和分析数据仓库中的数据

（5）OLBDB：

提供应用程序与数据源的API

（6）PivotTable：

用于定制操作多维数据的客户接口

（7）EnglishQuery：

提供使用自然语言查询数据仓库

（8）MetaDataServices：

浏览数据仓库中的元数据

30.2AnalysisServer包括算法：

1.分类算法、2.回归算法、3.分割算法、4.关联算法、5.顺序分析算法

33,数据挖掘的概念

数据挖掘就是从大量的、不完全、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、事先未知的、但又具有潜在价值的信息和知识的过程

34.知识类型：

1.广义知识：

是指类别特征的概括型的描述

2.关联知识：

是反映一个事件和其他事件之间的依赖或关联的知识

3.分类知识：

反映同类事物共同性质的特征知识和不同事物之间的差异性特征知识

4.预测型知识：

根据时间序列型数据，由历史的和当前的数据推测未来的数据，也可以认为是以时间为关键属性的关联知识

5。

偏差型知识：

是针对差异和极端特例的描述，揭示事物偏离常规的异常现象

36.数据挖掘的分类：

1.从数据分析的角度出发，数据挖掘分为：

描述性数据挖掘、预测型数据挖掘

数据清洗

1.空缺值；是指所关心的某些属性对应的部分属性值是空缺的

实现方法：

1.忽略元祖2.人工填写空缺值3.使用一个全局常量填充空缺值4.使用最可能的值填充空缺值

2.噪声：

是指一个测量变量中的随机错误或偏差。

3.不一致性：

对于无法判断不一致的数据的真实值的情况，可以采用处理空缺值的方法进行处理

37.数据集成

数据集成是指将来自不同数据源的数据整合成一致的数据存储

元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成

数据转换

常用的数据转换方法：

平滑、聚集、数据概化、规范化、属性构造

展开阅读全文