数据仓库复习.docx

资源描述

数据仓库复习.docx

《数据仓库复习.docx》由会员分享，可在线阅读，更多相关《数据仓库复习.docx（17页珍藏版）》请在冰豆网上搜索。

数据仓库复习.docx

数据仓库复习

1、数据仓库数据的四个基本特征:

数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是不可更新的数据仓库的数据是随时间不断变化（数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的（时变的）、不可修改的（非易失的）数据集合，用于支持管理决策。

）

2、数据仓库的技术要求：

大量数据的组织和清理、复杂分析的高性能体现、对提取出来的数据进行集成、对进行高层决策的最终用户的界面支持。

3、数据库与数据仓库比较

对比内容

数据库

数据仓库

数据内容

当前值

历史的、存档的、归纳的、计算的数据

数据目标

面向日常业务操作，重复处理

面向主题域，管理决策分析应用

数据特性

动态变化，按字段更新

静态，不可直接更新，只能定时添加、刷新

数据结构

高度结构化，适合操作计算

简单，适合分析

数据访问量

有许多事务，每个事务只访问少量的数据

有的事务可能需要访问大量数据

使用频率

高

中到低

数据操作需求

操作需求事先可知道，系统可按预计的工作量进行优化

操作需求事先不知道，永远不知道下一步用户要做什么

响应时间

以秒为单位计算

以秒、分钟甚至小时为计算单位

4、事务处理环境不适宜DSS应用的原因：

事务处理和分析处理的性能特性不同、数据集成问题、历史数据问题、数据的综合问题

5、数据仓库中的关键概念：

1、外部数据源2、数据提取/数据抽取，数据仓库按主题从业务数据库提取相关数据的过程。

3、数据清洗，企业建立很多不同的数据库数据的不一致将错误的、不一致的数据在进入数据仓库之前予以更正或删除，以免影响DSS决策的正确性。

4、数据转化把源数据的数据格式转换成统一的数据格式的过程5、数据加载把清洗后的数据装入数据仓库的过程6、ETL——用户从数据源抽取出所需的数据，经过数据清洗、转换,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

6、数据集市小型的、面向企业中的某个部门（主题）而在逻辑上或物理上划分出来的数据仓库中的数据子集。

（独立型和从属型）

6、数据粒度：

粒度是指数据仓库中数据单元的详细程度和级别。

数据越详细，粒度就越小，级别也就越低：

数据综合度越高，粒度就越大，级别也就越高。

事务级数据的粒度最小，它是汇总型数据的数据源。

在数据仓库中粒度是不是越大越好。

粒度是对数据仓库中的数据综合程度高低的一个度量。

粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。

因此，粒度应在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。

7、数据分割：

数据分割是指把数据分散存储到各自的物理单元中去，以便它们能独立地处理，提高数据处理效率及数据处理的灵活性。

对数据分割的目的：

易于实现数据仓库的重构/重组、能够自由地建立数据库索引、便于对数据进行顺序扫描、易于实现数据仓库的监控和恢复。

设计数据分割最重要的是选择适当的分割标准，一般要考虑下面几方面因素：

数据量的大小是决定是否进行数据分割和如何分割的主要因素、数据分析处理的实际情况，不同的主题内数据分割的标准不同、选择用于数据分割的标准应当简单易行、进行数据分割设计时，更重要的是将数据分割标准与粒度的划分策略统一起来。

8、数据仓库的数据组织形式:

1）简单堆积文件：

将每日由DB中提取并加工的数据逐天积累地存储起来2）简单直接文件：

按某个时间周期的数据库快照存储。

3）定期综合文件：

数据存储单位分为日、周、月、季、年等几个级别，定期进行综合存储优点：

存储量小\”缺点：

细节在综合中丢失\4）连续文件：

通过比较两个连续的简化直接文件的不同，生成另一个连续文件。

9、数据仓库的数据追加:

1）时标方法：

若数据含有时标，则对新插入或更新的数据记录加更新时的时标，只需根据时标即可判断。

即给（数据库）中的数据增加一个时间标记，当检索到新的时间标记时，把带有新时间标记的记录作为数据仓库的数据追加内容。

2）前后映象文件比较法：

在上次抽取DB数据到DW之后及本次将抽取DB数据之前，对DB分别作一次快照，比较两幅快照的不同，从而确定实现DW追加的数据。

缺点：

数据库数据量大时，全数据库比较无法做到。

3）DELTA文件：

从应用程序中记录修改了哪些数据，形成DELTA文件，作为数据追加内容。

它由应用生成，记录了应用所改变的所有内容。

利用DELTA文件效率较高，但使用不普遍。

（很难使所有应用程序都支持DELTA文件功能）4）日志文件：

由数据库服务器详细记录数据操作，形成数据库日志文件，通过分析数据库日志文件，获取数据变化情况，得到数据追加内容。

日志文件是DB固有机制，即不影响OLTP性能，还有DELTA文件优点，是最可取的技术。

10、数据仓库系统的层次结构:

数据仓库系统（DWS）就是对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理，最终进入数据仓库，以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件、工具进行集合，用以支持数据仓库应用或管理决策。

数据仓库系统通常由数据获取/管理层、数据存储层和分析/应用层三个部分组成，

11、数据仓库模型构建的原则：

满足不同用户的需求、兼顾效率与数据粒度的需要、支持需求的变化、避免对业务运营系统造成影响、考虑未来的可扩展性

12、关联规则反映了一个事物与其他事物之间的相互依存性和关联性。

关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。

可信度、支持度

Tid

Itemsbought

Frequentpattern

Support

A,B,C

{A}

75%

A,C

{B}

50%

A,D

{C}

50%

B,E,F

{A,C}

50%

Support（AC）=support（{A}{C}）=50%

Confidence（AC）=support（{A}{C}）/support（{A}）=66.6%

●13、评价分类算法的方法：

预测的准确率，速度，强壮性，可伸缩性，可解释性

算法

1、Apriori算法——挖掘单维布尔关联规则

TID

ID列表

T100

I1,I2,I5

T200

I2,I4

T300

I2,I3

T400

I1,I2,I4

T500

I1,I3

T600

I2,I3

T700

I1,I3

T800

I1,I2,I3,I5

T900

I1,I2,I3

●数据库中有9个事务，即|D|=9。

●假定最小事务支持计数为2

连接：

C3=L2*L2

L2={{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}

C3`={{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}

剪枝

C3={{I1,I2,I3},{I1,I2,I5}}

2、关联规则的生成

基于例2的结果，假定数据包含频繁项集l={I1，I2，I5}。

可以由l产生哪些关联规则？

l的非空子集有{I1，I2}、{I1，I5}、{I2，I5}、{I1}、{I2}和{I5}

TID

ID列表

T100

I1,I2,I5

T200

I2,I4

T300

I2,I3

T400

I1,I2,I4

T500

I1,I3

T600

I2,I3

T700

I1,I3

T800

I1,I2,I3,I5

T900

I1,I2,I3

关联规则如下：

如果最小置信度阈值为70%，那么只有第2、3、6个规则可以作为最终的输出，因为只有这些是产生的强规则。

聚类算法

1、K-均值算法（划分）

⏹k-means算法，也被称为k-平均或k-均值，最广泛使用的聚类算法。

相似度的计算根据一个簇中对象的平均值来进行。

1首先将所有对象随机分配到k个非空的簇中。

2计算每个簇的平均值，并用该平均值代表相应的簇。

3根据每个对象与各个簇中心的距离，分配给最近的簇。

4然后转第二步，重新计算每个簇的平均值。

这个过程不断重复直到满足某个准则函数才停止。

实例

样本数据

序号属性1属性2

111

221

312

422

543

653

744

854

迭代次数平均值平均值产生的新簇新平均值新平均值

（簇1）（簇2）（簇1）（簇2）

1（1，1）（1，2）{1，2}，{3，4，5，6，7，8}（1.5，1）（3.5，3）

2（1.5，1）（3.5，3）{1，2，3，4}，{5，6，7，8}（1.5，1.5）（4.5，3.5）

3（1.5，1.5）（4.5，3.5）{1，2，3，4}，{5，6，7，8}（1.5，1.5）（4.5，3.5）

⏹主要优点：

⏹是解决聚类问题的一种经典算法，简单、快速。

⏹对处理大数据集，该算法是相对可伸缩和高效率的。

⏹当结果簇是密集的而簇间区别是明显的时，它的效果较好。

⏹主要缺点

⏹必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。

⏹不适合于发现非凸面形状的簇或者大小差别很大的簇。

⏹对于“躁声”和孤立点数据是敏感的，因为簇的中心是通过计算数据的平均值得到的，这些数据的存在会使聚类的中心发生很大的偏移。

2、k-中心点算法（k-medoids）（划分）

●K-中心点算法基于有代表性的数据（中心点）而不是均值代表每个簇。

●思路

1.为每个簇随机选择一个代表对象（中心点）；

2.剩余的对象根据其与代表对象的距离分配给与其最近的一个簇；

3.反复地用非代表对象来替换代表对象，以提高聚类的质量，直至找到最合适的中心点。

假如空间中的五个点｛A、Ｂ、Ｃ、Ｄ、Ｅ｝如图1所示，各点之间的距离关系如表1所示，根据所给的数据对其运行PAM算法实现划分聚类（设k=2）。

样本点间距离如下表所示:

样本点

第一步建立阶段：

假如从5个对象中随机抽取的2个中心点为{A，B},则样本被划分为{A、C、D}和{B、E}，如图所示。

第二步交换阶段：

假定中心点A、B分别被非中心点{C、D、E}替换，根据PAM算法需要计算下列代价TCAC、TCAD、TCAE、TCBC、TCBD、TCBE。

●C=点到新的最近的中心点得距离–点到原距离最近的中心点得距离

以TCAC为例说明计算过程：

a）当A被C替换以后，A不再是一个中心点，因为A离B比A离C近，A被分配到B中心点代表的簇，CAAC=d（A,B）-d（A,A）=1。

b）B是一个中心点，当A被C替换以后，B不受影响，CBAC=0。

c）C原先属于A中心点所在的簇，当A被C替换以后，C是新中心点，符合PAM算法代价函数的第二种情况CCAC=d（C,C）-d（C,A）=0-2=-2。

d）D原先属于A中心点所在的簇，当A被C替换以后，离D最近的中心点是C，根据PAM算法代价函数的第二种情况CDAC=d（D,C）-d（D,A）=1-2=-1。

e）E原先属于B中心点所在的簇，当A被C替换以后，离E最近的中心仍然是B，根据PAM算法代价函数的第三种情况CEAC=0。

因此，TCAC=CAAC+CBAC+CBAC+CDAC+CEAC=1+0-2-1+0=-2。

算法分析

●k-中心点算法消除了k-means对于孤立点的敏感性。

●当存在“噪声”和孤立点数据时，k-中心点方法比k均值方法更健壮，这是因为中心点不像平均值那样易被极端数据影响。

●k-中心点算法的执行代价比k-平均高。

●k-中心点算法必须指定聚类数目k，k对聚类质量有重大影响。

●k-中心点算法对消的数据集非常有效（如100个对象聚成5类），但对于大数据集效率不高。

n和k值较大时计算代价相当高。

3、AGNES算法（层次）

例一：

给定五个样本数据：

●先将五个样本都分别看成是一个簇，最靠近的两个簇是3和4，因为他们具有最小的簇间距离D（3,4）=5.0。

第一步：

合并簇3和4，得到新簇集合1,2,（34）,5

实例2将下列数据聚为两个簇（数据是K均值的数据）

第1步：

根据初始簇计算每个簇之间的距离，随机找出距离最小的两个簇，进行合并，最小距离为1，合并后1，2点合并为一个簇。

第2步：

对上一次合并后的簇计算簇间距离，找出距离最近的两个簇进行合并，合并后3，4点成为一簇。

第3步：

重复第2步的工作，5，6点成为一簇。

第4步：

重复第2步的工作，7，8点成为一簇。

第5步：

合并{1，2}，{3，4}成为一个包含四个点的簇。

第6步：

合并{5，6}，{7，8}，由于合并后簇的数目达到了用户输入的终止条件，程序结束。

4、DIANA算法（层次）

DIANA（DivisiveAnalysis）算法是典型的分裂聚类方法。

第1步，找到具有最大直径的簇，对簇中的每个点计算平均相异度（假定采用是欧式距离）。

1的平均距离：

（1+1+1.414+3.6+4.24+4.47+5）/7=2.96类似地：

2的平均距离为2.526；3的平均距离为2.68；4的平均距离为2.18；5的平均距离为2.18；6的平均距离为2.68；7的平均距离为2.526；

8的平均距离为2.96。

挑出平均相异度最大的点1放到splintergroup中，剩余点在oldparty中。

第2步、在oldparty里找出到最近的splintergroup中的点的距离不大于到oldparty中最近的点的距离的点，将该点放入splintergroup中，该点是2。

第3步，重复第2步，splintergroup中放入点3。

第4步，重复第2步，splintergroup中放入点4。

第5步，没有在oldparty中的点放入了splintergroup中且达到终止条件（k=2），程序终止。

如果没有到终止条件，应该从分裂好的簇中选一个直径最大的簇继续分裂。

5、CURE算法（层次）

•当收缩因子的取值在0.2-0.7之间时，可以发现正确的簇；

•当每个簇的代表性点的数目超过5时，总能找到正确的簇；

特点

•由于CURE回避了用所有点或单个质心来表示一个簇的传统方法，将一个簇用多个代表点来表示，使CURE可以适应非球形的几何形状。

•收缩因子降底了噪音对聚类的影响，从而使CURE对孤立点的处理也具有更强的优势，而且能识别非球形和大小变化比较大的簇。

•CURE的复杂度是O（n），n是对象的数目，所以该算法适合大型数据的聚类。

6、DBSCAN（密度）

对象的ε-临域、核心对象、直接密度可达、密度可达（间接）、密度相连的

◆对象链中除了首个对象是核心对象外，其他对象可以不是核心对象。

下面给出一个样本事务数据库（见左表），对它实施DBSCAN算法。

根据所给的数据通过对其进行DBSCAN算法，以下为算法的步骤（设n=12，用户输入ε=1，MinPts=4）

第1步，在数据库中选择一点1，由于在以它为圆心的，以1为半径的圆内包含2个点（小于4），因此它不是核心点，选择下一个点。

第2步，在数据库中选择一点2，由于在以它为圆心的，以1为半径的圆内包含2个点，因此它不是核心点，选择下一个点。

第3步，在数据库中选择一点3，由于在以它为圆心的，以1为半径的圆内包含3个点，因此它不是核心点，选择下一个点。

第4步，在数据库中选择一点4，由于在以它为圆心的，以1为半径的圆内包含5个点，因此它是核心点，寻找从它出发可达的点（直接可达4个，间接可达2个），聚出的新类{1，3，4，5，9，10，12}，选择下一个点。

序号

属性1

属性2

以此循环

结论

●基于密度可达性的最大的密度相连事故对象的集合称为交通事故黑点，这些点段须重点关注

●不属于任何黑点中的事故对象被认为是“噪声”，这些点段事故的发生是偶然因数

7、K最近邻居算法（KNN）

通过计算每个训练数据到待分类元组的距离，取和待分类元组距离最近的K个训练数据，K个数据中哪个类别的训练数据占多数，则待分类元组就属于哪个类别。

简单

N={、、、和

}。

●最后输出元组是

、、、和。

其中，四个属于矮个、一个属于中等。

●最终KNN方法认为Pat为矮个。

8、ID3算法（决策树）

一个商场顾客数据库（训练样本集合）

起始中心点为A,B

性能分析：

•ID3算法的假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个完整空间。

所以ID3算法避免了搜索不完整假设空间的一个主要风险：

假设空间可能不包含目标函数。

•ID3算法在搜索的每一步都使用当前的所有训练样例，大大降低了对个别训练样例错误的敏感性。

因此，通过修改终止准则，可以容易地扩展到处理含有噪声的训练数据。

•ID3算法在搜索过程中不进行回溯。

所以，它易受无回溯的爬山搜索中的常见风险影响：

收敛到局部最优而不是全局最优。

9、C4.5算法（决策树）

•C4.5算法是从ID3算法演变而来，除了拥有ID3算法的功能外，C4.5克服了ID3在应用中的不足，主要体现在：

–用信息增益比例/信息增益率来选择属性，克服了用信息增益选择属性时偏向于选择取值多的属性的不足；

–能够完成对连续属性的离散化处理；

–可以处理具有缺少属性值的训练样本；

–在数构造过程中或者构造完成之后，进行剪枝以避免树的过度拟合；

–C4.5采用的知识表示形式为决策树，并最终可以形成产生式规则。

计算时必须以整体来算

10、朴素贝叶斯分类

希望分类的未知样本为:

X=（age=”<=30”，income=”medium”，student=”yes”，credit_rating=”fair”）

设C1对应于类buys_computer=”yes”，

C2对应于类buys_computer=”no”。

（1）需要最大化P（X|Ci）*P（Ci），i=1，2。

每个类的先验概率P（Ci）可以根据训练样本计算：

P（buys_computer=”yes”）=9/14=0.643，

P（buys_computer=”no”）=5/14=0.357。

（2）为计算P（X|Ci），i=1，2，计算下面的条件概率：

P（age<=30|buys_computer=”yes”）=2/9=0.222，

P（age<=30”|buys_computer=”no”）=3/5=0.600，

P（income=”medium”|buys_computer=”yes”）=4/9=0.444，

P（income=”medium”|buys_computer=”no”）=2/5=0.400，

P（student=”yes”|buys_computer=”yes”）=6/9=0.677，

P（student=”yes”|buys_computer=”no”）=1/5=0.200，

P（credit_rating=”fair”|buys_computer=”yes”）=6/9=0.667，

P（credit_rating=”fair”|buys_computer=”no”）=2/5=0.400。

（3）假设条件独立性，使用以上概率，得到：

P（X|buys_computer=”yes”）=0.222*0.444*0.667*0.667=0.044，

P（X|buys_computer=”no”）=0.600*0.400*0.200*0.400=0.019，

P（X|buys_computer=”yes”）*P（buys_computer=”yes”）=0.044*0.643=0.028，

P（X|buys_computer=”no”）*P（buys_computer=”no”）

=0.019*0.357=0.007。

故对于样本X，朴素贝叶斯分类预测buys_computer=”yes”。

●优点:

●容易实现

●多数情况下能获得很好的结果

●缺点

●假设：

类条件独立，因此缺少准确性

●实践中，变量之间的依赖可能存在

●这些依赖不能利用朴素贝叶斯网络进行分类

11、神经网络（BP）

净输入

Ø单元输出

计算误差

输出层单元j

隐藏层单元j的误差

W14

W15

W24

W25

W34

W35

W46

W56

Ө4

Ө5

Ө6

0.2

-0.3

0.4

0.1

-0.5

0.2

-0.3

-0.2

0.4

-0.2

-0.1

净输入

单元j

输入net

输出o

0.2*1+0.4*0+（-0.5）*1-0.4=-0.7

1/（1+e-（-0.7））=0.332

（-0.3）*1+0.1*0+（0.2）*1-（-0.2）=0.1

1/（1+e（-0.1））=0.525

（-0.3）*0.332+（-0.2）*0.525-（-0.1）=-0.105

1/（1+e-（-0.105））=0.474

结点误差：

单元j

err

0.474*（1-0.474）*（1-0.474）=0.1311

0.525*（1-0.525）*（0.1311*（-0.2））=-0.0065

0.332*（1-0.332）*（0.1311*（-0.3））=-0.0087

●权值的修正公式为：

Δwij=ηErrjOi

wij=wij+Δwij

●阈值的修正公式为：

Δθj=ηErrj

θj=θj+Δθj

其中，0<η<1，表示学习率。

在BP网络的收敛过程中，一个明显的缺点就是容易导致局部最优解，而η的作用就是避免BP网络的局部最优解问题。

ΔW17=ηErr7O1=0.5*0.0035*1=0.0018

W17=W17+ΔW17=0.25+0.0018=0.2518

Δθ7=ηErr7=0.5*0.0035=0

展开阅读全文