华南理工大学《数据挖掘》复习资料.docx

资源描述

华南理工大学《数据挖掘》复习资料.docx

《华南理工大学《数据挖掘》复习资料.docx》由会员分享，可在线阅读，更多相关《华南理工大学《数据挖掘》复习资料.docx（35页珍藏版）》请在冰豆网上搜索。

华南理工大学《数据挖掘》复习资料.docx

华南理工大学《数据挖掘》复习资料

【英文缩写】

BI（商务智能）:

BusinessIntelligence

OLAP（联机分析处理）:

OnlineAnalyticalProcessing

OLTP（联机事务处理）:

OnlineTransactionProcessing

ETL（提取/变换/装入）:

Extraction/Transformation/Loading

KDD（数据中的知识发现）:

KnowledgeDiscoveryinDatabases

Lecture1.

【知识发现的主要过程】

（1）数据清理（消除噪声和不一致的数据）

（2）数据集成（多种数据源可以组合在一起）

（3）数据选择（从数据库中提取与分析任务相关的数据）

（4）数据变换（数据变换或同意成适合挖掘的形式，如通过汇总或聚集操作）

（5）数据挖掘（基本步骤，使用只能方法提取数据模式）

（6）模式评估（根据某种兴趣度度量，识别表示只是的真正有趣的模式）

（7）知识表示（使用可视化和只是表示技术，向用户提供挖掘的知识）

【挖掘的知识类型】

（1）概念描述：

特征划与区分（概化、摘要、以及对比数据特征）

（2）关联（相关性或者因果关系）

（3）分类与预测：

对类或概念构造模型或函数以便对未来数据进行预测

（4）聚类分析：

类标识符是未知的，把数据分成不同的新类，使得同一个类中的元素具有极大的相似性，不同类元素的相似性极小。

（5）趋势与偏差分析：

序列模式挖掘

（6）孤立点分析：

孤立点，不符合该类数据的通用行为的数据，不是噪声或异常。

【数据挖掘在互联网、移动互联网的应用】

（1）Web用法挖掘（Web日志挖掘）：

在分布式信息环境下捕获用户访问模式

（2）权威Web页面分析：

根据Web页面的重要性、影响和主题，帮助对Web页面定秩

（3）自动Web页面聚类和分类：

给予页面的内容，以多维的方式对Web页面分组和安排

（4）Web社区分析：

识别隐藏的Web社会网络和社团，并观察它们的演变

Lecture2.

【为什么需要数据预处理】

现实世界中的数据很“脏”，具有以下特性：

（1）不完整的:

缺少属性值,感兴趣的属性缺少属性值,或仅包含聚集数据

（2）含噪声的:

包含错误或存在孤立点

（3）不一致的:

在名称或代码之间存在着差异

数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。

【数据预处理的主要内容】

（1）数据清洗（Datacleaning）

填充遗失的数据,平滑噪声数据,辨识或删除孤立点,解决不一致性问题

（2）数据集成（Dataintegration）

对多个数据库，数据立方或文件进行集成

（3）数据变换（Datatransformation）

规范化与聚集（Normalizationandaggregation）

（4）数据约简（Datareduction）

得到数据集的压缩表示，它小的多，但能产生同样分析结果

（5）数据离散化（Datadiscretization）

特别对数字值而言非常重要

【分箱平滑】

是一种处理噪声数据的方法。

先对数据进行排序，然后把它们划分到箱，然后通过箱平均值，箱中值等进行平滑。

（1）等宽（距离）划分

根据属性值的范围划分成N等宽的区间。

很直接，但孤立点将会对此方法有很大的影响

（2）等深（频率）划分

划分成N个区间，每个区间含有大约相等地样本数。

具有较好的数据扩展性

【无监督离散化】

分箱、直方图分析、聚类分析

【有监督离散化】

离散化过程使用类信息，基于熵的离散化：

（1）给定样本集S，根据分解值T分为两部分，计算熵：

（2）选择某一边界T使熵最大.

（3）递归地用于所得到的划分，直到满足某个终止条件。

【数据预处理（缺失数据）方法】

数据清理缺失值的处理方法：

（1）忽略元组：

当缺失类标号时通常忽略元组。

除非元组有多个属性缺失值，否则该方法不是很有效。

当每个属性缺失值的百分比变化很大时，它的性能特别差。

（2）人工填写缺失值：

该方法很费时，当数据集很大，缺少很多值时，该方法不可行。

（3）使用一个全局常量填充缺失值：

将缺失的属性值用同一个常数（如unknow）替换。

如果缺失值都用unknow替换，则挖掘程序则可能误以为它们行程了一个有趣的概念，因为它们都具有相同的值。

因此，尽管该方法简单，但是并不十分可靠。

（4）使用属性的均值填充缺失值

（5）使用与给定元组属同一类的所有样本的属性均值

（6）使用最可能的值填充缺失值：

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。

（3）~（6）使数据偏置。

填入的值可能不正确。

方法6是最流行的策略，与其他方法相比，它使用已有的数据大部分信息来预测缺失值。

缺失值不代表数据有错误（例如，信用卡中，有信息是驾照号码，如果没有驾照号码，该空则可以是缺失的）

Lecture3.

【数据仓库的特征】

（1）面向主题的

数据仓库围绕一些主题来组织的。

（2）集成的

数据仓库是将多个异构数据源集成在一起。

（3）时变的

数据存储从历史的角度提供信息。

（4）非易失的

数据仓库总是物理地分别存放数据

【度量的分类】

（1）分布式度量（distributivemeasure）

是一种可以通过如下方法计算度量：

可以将数据集划分成较小的子集，计算每个子集的度量，然后合并计算结果，得到原数据集的度量值

（2）代数度量（algebraicmeasure）

是可以通过应用一个代数函数于一个或多个分布度量计算的度量

（3）整体度量（holisticmeasure）

必须对整个数据集计算的度量。

整体度量不能通过将给定的数据集划分成子集合并每个子集上度量得到的值来计算

【数据仓库模型】

（1）企业仓库（Enterprisewarehouse）

搜集了关于主题的所有信息，跨越整个组织。

（2）数据集市（DataMart）

包含企业范围数据的一个子集，对于特定的用户是有用的，其范围限于选定的主题。

（3）虚拟仓库（Virtualwarehouse）

操作数据库上视图的一组集合。

为了有效处理查询，只有一些可能的汇总视图被物化。

【为什么需要构建单独隔离的数据仓库】

（1）使得操作数据库与数据仓库都获得高性能

DBMS—OLTP:

访问方法,索引,并发控制,数据恢复。

Warehouse—OLAP:

复杂OLAP查询,多维视图,整理。

（2）对数据与功能的要求不同:

（a）丢失的数据:

决策支持需要历史数据，而传统数据库并不一定维护历史数据。

（b）数据整理:

决策支持需对异构数据源进行数据整理。

（c）数据质量:

不同的数据源常常具有不一致的数据表示，编码结构与格式。

【常见的OLAP操作】

（1）上卷Rollup（上钻drill-up）:

通过一个维的概念分层向上攀升或通过维规约，在数据立方体上进行聚集。

（2）下钻Drilldown（rolldown）:

上卷的逆操作，它由不太详细的数据得到更详细的数据。

可以通过沿维的概念分层向下或引入新的维实现。

（3）切片Slice与切块dice

投影与选择。

（4）转轴Pivot（rotate）

是一种目视操作，它转动数据的视角，提供数据的替代表示

（5）其它操作

钻过drillacross：

执行涉及多个事实表的查询。

钻透drillthrough：

使用SQL的机制，钻到数据立方的底层，到后端关系表。

【数据仓库的设计模式】

最流行的数据仓库数据模型是多维模型，以以下形式存在：

（1）星型模式（Starschema）

一个事实表以及一组与事实表连结的维表。

（2）雪花模式（Snowflakeschema）

雪花模式是星型模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加的表中。

（3）事实星座（Factconstellations）

多个事实表分享共同的维表，这种模式可以看作星型模式的集合，因此称为星系模式（galaxyschema）或事实星座。

【数据仓库的多层结构】

通常，数据仓库采用三层结构：

（1）底层是仓库数据服务器

几乎总是关系数据库系统，使用后端工具和实用程序由操作数据库或者其他外部数据源提取数据

（2）中间层是OLAP服务器

直接实现多维数据和操作

（3）顶层是前端客户层

包括查询和报表工具、分析工具和/或数据挖掘工具

【数据仓库的视图】

（1）自顶向下视图

可以选择数据仓库所需要的相关信息。

这些信息能够满足当前和未来商务的需求。

（2）数据源视图：

解释操作数据库系统收集、存储和管理的信息。

这些信息可能以不同的详细程度和精度建档，存放在由个别数据源表到集成的数据源表中。

通常，数据源用传统的数据建模技术，如ER模型或者CASE工具建模。

（3）数据仓库视图：

包括事实表和维表。

提供存放在数据仓库内部的信息。

包括预计算的总和与计数，以及提供历史别进的关于源、原始日期和时间等信息。

（4）商务视图：

是从最终用户的角度透视数据仓库中的数据。

？

【数据立方的两种表】

（维表、事实表）？

立方体：

立方格：

立方体物化概念：

实现把数据汇总算出来（不是临时提交时才计算）

一个n维立方体（n-D）称为基本方体；0-D方体存放最高层的汇总，称为定点方体。

方体的格称为数据立方体。

·数据立方由维和度量组成

【OLTP与OLAP的主要区别】

（1）用户和系统的面向性：

OLTP系统是面向顾客的，用于办事员、客户和信息技术专业人员的事务和查询处理。

OLAP系统是面向市场的，用于知识工人的数据分析。

（2）数据内容：

OLTP系统管理当前数据。

通常，这种数据太琐碎，难以用于决策。

OLAP系统管理大量历史数据，提供汇总和聚集机制，并在不同粒度级别上存储和管理信息。

这些特点使得数据更容易用于见多识广的决策。

（3）数据库设计：

通常，OLTP系统采用实体-联系（ER）数据模型和面向应用的数据库设计。

而OLAP系统通常采用星形或雪花模型和面向主题的数据库设计。

（4）视图：

OLTP系统主要关注企业或部门的当前数据，不涉及历史数据或不同组织的数据。

相比之下，由于组织的变化，OLAP系统尝尝跨越数据库模式的多个版本。

OLAP系统还处理来自不同组织的信息，由多个数据存储集成的信息。

由于数据量巨大，OLAP数据存放在多个存储介质上。

（5）访问模式：

OLTP系统的访问模式主要由短的原子事务组成。

这种系统需要并发控制和恢复机制。

然而，对OLAP系统的访问大部分是只读操作（大多是历史数据），尽管许多可能是复杂的查询。

·OLTP和OLAP的其他区别包括数据库大小、操作的频繁程度、性能度量等。

如下图

Lecture4.

【关联规则的确定性度量与实用性度量】

确定性度量：

支持度（Support），事务包含XÈY的概率，即support＝P（XÈY）

实用性度量：

置信度（Confidence），事务同时包含X与Y的条件概率，即confidence＝P（Y|X）.

Lecture5.

【两种学习模型】

有监督学习模型：

提供了每个训练元组的类标号，称作监督学习，即分类器的学习在被告知每个训练元组属于哪个类的监督下进行。

无监督学习（聚类）模型：

每个训练元组的类标号都是未知的，并且要学习的类的个数或集合也可能事先不知道。

【评估分类器准确率的方法】

PPT版

划分法：

适用于大规模数据。

把样本划分成2个独立的数据集合。

交叉验证：

适用于中型规模数据。

把数据集划分成k个子样本集合，使用k-1个子样本集合作为训练集，另一个作为测试集，亦称k-折交叉验证。

留一测试：

适用于小规模数据。

k=n（n-折交叉验证）。

教材版

保持方法和随机子抽样：

保持方法把给定数据随机分成两个独立的集合：

训练集和检验集，使用训练集导出模型，其准确率用检验集估计.

随机子抽样是保持方法的变型，将保持方法重复k次，总准确率估计取每次迭代准确率的平均值

交叉确认:

把数据集划分成k个子样本集合，使用k-1个子样本集合作为训练集，另一个作为测试集，亦称k-折交叉验证。

自助法：

从给定训练元组中有放回均匀抽样

【基于规则的分类器】

内容：

前件，后件，覆盖

学习规则：

分治法

规则能够覆盖整个示例空间吗？

：

缺省规则

如何学到最优规则？

NP－hard问题

Lecture6.

*【近似比】

对于优化问题，算法A的近似比a（n）≥1

最小化：

a（n）=cost（A）/cost（opt）

最大化：

a（n）=cost（opt）/cost（A）

*【问题的分类】

*【P,NP,NPC,NP-Hard】

P问题：

在多项式时间内能解决的问题

NP问题：

在多项式时间内能验证的问题

NPC问题：

所有NP问题能在多项式时间内规约到

该问题.且该问题本身属于NP问题

NP-Hard问题：

所有NP问题能在多项式

时间内规约到该问题

【属性之间相似性计算】

（1）区间标度变量：

1.计算均值绝对偏差：

2.计算标准度量值或z-score

（2）对称二元变量（binary）：

简单匹配系数

（3）非对称二元变量（binary）：

Jaccard系数

（4）分类变量（nominal、categorical）：

方法1:

简单匹配（不匹配率）

方法2:

使用一组二元变量

对标称型变量的每一个状态设置一个二元变量

（5）连续变量（realvalue）、序数变量（orderedset）:

1.离散化

2.用它们的秩rif替换xif,

3.将每一个变量的范围映射到[0,1]

4.用计算区间值变量同样的方法计算非相似性

（6）向量对象:

余弦相似性

*【常用非相似性度量函数】

1.Minkowski距离：

2.如果q=1,d是Manhattan距离：

3.如果q=2,d是Euclidean距离

【聚类分析常用的数据结构】

1.数据矩阵（2模）：

用p个变量（也称度量和或属性）表示n个对象

2.区分矩阵（1模）：

存储所有成对的n个对象的邻近度

注：

数据矩阵的行和列代表不同的实体，而区分矩阵的行和列代表相同的实体。

因而，数据矩阵你经常成为二模矩阵，而区分矩阵成为单模矩阵。

*【聚类半径、直径、分离度】

直径：

类内最大点距离

半径：

类内最小点距离

分离度：

类间最小点距离

【常见的聚类优化目标】

–最大化聚类内相似性

–最小化聚类间相似性

（1）k-Center：

最大半径最小化

（2）k-Cluster：

最大直径最小化

（3）聚类分离度的最大化

（4）k-median：

聚类内部距离之和的最小化

（5）k-means：

聚类内部距离平方之和的最小化

（6）MRSD准则

（7）割：

Min-cut：

最小割

Max-cut：

最大割

Ncut：

规范割

*【聚类方法的要求】

1.可扩展性

2.能够处理不同数据类型

3.发现任意形状的聚类

4.参数越少越好

5.能够处理噪声和孤立点

6.能够处理高维数据

7.能够集成用户提出的各种约束

【k-center、k-cluster、k-means聚类算法】

[k-means聚类算法]

定义:

k-means算法以k为输入参数，把n个对象的集合分为k个集，使得结果簇内的相似度高，而簇间的相似度低。

簇的相似度是关于簇中对象的均值度量，可以看做簇的质心或重心。

算法：

1.把对象划分成k个非空子集；

2.计算当前的每个聚类的质心作为每个聚类的种子点；

3.把每一个对象分配到与它最近的种子点所在的聚类

4.返回到第2步,当满足某种停止条件时停止。

停止条件:

1.当分配不再发生变化时停止；

2.当前后两次迭代的目标函数值小于某一给定的阈值时；

3.当达到给定的迭代次数时。

时间复杂性：

计算复杂度为O（nkt），其中n是对象的总数，k是簇的个数，t是迭代的次数

[k-center聚类算法]

定义：

为了减轻k均值算法对孤立点的敏感性，k中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。

算法：

算法复杂度：

每次迭代的复杂度是O（k（n-k）²）

[k-cluster聚类算法]

算法：

1.对于一个对象o和一个对象的集合S，定义o与S的距离d（o,S）为o与S中对象之间的距离的最小值。

2.S¬Æ;

3.随机选一个对象o,S¬SÈ{o};

4.重复以下过程，直到|S|=k;

从剩下的对象中选取d（o,S）最大的o加入S中；

5.把每一个对象o分配到S中的最近的对象，形成k个聚类。

（简单点描述：

随机选一个点作为集合S，然后逐步选择与S距离最大的点，选出k个。

然后进行分配）

算法复杂度：

O（kn）

【凝聚层次聚类法】

凝聚层次聚类法：

自底向上的层次方法策略，首先将每个对象作为其簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终止条件被满足。

单链接算法：

若定义两个聚类之间的距离为二者对象之间的最小距离，则该算法也称为单链接算法（Single-LinkageAlgorithm，SLA），也称为最小生成树算法。

全链接算法：

若定义两个聚类之间的距离为二者对象之间的最大距离，则该算法也称为全链接算法（Complete-LinkageAlgorithm，CLA）

SLA与最小生成树的关系：

最大分离度一定等于最小生成树中某条边的值。

定理：

SLA算法找到了最大分离度。

CLA算法是一个k-Cluster的logk-近似算法（2≤k≤n）

最小生成树算法概述：

每次选择权值最小，且不形成回路的边。

Dijkstra最短路径算法概述：

从一个顶点开始，每次选取与已选集合权值最小的点

Lecture7.

【PageRank】

基本思想：

*PageRank将网页x指向网页y的链接视为x给y的一张投票。

*然而PageRank不仅仅考虑网页得票的绝对数目，它还分析投票者本身的权威性.

-来自权威网页的投票能够提升被投票网页的权威性

更具体而言：

*链接是源网页对目标网页权威性的隐含表达.

-网页i入边（in-links）越多，表示i的权威性值越高。

*指向网页i的网页本身也有自己的权威性值

-对于网页i的权威性得分而言，一个具有高分值的源网

页比一个低分值的源网页更加重要。

-换言之，若其它权威性网页指向网页i，则i也可能是权

威性网页。

算法：

-Web图：

把Web视为有向图G=（V,E），V表示顶点（网页），一条边（i,j）ÎE当且仅当网页i指向网页j，n为总的网页数。

网页P（i）定义为:

Oj是网页j的出边数

A是Web图的邻接矩阵表示：

通过使用幂法可以求解

，但是Web图不符合求解条件。

-马尔可夫链：

转移概率矩阵

Aij表示用户在状态i（网页i）转移到状态j（网页j）的概率。

（公式和web图一致）

k步转移后的概率分布：

稳态概率分布：

对于任意初始概率向量P0,Pk将收敛于一个稳定的概率向量p,即,

p可作为PageRank值向量，其合理性：

-它反映了随机冲浪的长期概率.

-一个网页被访问的概率越高，其权威性越高.

一个有限马尔可夫链收敛于一个唯一的稳态概率分布：

如果矩阵A是不可约（irreducible）和非周期的（aperiodic）。

条件1：

随机矩阵

A不是一个随机矩阵，因为很多网页没有出边，导致A中某些行全为0.

解决方案1：

删除没有出边的网页.

解决方案2：

将没有出边的网页指向网络中所有其它网页

条件2：

不可约

不可约意味着强连通（所有点对都有双向路径），A不符合。

条件3：

非周期

从i到i的所有路径都是K的倍数（k>1），则成为周期的。

一个马尔科夫链所有状态都是非周期的，则为非周期。

解决方案：

指定一个参数d，将每一个网页（状态）都以概率d指向其它所有网页。

此方法顺便解决了不可约问题，处理后（原始文献阻尼因子d=0.85）：

其中E=eeT（E=ones（n）），令eTP=n:

因此，每个网页

优点：

（1）防欺骗

网页所有者难以设置其它重要网页指向自己的网页.

（2）ageRank值独立于查询，是一种全局度量.

PageRank值是通过所有网页计算得到并加以存储，而不是提交查询时才计算.

缺点：

不能区分全局重要性网页和查询主题重要性网页

【HITS】

基本思想：

*内容一个好的汇集网页指向了许多权威性网页

*一个好的权威性网页被许多好的汇集性网页所指向.

*因此，二者相互强化.

与PageRank是一个静态算法不同，HITS是基于查询的搜索算法，当用户提交一个查询时

-HITS首先对搜索引擎返回的相关网页列表进行扩展

-然后产生扩展集合的两个排序：

权威性排序（authorityranking）及汇集性排序（hubranking）.

Authority:

粗略地讲，一个权威性网页具有很多的入边.

-该网页具有相关主题的权威性内容

-许多人相信该网页并指向它.

Hub:

一个汇集性网页具有很多出边.

-该网页把特定主题网页进行了组织

-指向了该主题的许多权威性网页.

算法：

1.根据查询词q，搜集t个排序最高的网页集合W（rootset）

2.把所有W指向的网页和指向W的网页添加到W中，得到基集S（baseset）

3.HITS对S中每个网页分配authorityscore和hubscore.

4.建立邻接矩阵L：

5.根据强化关系算出authorityscore和hubscore：

幂法迭代：

优点：

内容根据查询进行排序，可能会返回更相关的权威性和汇集性网页.

缺点：

（1）容易被欺骗:

一个网站开发者很容易在自己的网页中加入许多出边.

（2）主题漂移（Topicdrift）:

许多扩展网页可能与主题并不相关.

（3）查询效率:

动态抓取网页进行扩展、特征值计算

数据挖掘计算题复习

Lecture3.

【数据立方体的方体格】

一个L层的n维立方有立方体个数：

【多路数组聚集方法】

思想：

在扫描aoboco的时候同时聚集ABACBC面，寻找最优遍历顺序以减少内存需求。

|A|=40|B|=400|C|=4000

*按1~64顺序遍历，聚集BC块需要扫描4个块，聚集AC需要扫描4*3+1=13个块，聚集AB需要扫描（4*4）*3+1=49个块。

*按1~64顺序，需要内存：

40*400（AB整面）+40*1000（AC面一行）+100*1000（BC面一块）

Lecture4.

*【支持度与置信度】

规则A→C：

*【穷举法子集个数】

一个n个元素的集合，其k-项集（k≥2）子集有2^n-n-1个

【用Apriori算法挖掘强关联规则】

连接操作:

{ABC…X}

展开阅读全文