数据挖掘算法.ppt

资源描述

数据挖掘算法.ppt

《数据挖掘算法.ppt》由会员分享，可在线阅读，更多相关《数据挖掘算法.ppt（87页珍藏版）》请在冰豆网上搜索。

数据挖掘算法.ppt

数据挖掘算法数据挖掘算法WangYe2006.8一、概念和术语nn1.1数据挖掘数据挖掘/知识发现知识发现（11）数据挖掘数据挖掘数据挖掘数据挖掘是从存放在数据集中的大量数据挖掘出有趣是从存放在数据集中的大量数据挖掘出有趣知识的过程。

知识的过程。

（22）数据挖掘，又称为）数据挖掘，又称为数据库中知识发现数据库中知识发现数据库中知识发现数据库中知识发现（KnowledgeKnowledgeDiscoveryinDatabasesDiscoveryinDatabases）或）或知识发现知识发现知识发现知识发现，它是一个从大量数，它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程，它与数据仓库有着密切的联系。

平凡过程，它与数据仓库有着密切的联系。

（33）广义的数据挖掘是指知识发现的全过程；狭义的数据）广义的数据挖掘是指知识发现的全过程；狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法，挖掘是指统计分析、机器学习等发现数据模式的智能方法，即偏重于模型和算法。

即偏重于模型和算法。

（44）数据库查询系统和专家系统）数据库查询系统和专家系统不是不是不是不是数据挖掘！

在小规模数据挖掘！

在小规模数据上的统计分析和机器学习过程也不应算作数据挖掘。

数据上的统计分析和机器学习过程也不应算作数据挖掘。

nn1.2机器学习机器学习

（1）对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么这个计算机程序被称为在从经验E学习。

（2）机器学习是知识发现的一种方法，是指一个系统通过执行某种过程而改进它处理某一问题的能力。

nn1.3数据挖掘的对象数据挖掘的对象（11）关系型数据库、事务型数据库、面向对象的数）关系型数据库、事务型数据库、面向对象的数据库；据库；（22）数据仓库）数据仓库/多维数据库；多维数据库；（33）空间数据（如地图信息）空间数据（如地图信息）（44）工程数据（如建筑、集成电路的信息）工程数据（如建筑、集成电路的信息）（55）文本和多媒体数据（如文本、图象、音频、视）文本和多媒体数据（如文本、图象、音频、视频数据）频数据）（66）时间相关的数据（如历史数据或股票交换数据）时间相关的数据（如历史数据或股票交换数据）（77）万维网（如半结构化的）万维网（如半结构化的HTMLHTML，结构化的，结构化的XMLXML以及其他网络信息）以及其他网络信息）nn1.4数据挖掘的步骤数据挖掘的步骤（11）数据清理（消除噪音或不一致数据，补缺）；）数据清理（消除噪音或不一致数据，补缺）；（22）数据集成（多种数据源可以组合在一起）；）数据集成（多种数据源可以组合在一起）；（33）数据选择（从数据库中提取相关的数据）；）数据选择（从数据库中提取相关的数据）；（44）数据变换（变换成适合挖掘的形式）；）数据变换（变换成适合挖掘的形式）；（55）数据挖掘（使用智能方法提取数据模式）；）数据挖掘（使用智能方法提取数据模式）；（66）模式评估（识别提供知识的真正有趣模式）；）模式评估（识别提供知识的真正有趣模式）；（77）知识表示（可视化和知识表示技术）。

）知识表示（可视化和知识表示技术）。

nn1.5支持数据挖掘的关键技术支持数据挖掘的关键技术

（1）数据库/数据仓库/OLAP

（2）数学/统计（回归分析：

多元回归、自回归；判别分析：

Bayes判别、Fisher判别、非参数判别；主成分分析、相关性分析；模糊集；粗糙集）（3）机器学习（聚类分析；关联规则；决策树；范例推理；贝叶斯网络；神经网络；支持向量机；遗传算法）（4）可视化：

将数据、知识和规则转化为图形表现的形式。

nn1.6数据仓库数据仓库（11）数据仓库数据仓库数据仓库数据仓库是一个面向主题的、集成的、随时间变是一个面向主题的、集成的、随时间变化的、非易失性数据的集合，用于支持管理人员的化的、非易失性数据的集合，用于支持管理人员的决策。

决策。

（22）数据仓库是一种多个异种数据源在单个站点以统）数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储，以支持管理决策。

数据仓库一的模式组织的存储，以支持管理决策。

数据仓库技术包括数据清理、数据集成和技术包括数据清理、数据集成和联机分析处理联机分析处理联机分析处理联机分析处理（OLAPOLAP）。

）。

（33）数据仓库的逻辑结构是多维数据库。

数据仓库的）数据仓库的逻辑结构是多维数据库。

数据仓库的实际物理结构可以是关系数据存储或实际物理结构可以是关系数据存储或多维数据方多维数据方多维数据方多维数据方（CubeCube）。

）。

（44）数据方是由）数据方是由维度维度维度维度（DimensionDimension）和）和度量度量度量度量（MeasureMeasure）定义的一种数据集，度量存放在由维度）定义的一种数据集，度量存放在由维度索引的数据方单元中。

维度对应于模式中的属性组，索引的数据方单元中。

维度对应于模式中的属性组，度量对应于与主题相关的事实数据。

数据方的度量对应于与主题相关的事实数据。

数据方的物化物化物化物化是指预计算并存储全部或部分单元中的度量。

是指预计算并存储全部或部分单元中的度量。

nn1.7数据仓库的模型数据仓库的模型

（1）星形模式星形模式：

最常见模型；其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表（事实表）；一组小的附属表（维表），每维一个。

（2）雪花模式雪花模式：

雪花模式是星型模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加的表中。

（3）星系模式星系模式：

多个事实表共享维表。

这种模式可以看作星形模式集，因此称为星系模式，或事实星座。

nn1.8典型的典型的OLAP操作操作（11）OLAPOLAP是一种多维数据分析技术。

包括汇总、合并和聚是一种多维数据分析技术。

包括汇总、合并和聚集等功能，以及从不同的角度观察信息的能力。

集等功能，以及从不同的角度观察信息的能力。

（22）上卷上卷上卷上卷：

从某一维度的更高概念层次观察数据方，获得：

从某一维度的更高概念层次观察数据方，获得更概要的数据。

它通过沿维的概念分层向上或维归约来实更概要的数据。

它通过沿维的概念分层向上或维归约来实现。

现。

（33）下钻下钻下钻下钻：

下钻是上卷的逆操作。

它从某一维度的更低概：

下钻是上卷的逆操作。

它从某一维度的更低概念层次观察数据方，获得更详细的数据。

下钻可以通过沿念层次观察数据方，获得更详细的数据。

下钻可以通过沿维的概念分层向下或引入新的维来实现。

维的概念分层向下或引入新的维来实现。

（44）切片和切块切片和切块切片和切块切片和切块：

切片操作在给定的数据方的选择一个维：

切片操作在给定的数据方的选择一个维的部分属性，获得一个较小的子数据方。

切块操作通过对的部分属性，获得一个较小的子数据方。

切块操作通过对选择两个或多个维的部分属性，获得一个较小的子数据方。

选择两个或多个维的部分属性，获得一个较小的子数据方。

（55）转轴转轴转轴转轴：

是一种改变数据方二维展现形式的操作。

它将：

是一种改变数据方二维展现形式的操作。

它将数据方的二维展现中的某些维度由行改为列，或由列改为数据方的二维展现中的某些维度由行改为列，或由列改为行。

行。

二、数据准备nn现实世界的数据是不完整的不完整的（有些感兴趣的属性缺少属性值，或仅包含聚集数据），含噪音的含噪音的（包含错误，或存在偏离期望的异常值），不一致的不一致的（例如，用于商品分类的部门编码存在差异）。

nn需要数据清理数据清理、数据集成数据集成、数据选择数据选择、数数据变换据变换等技术对数据进行处理。

nn2.1维归约维归约/特征提取特征提取nn2.1-1决策树归约决策树归约

（1）决策树归约构造一个类似于流程图的结构：

其每个非叶子结点表示一个属性上的测试，每个分枝对应于测试的一个输出；每个叶子结点表示一个决策类。

（2）在每个结点，算法选择“当前对分类最有帮助”的属性，出现在树中的属性形成归约后的属性子集。

nn2.1-2粗糙集归约粗糙集归约

（1）粗糙集理论在数学意义上描述了知识的不确定性，它的特点是把用于分类的知识嵌入集合内，使分类与知识联系在一起。

（2）知识的粒度、不可分辨关系、上近似、下近似、边界等概念见下图。

nn2.1-2粗糙集归约（续）粗糙集归约（续）（3）令Q代表属性的集合。

qQ是一个属性，如果IND（Qq）=IND（Q），则q在S中不是独立的；否则称q在S中是独立的。

（4）若集合满足IND（R）=IND（Q）且R中的每一个属性都是独立的，则R被称为Q的一个“约简”，记作R=RED（Q）。

（5）约简可以通过删除冗余的（不独立的）属性而获得，约简包含的属性即为“对分类有帮助”的属性。

nn2.2数据变换数据变换nn2.2-1归一化与模糊化归一化与模糊化有限区间的归一化：

有限区间的归一化：

无限区间的归一化：

模糊隶属度：

nn2.2-2核函数核函数（11）核函数的基本思想是将在）核函数的基本思想是将在低维特征向量线性不可低维特征向量线性不可分分的数据映射到线性可分的的数据映射到线性可分的高维特征空间高维特征空间中去。

中去。

（22）映射可以是显式的，也可以是隐式的。

显式映射）映射可以是显式的，也可以是隐式的。

显式映射即找到一个映射关系即找到一个映射关系ff，使高维空间的特征向量，使高维空间的特征向量ff（xx）可以被直接计算出来。

可以被直接计算出来。

（33）隐式映射，即引入一个核函数进行整体处理，就）隐式映射，即引入一个核函数进行整体处理，就避免了对的直接求避免了对的直接求ff（xx）的计算困难。

的计算困难。

核函数核函数即某高即某高维特征空间中向量的内积，是核矩阵中的一个元素。

维特征空间中向量的内积，是核矩阵中的一个元素。

（44）并不是所有的实值函数）并不是所有的实值函数ff（xx）都可以作为空间映射都可以作为空间映射的核函数，只有的核函数，只有ff（xx）是某一特征空间的内积时，即是某一特征空间的内积时，即符合符合MercerMercer条件条件，它才能成为核函数。

，它才能成为核函数。

nn2.2-2核函数（续）核函数（续）nn多项式函数：

nnnn高斯（RBF）函数：

nnnn多层感知机函数：

nn低维空间向量映射到高维空间向量举例：

nn2.3数据压缩数据压缩nn2.3-1离散化离散化nn离散化的用途：

（1）适应某些仅接受离散值的算法；

（2）减小数据的尺度。

nn离散化的方法包括几下几种。

（1）等距分割；nn

（2）聚类分割；nn（3）直方图分割；nn（4）基于熵的分割；nn（5）基于自然属性的分割。

nn2.3-2回归回归nn回归和对数线性模型可以用来近似给定的数据。

nn在线性回归线性回归中，用一条直线来模拟数据的生成规则。

nn多元回归多元回归是线性回归的扩展，涉及多个预测变量。

nn在多项式回归多项式回归中，通过对变量进行变换，可以将非线性模型转换成线性的，然后用最小平方和法求解。

nn2.3-2回归（续）回归（续）nn利用线性回归可以为连续取值的函数建模。

广义利用线性回归可以为连续取值的函数建模。

广义线性模型则可以用于对离散取值变量进行回归建线性模型则可以用于对离散取值变量进行回归建模。

模。

nn在广义线性模型中，因变量在广义线性模型中，因变量YY的变化速率是的变化速率是YY均均值的一个函数；这一点与线性回归不同。

常见的值的一个函数；这一点与线性回归不同。

常见的广义线性模型有：

对数回归和泊松回归。

广义线性模型有：

对数回归和泊松回归。

nn对数回归模型对数回归模型是利用一些事件发生的概率作为自是利用一些事件发生的概率作为自变量所建立的线性回归模型。

变量所建立的线性回归模型。

nn泊松回归模型泊松回归模型主要是描述数据出现次数的模型，主要是描述数据出现次数的模型，因为它们常常表现为泊松分布。

因为它们常常表现为泊松分布。

nn2.3-3主成分分析（主成分分析（PCA）nnPCAPCA算法搜索算法搜索cc个最能代表数据的个最能代表数据的k-k-维正交向量；维正交向量；这里这里cckk。

这样，原来的数据投影到一个较小的。

这样，原来的数据投影到一个较小的空间，导致数据压缩。

步骤如下：

空间，导致数据压缩。

步骤如下：

（11）对输入数据归一化，使得每个属性都落入相同）对输入数据归一化，使得每个属性都落入相同的区间。

的区间。

（22）PCAPCA计算计算cc个规范正交向量，作为归一化输入个规范正交向量，作为归一化输入数据的基。

这些是单位向量，每一个都垂直于另数据的基。

这些是单位向量，每一个都垂直于另一个：

称为主成分。

输入数据是主要成分的线性一个：

称为主成分。

输入数据是主要成分的线性组合。

组合。

（33）对主成分按）对主成分按“意义意义”或强度降序排列，选择部或强度降序排列，选择部分主成分充当数据的一组新坐标轴分主成分充当数据的一组新坐标轴。

nn2.3-4离散小波变换（离散小波变换（DWT）nn离散小波变换是一种线性离散小波变换是一种线性信号处理技术信号处理技术。

该技术。

该技术方法可以将一个数据向量转换为另一个数据向量方法可以将一个数据向量转换为另一个数据向量（为小波相关系数）；且两个向量具有相同长度。

（为小波相关系数）；且两个向量具有相同长度。

nn可以舍弃转换后的数据向量中的一些小波相关系可以舍弃转换后的数据向量中的一些小波相关系数。

保留所有大于用户指定阈值的小波系数，而数。

保留所有大于用户指定阈值的小波系数，而将其它小波系数置为将其它小波系数置为00，以帮助提高数据处理的运，以帮助提高数据处理的运算效率。

算效率。

nn这一技术方法可以在保留数据主要特征情况下除这一技术方法可以在保留数据主要特征情况下除去数据中的噪声，因此该方法可以有效地进行数去数据中的噪声，因此该方法可以有效地进行数据清洗。

据清洗。

nn给定一组小波相关系数，利用离散小波变换的逆给定一组小波相关系数，利用离散小波变换的逆运算还可以近似恢复原来的数据。

运算还可以近似恢复原来的数据。

nn2.3-4离散小波变换（续）离散小波变换（续）nn常用的小波函数包括Haar系列,Daubechies系列，Moret系列，Sym系列，Meyer系列，Coif系列。

nn2.3-5潜在语义分析潜在语义分析nn潜在语义分析将样本映射到语义概念空间以发现潜在语义分析将样本映射到语义概念空间以发现样本数据之间的潜在语义联系。

样本数据之间的潜在语义联系。

nn（11）构造）构造“特征特征-样本样本”矩阵，矩阵，“特征特征-样本样本”矩矩阵中的每一列是对应于第阵中的每一列是对应于第ii个样本特征向量；个样本特征向量；nn（22）对该矩阵进行奇异值分解）对该矩阵进行奇异值分解（SVD）（SVD）；nn（33）用最大的）用最大的kk个奇异值所对应的个奇异值所对应的“特征特征-语义语义”矩阵矩阵UUkk和和“样本样本-语义语义”矩阵矩阵VkVk以及最大的以及最大的kk个奇个奇异值重构异值重构“特征特征-样本样本”矩阵。

矩阵。

下面两式分别代下面两式分别代表在语义空间特表在语义空间特征与特征之间的征与特征之间的距离和距离和在语义空间在语义空间样本与样本之间样本与样本之间的距离的距离nn2.3-6聚类分析聚类分析nn聚类技术将数据元组视为对象。

它将对象划分为聚类，使在一个聚类中的对象“类似”，但与其它聚类中的对象“不类似”。

nn通常，类似性基于距离，用对象在空间中的“接近”程度定义。

聚类的“质量”可以用“直径”表示；而直径是一个聚类中两个任意对象的最大距离。

nn质心距离是聚类质量的另一种度量，它定义为由聚类质心（表示“平均对象”，或聚类空间中的平均点）到每个聚类对象的平均距离。

nn2.3-6聚类分析（续）聚类分析（续）k-meansk-means算法算法k-medoidsk-medoids算法算法三、数据挖掘算法nn数据挖掘算法按挖掘目的可分为：

数据挖掘算法按挖掘目的可分为：

（1）概念描述（总结，对比等）

（2）关联规则分析（3）分类与预测（信息自动分类，信息过滤，图像识别等）（4）聚类分析（5）异常分析（入侵检测，金融安全等）（6）趋势、演化分析（回归，序列模式挖掘）nn按训练方式，机器学习可分为：

按训练方式，机器学习可分为：

（11）有监督的学习有监督的学习；有训练样本，学习机通过学习获；有训练样本，学习机通过学习获得训练样本包含的知识，并用其作为判断测试样本得训练样本包含的知识，并用其作为判断测试样本的类别的依据。

的类别的依据。

（22）无监督的学习无监督的学习：

无训练样本，仅根据测试样本的：

无训练样本，仅根据测试样本的在特征空间分布情况判断其类别。

在特征空间分布情况判断其类别。

（33）半监督的学习半监督的学习：

有少量训练样本，学习机以从训：

有少量训练样本，学习机以从训练样本获得的知识为基础，结合测试样本的分布情练样本获得的知识为基础，结合测试样本的分布情况逐步修正已有知识，并判断测试样本的类别。

况逐步修正已有知识，并判断测试样本的类别。

（44）强化学习强化学习：

没有训练样本，但有对学习机每一步：

没有训练样本，但有对学习机每一步是否更接近目标的奖惩措施。

是否更接近目标的奖惩措施。

nn有监督的学习nn半监督的学习nn无监督的学习nn3.1关联规则挖掘关联规则挖掘nn关联规则挖掘发现大量数据中项集之间有趣的关关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。

设联或相关联系。

设II=ii11,i,i22,.,.,iimm是项的集是项的集合。

设任务相关的数据合。

设任务相关的数据DD是数据库事务的集合，是数据库事务的集合，其中每个事务其中每个事务TT是项的集合，使得是项的集合，使得TTII。

设。

设AA是一是一个项集，事务个项集，事务TT包含包含AA当且仅当当且仅当AATT。

nn关联规则关联规则关联规则关联规则是形如是形如AABB的蕴涵式，其中的蕴涵式，其中AAII，BBII，并且，并且AABB=。

规则。

规则AABB在事务集在事务集DD中成立，中成立，具有支持度具有支持度ss，其中，其中ss是是DD中事务包含中事务包含AABB的百分的百分比。

即，比。

即，PP（AAB）B）。

规则规则AABB在事务集在事务集DD中具有中具有置信度置信度cc，如果，如果DD中包含中包含AA的事务同时也包含的事务同时也包含BB的百的百分比是分比是cc。

这是条件概率。

这是条件概率PP（B|AB|A）。

即。

即nnsupportsupport（AABB）=）=PP（AAB）B）nnconfidenceconfidence（AABB）=）=PP（B|AB|A）nn3.1关联规则挖掘（续）关联规则挖掘（续）nnAprioriApriori性质性质：

频繁项集的所有非空子集都必须也：

频繁项集的所有非空子集都必须也是频繁的。

是频繁的。

nnAprioriApriori性质基于如下观察：

根据定义，如果项集性质基于如下观察：

根据定义，如果项集II不满足最小支持度阈值不满足最小支持度阈值ss，则，则II不是频繁的，即不是频繁的，即PP（II）ss。

如果项。

如果项AA添加到添加到II，则结果项集（即，则结果项集（即IIAA）不）不可能比可能比II更频繁出现。

因此，更频繁出现。

因此，IIAA也不是频繁的，也不是频繁的，即即PP（IIAA）ss。

nn该性质表明如果一个集合不能通过测试，则它的该性质表明如果一个集合不能通过测试，则它的所有超集也都不能通过相同的测试。

所有超集也都不能通过相同的测试。

nn将将AprioriApriori性质应用于算法：

下面算法的两个主要性质应用于算法：

下面算法的两个主要步过程由步过程由连接连接和和剪枝剪枝组成。

组成。

nn3.1关联规则挖掘（续）关联规则挖掘（续）nn连接步连接步连接步连接步：

为找：

为找LLkk，通过，通过LLkk-1-1与自己连接产生候选与自己连接产生候选kk-项集的集合。

该候选项集的集合记作项集的集合。

该候选项集的集合记作CCkk。

CCkk是是LLkk的超集。

扫描数据库，确定的超集。

扫描数据库，确定CCkk中每个候选的计数，中每个候选的计数，将令计数值不小于最小支持度计数的（频繁的）将令计数值不小于最小支持度计数的（频繁的）所有候选加入所有候选加入LLkk。

nn剪枝步剪枝步剪枝步剪枝步：

但但CCkk可能很大，这样所涉及的计算量就可能很大，这样所涉及的计算量就很大。

根据很大。

根据AprioriApriori性质性质如果一个候选如果一个候选kk-项集的项集的（kk-1）-1）-子集不在子集不在LLk-1k-1中，则该候选也不可能是频繁的，中，则该候选也不可能是频繁的，从而可以由从而可以由CCkk中删除。

中删除。

nnAprioriApriori性质性质（逆反描述逆反描述）：

任何非频繁的：

任何非频繁的（kk-1）-1）-项集项集都不是可能是频繁都不是可能是频繁kk-项集的子集。

项集的子集。

nn3.2决策树决策树nn决策树学习是归纳推理算法。

它是一种逼近离散决策树学习是归纳推理算法。

它是一种逼近离散函数的方法，且对噪声数据有很好的健壮性。

在函数的方法，且对噪声数据有很好的健壮性。

在这种方法中学习到的知识被表示为决策树，决策这种方法中学习到的知识被表示为决策树，决策树也能再被表示为多个树也能再被表示为多个if-thenif-then的规则，以提高可读的规则，以提高可读性。

性。

nn基本决策树算法就是一个基本决策树算法就是一个贪心算法贪心算法。

它采用自上。

它采用自上而下、分而制之的递归方式来构造一个决策树而下、分而制之的递归方式来构造一个决策树nn通常，决策树是一种自顶向下增长树的贪婪算法，通常，决策树是一种自顶向下增长树的贪婪算法，在每个结点选取能最好地分类样例的属性。

继续在每个结点选取能最好地分类样例的属性。

继续这个过程直到这棵树能完美分类训练样例，或所这个过程直到这棵树能完美分类训练样例，或所有的属性都使用过了。

有的属性都使用过了。

“信息增益信息增益”用于衡量属用于衡量属性的价值。

熵（性的价值。

熵（entropyentropy）是一种度量信息增益的）是一种度量信息增益的指标，它描述了样本的纯度（指标，它描述了样本的纯度（puritypurity）。

下面是熵）。

下面是熵的定义：

的定义：

nnEntropy=-PEntropy=-Piilog2Plog2Piinn3.2决策树（续）决策树（续）nn注意点：

注意点：

nn（11）避免过度拟合，应该适度剪枝；（）避免过度拟合，应该适度剪枝；（22）连续）连续值的离散化；（值的离散化；（33）处理缺失值的方法：

最常见值、）处理缺失值的方法：

最常见值、按概率分配；（按概率分配；（44）处理权重不同的属性）处理权重不同的属性nn常用实现算法：

常用实现算法：

nnCARTCART、ID3ID3、ASSISTANTASSISTANT、C4.5C4.5nn3.3人工神经网络人工神经网络nn人工神经网络（ArtificialNeuralNetworks）提供了一种普遍而且实用的方法，来从样例中学习值为实数、离散或向量的函数。

nn反向传播（BackPropagation）这样的算法使用梯度下降来调节网络参数以最佳拟合由输入/输出对组成的训练集合。

nnBP网络的学习方法和目标：

对网络的连接权值进行调整，使得对任一输入都能得到所期望的输出。

常用的非线性作用函数是常用的非线性作用函数是SigmoidSigmoid函数函数，即，即ff

展开阅读全文