模式识别-第12讲-非监督学习方法.ppt-资源下载

模式识别-第12讲-非监督学习方法.ppt

1、模式识别授课教师薛耀红第第12讲讲非监督学习方法非监督学习方法31.1.引言引言2.2.单峰子集（类）的分离方法单峰子集（类）的分离方法3.3.类别分离的间接方法类别分离的间接方法4.4.分级聚类方法分级聚类方法41.1.引言引言5引言引言有有监督学习监督学习（supervised learning)：分类器设计方法是在样本集中的类别标签样本集中的类别标签已知已知的条件下进行的，这些样本称为训练样本。在样本标签已知的情况下，可以统计出各类训练样本不同的描述量，如其概率分布，或在特征空间分布的区域等，利用这些参数进行分类器设计。用已知类别的样本训练分类器，以求对训练集的数据达到某种最优，

2、并能推广到对新数据的分类。6无监督学习无监督学习（unsupervised learning)：样本数据类别未知，需要根据样本间的相似性对样本集进行分类(聚类，clustering)，试图使类内差距最小化，类间差距最大化。利用聚类结果，可以提取数据集中隐藏的信息，对未来数据进行预测和分类预测和分类。应用于数据挖掘、模式识别、图像处理、经济学引言引言7广泛的应用领域广泛的应用领域商务：商务：帮助市场分析人员从客户信息库中发现不同的帮助市场分析人员从客户信息库中发现不同的客户群客户群，用购买模式来刻画不同的客户群的特征用购买模式来刻画不同的客户群的特征土地使用：土地使用：在地球观测数据库中识别土地

3、使用情况相在地球观测数据库中识别土地使用情况相似的地区似的地区保险业：保险业：汽车保险单持有者的分组，标识那些有较高汽车保险单持有者的分组，标识那些有较高平均赔偿成本的客户。平均赔偿成本的客户。城市规划：城市规划：根据根据房子的类型，价值和地理分布对房子房子的类型，价值和地理分布对房子分组分组生物学：生物学：推导植物和动物的分类，对基因进行分类推导植物和动物的分类，对基因进行分类地震研究地震研究:根据地质断层的特点把已观察到的地震中根据地质断层的特点把已观察到的地震中心分成不同的类。心分成不同的类。8有监督学习与无监督学习的区别有监督学习与无监督学习的区别有监督学习方法有监督学习方法必须要有训

4、练集与测试样本。在训练集必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律；而中找规律，而对测试样本使用这种规律；而非监督学习非监督学习没有训练集这一说，没有训练集这一说，只有一组数据，在该组数据集内寻只有一组数据，在该组数据集内寻找规律找规律。有监督学习方法的目的就是识别事物有监督学习方法的目的就是识别事物，识别的结果表现，识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而标号的样本组成。而非监督学习方法只有要分析的数据非监督学习方法只有要分析的数据集本身集本身，预先没有什么标号。如果发现数据集呈

5、现某种，预先没有什么标号。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不以与某种预先聚集性，则可按自然的聚集性分类，但不以与某种预先的分类标号对上号为目的。的分类标号对上号为目的。9无监督学习方法在寻找数据集中的规律性无监督学习方法在寻找数据集中的规律性，这种规律，这种规律性并不一定要达到划分数据集的目的，也就是说性并不一定要达到划分数据集的目的，也就是说不一不一定要定要“分类分类”。这一点是比有监督学习方法的用途要。这一点是比有监督学习方法的用途要广泛。譬如分析一堆数据的主分量，或分析数据集有广泛。譬如分析一堆数据的主分量，或分析数据集有什么特点都可以归于无监督学习方法的范畴。什

6、么特点都可以归于无监督学习方法的范畴。用无监督学习方法分析数据集的主分量与用用无监督学习方法分析数据集的主分量与用K-LK-L变换变换计算数据集的主分量又有区别。应该说后者从方法上计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学习方法。因此讲不是一种学习方法。因此用用K-LK-L变换找主分量不属变换找主分量不属于无监督学习方法，即方法上不是于无监督学习方法，即方法上不是。而通过学习逐渐。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。网络中寻找主分量的方法属于无监督学习方法。有监督学习

7、与无监督学习的区别有监督学习与无监督学习的区别10无监督学习方法的分类无监督学习方法的分类基于概率密度函数估计的方法基于概率密度函数估计的方法：指设法找到各类别在特征空间的分布参数再进行分类。基于样本间相似性度量的方法基于样本间相似性度量的方法：直接按样本间的相似性，或彼此间在特征空间中的距离长短进行分类。其原理是设法定出不同类别的核心，然后依据样本与这些核心之间的相似性度量，将样本聚集成不同类别。如何聚类则取决于聚类的准则函数，以使某种聚类准则达到极值为最佳。两种聚类方法：迭代的动态聚类方法和非迭代的分级聚类方法 112.2.单峰子集（类）的分离方法单峰子集（类）的分离方法12u思想：把特征

8、空间分为若干个区域，在每个区域上混合概率密度函数是单峰的，每个单峰区域对应一个类别。【基本思想】13直接方法u一维空间中的单峰分离:对样本集KN=xi应用直方图/Parzen窗方法估计概率密度函数，找到概率密度函数的峰以及峰之间的谷底，以谷底为阈值对数据进行分割。【一维空间中的单峰子集分离】14【多维空间投影方法】基本思路：基本思路：多维空间中直接划分成单峰区域比较困难，而一维空间中则比多维空间中直接划分成单峰区域比较困难，而一维空间中则比较简单。较简单。寻找一个坐标系统，在该系统下，数据的混合概率密度函数可寻找一个坐标系统，在该系统下，数据的混合概率密度函数可以用边缘概率密度表示。以用边缘概

9、率密度表示。如果某边缘概率密度函数呈现多峰形式，则在此坐标轴上（一维）如果某边缘概率密度函数呈现多峰形式，则在此坐标轴上（一维）作分割。作分割。做法：做法：把样本投影到某一一维坐标轴（按某种准则），在这一把样本投影到某一一维坐标轴（按某种准则），在这一维上求样本的概率密度（边缘概率密度），根据这一概率密度维上求样本的概率密度（边缘概率密度），根据这一概率密度函数的单峰划分子集。函数的单峰划分子集。（如果这一维上只有一个峰，则寻找下一个投影方向。）（如果这一维上只有一个峰，则寻找下一个投影方向。）投影方向：使方差最大的方向，投影方向：使方差最大的方向，即协方差阵本征值最大的本征即协方差阵本征值最

10、大的本征向量方向。向量方向。15【投影方法】基本步骤基本步骤 16问题：这样投影有时并不能产生多峰的边缘密度函数 -方差最大的准则有时并不一定最有利于聚类。方差最大的准则有时并不一定最有利于聚类。【存在问题】失败的例子173.3.类别分离的间接方法类别分离的间接方法18【引言】回顾：回顾：直接方法：直接方法：1.1.估计概率密度函数估计概率密度函数困难困难2.2.寻找密度函数中的单峰寻找密度函数中的单峰间接方法：考查样本这间的相似性，根据间接方法：考查样本这间的相似性，根据相似性把样本集划分为若干子集，使某种相似性把样本集划分为若干子集，使某种表示聚类质量的准则函数最优。表示聚类质量的准则函

11、数最优。19【引言】相似性度量：以某种距离定义相似性度量：以某种距离定义直观理解：同一类的样本的特征向量应是相互靠近的。直观理解：同一类的样本的特征向量应是相互靠近的。前提：特征选取合理，能反映所求的聚类关系。前提：特征选取合理，能反映所求的聚类关系。与基于密度函数的方法的关系：与基于密度函数的方法的关系：概念上相互关联，因密度估计也是在样本间距离的基础概念上相互关联，因密度估计也是在样本间距离的基础上的。上的。具体关系取决于具体数据情况。具体关系取决于具体数据情况。20动态聚类方法的任务：动态聚类方法的任务：将数据集划分成一定数量的子集，将数据集划分成一定数量的子集，例如将一个数据集划分成三

12、个子集，四个子集等。因此要划分成多少个子集往往要预先确定，或大致确定，这个子集数目在理想情况下能够体现数据集比较合理的划分。需要解决的问题：需要解决的问题：怎样才能知道该数据集应该划分的子集数目子集数目如果划分数目已定，则又如何找到最佳划分如何找到最佳划分。因为数据集可以有许多种不同的划分方法，需要对不同的划分作出评价，并找到优化的划分结果。由于优化过程是从不甚合理的划分到“最佳”划分，是一个动态的迭代过程，故这种方法称为动态聚类方法动态聚类方法。【动态聚类方法】21n对计算机来说，所确定的初始代表点很可能不甚合理，以对计算机来说，所确定的初始代表点很可能不甚合理，以至于影响到聚类的结果。至

13、于影响到聚类的结果。n这就需要有一个对聚类的结果进行修改或迭代的过程，使这就需要有一个对聚类的结果进行修改或迭代的过程，使聚类结果逐步趋向合理。迭代的过程需要一个聚类结果逐步趋向合理。迭代的过程需要一个准则函数准则函数来来指导，使迭代朝实现准则函数的极值化方向收敛。指导，使迭代朝实现准则函数的极值化方向收敛。n聚类过程：聚类过程：q从确定各聚类的代表点开始（比如，从确定各聚类的代表点开始（比如，确定三个质心点确定三个质心点）q按各样本到三个质心最短距离将样按各样本到三个质心最短距离将样本分到该类本分到该类【动态聚类方法】22三个要点三个要点选定某种选定某种距离度量距离度量作为样本间的作为样本

14、间的相似性度量相似性度量；确定样本合理的确定样本合理的初始分类初始分类，包括代表点的选择，初始分，包括代表点的选择，初始分类的方法选择等；类的方法选择等；确定某种评价聚类结果质量的确定某种评价聚类结果质量的准则函数准则函数，用以调整初始，用以调整初始分类直至达到该准则函数的极值。分类直至达到该准则函数的极值。【动态聚类方法】C 均值算法（均值算法（k 均值，均值，C-means or k-means）ISODATA 方法方法常用算法：常用算法：231.准则函数误差平方和准则这个准则函数是以计算各类均值，与计算各类样本到其所属类别均值点误差平方和为准则。反映了用c个聚类中心代表c个样本子集所

15、带来的总的误差平方和。目标:最小化最小化J Je e，即类内元素相似性高，类间元素相似性低，实现最小方差划分。【C均值算法】242.2.样本集初始划分样本集初始划分初始划分的一般作法是先选择一些初始划分的一般作法是先选择一些代表点代表点作为聚类作为聚类的核心，然后把其余的样本按某种方法分到各类中的核心，然后把其余的样本按某种方法分到各类中去。去。代表点的几种选择方法：代表点的几种选择方法：凭经验选择代表点凭经验选择代表点。根据问题的性质，用经验的根据问题的性质，用经验的办法确定类别数，从数据中找出从直观上看来是办法确定类别数，从数据中找出从直观上看来是比较合适的代表点。比较合适的代表点。将全

16、部数据将全部数据随机随机地分为地分为C C类，计算各类重心类，计算各类重心，将这，将这些重心作为每类的代表点。些重心作为每类的代表点。【C均值算法】25“密度密度”法选择代表点法选择代表点。这里的这里的“密度密度”是具有统计是具有统计性质的样本密度。性质的样本密度。一种求法是对每个样本确定大小相等的邻域一种求法是对每个样本确定大小相等的邻域(如同如同样半径的超球体样半径的超球体)，统计落在其邻域的样本数统计落在其邻域的样本数，称，称为该点为该点“密度密度”。在得到样本。在得到样本“密度密度”后，后，选选“密密度度”为最大的样本点作为第一个代表点为最大的样本点作为第一个代表点，然后人为，然后人为规定距该代表点一定距离外的区域内找次高规定距该代表点一定距离外的区域内找次高“密度密度”的样本点作为的样本点作为第二个代表点第二个代表点，依次选择其它代表，依次选择其它代表点，使用这种方法的目的是避免代表点过分集中在点，使用这种方法的目的是避免代表点过分集中在一起。一起。用用前前c c个样本点个样本点作为代表点作为代表点【C均值算法】26从从(c-1)(c-1)聚类聚类划分划分问题的解中产生问题的

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？