聚类分析.ppt - 冰豆网

资源描述

聚类分析.ppt

《聚类分析.ppt》由会员分享，可在线阅读，更多相关《聚类分析.ppt（73页珍藏版）》请在冰豆网上搜索。

聚类分析.ppt

数据的分类聚类分析在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费习惯。

它作为数据挖掘中的一个模块，可以作为一个单独的工具来发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上做进一步的分析。

聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。

其中，最广泛使用的聚类算法k-means算法属于划分法。

聚类算法给定一个有N个元组或者纪录的数据集，划分法将构造K个分组，每一个分组就代表一个聚类，Ko。

在解决实际问题时，一般不是取p个主成分，而是根据累计贡献率的大小取前几个。

定义称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值因此第一2022/11/946个值越大，表明第一主成分综合X1，Xp信息的能力越强。

前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前k个主成分的贡献率达到85，表明取前是个主成分基本包含了全部测量指标所具有的信息，这样既减少了变量的个数又便于对实际问题的分析和研究。

如果值得指出的是：

当协差阵未知时，可用其估计值S（样本协差阵）来代替，设原始资料阵为：

2022/11/947则其中而相关系数阵：

其中2022/11/948显然当原始变量Xl，Xp标准化后，则实际应用时，往往指标的量纲不同，所以在计算之前先消除量纲的影响，而将原始数据标准化，这样一来S和R相同。

因此一般求R的特征根和特征向量，并且不妨取RXX。

因为这时的R与不变，它并不影响求主成分。

只差一个系数，显然与的特征根相差n倍，但它们的特征向量

（2）、主成分的主要性质性质1F的协差阵为对角阵A。

2022/11/949证明：

记显然性质2证明：

性质32022/11/9514计算步骤及实例设有n个样品，每个样品观测p个指标，将原始数据写成矩1将原始数据标准化。

这里不妨设上边矩阵已标准化了。

2建立变量的相关系数阵：

不妨设2022/11/9523求特征根及相应的单位特征向量：

4写出主成分例对全国30个省市自治区经济发展基本情况的八项指标作主成分分析，原始数据如下：

2022/11/9532022/11/9542022/11/9552022/11/956第一步将原始数据标准化。

第二步建立指标之间的相关系数阵R如下2022/11/957第三步求R的特征值和特征向量。

2022/11/958从上表看，前3个特征值累计贡献率已达89564，说明前3个主成分基本包含了全部指标具有的信息，我们取前3个特征值，并计算出相应的特征向量：

2022/11/959因而前三个主成分为：

第一主成分：

第二主成分：

F2=0.107995X1+0.258512X2+0.287536X3+0.100931X4-0.40431X5+0.498801X6-0.48868X7+0.167392X82022/11/960第三主成分：

在第一主成分的表达式中第一、二、三项指标的系数较大，这三个指标起主要作用，我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标；在第二主成分中，第四、五、六、七项指标的影响大，且第六、七项指标的影响尤其大，可将之看成是反映物价指数、职工工资和货物周转量的综合指标；在第三主成分中，第八项指数影响最大，远超过其它指标的影响，可单独看成是工业总产值的影响。

2022/11/9615附注1从和从R出发计算主成分一般是不同的，当变量取值范围彼此相差很大或度量单位不同时，应该考虑标准化，以便使计算结果有合理的解释，避免出现误解。

如果没有上述度量单位和数量级的差异，从和从R出发计算的结果对主成分的解释或计算贡献时，在一般情况下是不会发生矛盾的。

2主成分是原始变量的线性组合，它不能简单地解释为单变量的属性作用，因而不能直接说明单个原始变量属性对主成分的作用，而应该同时看一些起主要作用的原始变量的综合作用，依此给主成分一个合理解释。

3从主成分的数学推导，不难看出主成分仅依赖于X1，X2，Xp的协差阵（或相关系数阵）并不要求分布2022/11/962是多元正态的，即未对总体分布提出什么特定的要求。

4主成分个数的确定。

一种方法在前边计算过程中已提到即根据实际问题的需要由累计贡献率的大小来确定，因此一般就选前二、三个主成分代替原来p个变量的信息，而不会损失很多信息。

另一种方法是作如下的假设检验：

（如果不作检验就没必要有这个限制）因为特征根相等意味着数据在相应的p一q维空间上有各向同性的散布，若接受H0则在q的基础上，再增加任何主成分就得把剩下的全部包括进去，因为后p一q个主成分含有相同的信息量。

在H0成立下可得Bartlet近似检验统计量：

2022/11/963其中（算术平均）（几何平均）若拒绝H0即应增加主成分的个数。

若接受H0，说明在已给检验水平下取q个主成分已能描述数据。

5主成分分析用于系统评估系统评估是指对系统营运状态做出评估，而评估一个系统的营运状态往往需要综合考察许多营运的指标.2022/11/964例如对某一类企业经济效益作评占，影响企业经济效益就有许多指标，很难直接比较其优劣，听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式，也就是说只有在一维空间中才能使排序评估成为可能，因此产生了许许多多评估方法。

鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用，下面介绍三种方法。

第一种方法，利用主成分F1，Fp做线性组合，并以每个主成分Fi的方差贡献率作为权数构造一个综合评价函数：

也称y为评估指数，依据对每个系统计算出的y值大小进行排序比较或分类划级。

2022/11/965这一方法目前在一些专业文献中都有介绍，但在实践中经常看到它的应用效果并不理想，主要原因是产生主成分的特征向量的各分量符号不一致，很难进行排序评估，因此有下面的改进方法。

第二种方法，只用第一个主成分作评估指数即Y=F1，理由是：

第一主成分与原始变量X1，Xp综合相关度最强即从这个意义上看，如果想以一个综合变量来代替原来所有原始变量，则最佳选择应该是F1，另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小，精度最高的一维综合变量。

但值得指出的是使用这种方法是有前提条件的即要求所有评估指标变量都是正相关2022/11/966的，也就是说对听有变量均有同增、同减的趋势，这个前提条件是基于代数中的Frobinius定理。

定理若相关系数阵中的每一个元素都是正值，即对一切则只矩阵的第一个特征向量中的所有分量均大于零，即如果不满足这个前提条件，在原变量系统中X1，Xp有一部分变量正相关，另一部分变量负相关，则无法保证第一个特征向量u1o，因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至于一部分变量无关，这时很难以n取值的大小来排序。

特别是当出现某一分量时使用Fq作为评估指数，更要慎重防止遗漏上的重要信息。

2022/11/967第三种方法是在前两种方法的基础上又作了改进，具体做法.

（1）将原始资料阵进行标准化处理记为标准化后的变量记为

（2）令即根据变量的重要程度赋予权数,重要的变量取大些，这时因此，各变量的方差分别为由于一部分在系统评估中更为重要的变量被赋予更大的权2022/11/968因此在这些指标上，变量的变差被拉长，于是在求第一主成分时，这些指标会得到更多的重视。

（3）对标准化又加权后的数据阵计算协差阵求的最大特征值和特征向量（4）令然后按进行排序比较或分类划级。

6除本章介绍的主成分分析之外，还有主成分回归和加权主成分分析等。

顾名思义，主成分回归，就是把各主成分作为新的自变量代替原变量作回归，在一般情况下它可以克服多重共线性带来的干扰。

所谓加权主成分分析是当原来指标X1，Xp的重要程度存在较大差异时，这时对原指标应辅以加权，即相当于用一个权数阵2022/11/969去乘而得出其中然后对作主成分分析.2022/11/9701、用主成分分析研究股票内在的联系。

2、对国民经济增长方式作主成分分析。

3、房地产指标的主成分分析。

思考题稀疏子空间聚类模型给定一组数据设，这组数据属于k（k已知或未知）个线性子空间的并，子空间聚类是指将这组数据分割为不同的类，在理想情况下，每一类对应一个子空间。

而稀疏性是指用尽可能少的基的线性组合表示数据，使数据的线性表示中的非零系数最少。

根据子空间的定义，非零系数的位置表明该数据属于由相应基组成的子空间，同时非零系数的个数也反映了数据本身的维数，因此可以通过稀疏子空间聚类分析可以反映数据的子空间特性。

展开阅读全文