ImageVerifierCode 换一换
格式:PPT , 页数:73 ,大小:1.22MB ,
资源ID:2727245      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2727245.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(聚类分析.ppt)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

聚类分析.ppt

1、数据的分类聚类分析在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上做进一步的分析。聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛使用的聚类算法k-means算法属于划分法。聚类算法给定一个有N个元组或者纪录的数据集,划分法将构造K个分组,每一个分组就代表一个聚类,Ko。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前几个。定

2、义 称第一主成分的贡献率为主成分的贡献率就是主成分的方差在全部方差中的比值因此第一2022/11/946个值越大,表明第一主成分综合X1 ,Xp信息的能力越强。前两个主成分的累计贡献率定义为前两个主成分的累计贡献率定义为前 k 个主成分的贡献率达到85,表明取前是个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。如果 值得指出的是:当协差阵未知时,可用其估计值 S(样本协差阵)来代替,设原始资料阵为:2022/11/947 则其中而相关系数阵:其中2022/11/948显然当原始变量Xl,Xp标准化后,则 实际应用时,往往指标的量纲不同,所以在计算

3、之前先消除量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取RX X。因为这时的R与不变,它并不影响求主成分。只差一个系数,显然与的特征根相差n倍,但它们的特征向量(2)、主成分的主要性质性质1 F的协差阵为对角阵A。2022/11/949证明:记 显然性质2证明:性质32022/11/9514 计算步骤及实例 设有 n 个样品,每个样品观测 p 个指标,将原始数据写成矩1将原始数据标准化。这里不妨设上边矩阵已标准化了。2建立变量的相关系数阵:不妨设2022/11/9523求特征根及相应的单位特征向量:4写出主成分 例 对全国30个省市自治区经济发展

4、基本情况的八项指标作主成分分析,原始数据如下:2022/11/9532022/11/9542022/11/9552022/11/956第一步 将原始数据标准化。第二步 建立指标之间的相关系数阵R如下2022/11/957第三步 求R的特征值和特征向量。2022/11/958 从上表看,前3个特征值累计贡献率已达89564,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:2022/11/959因而前三个主成分为:第一主成分:第二主成分:F2=0.107995X1+0.258512X2+0.287536X3 +0.100931X4-0.40431X5+0.

5、498801X6 -0.48868X7+0.167392X82022/11/960第三主成分:在第一主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一王成分看成是由国内生产总值、固定资产投资和居民消费水平所该划的反映经济发展状况的综合指标;在第二主成分中,第四、五、六、七项指标的影响大,且第六、七项指标的影响尤其大,可将之看成是反映物价指数、职工工资和货物周转量的综合指标;在第三主成分中,第八项指数影响最大,远超过其它指标的影响,可单独看成是工业总产值的影响。2022/11/9615 附注 1从和从R出发计算主成分一般是不同的,当变量取值范围彼此相差很大或度量单

6、位不同时,应该考虑标准化,以便使计算结果有合理的解释,避免出现误解。如果没有上述度量单位和数量级的差异,从和从R出发计算的结果对主成分的解释或计算贡献时,在一般情况下是不会发生矛盾的。2主成分是原始变量的线性组合,它不能简单地解释为单变量的属性作用,因而不能直接说明单个原始变量属性对主成分的作用,而应该同时看一些起主要作用的原始变量的综合作用,依此给主成分一个合理解释。3从主成分的数学推导,不难看出主成分仅依赖于X1,X2,Xp的协差阵(或相关系数阵)并不要求分布2022/11/962是多元正态的,即未对总体分布提出什么特定的要求。4主成分个数的确定。一种方法在前边计算过程中已提到即根据实际问

7、题的需要由累计贡献率的大小来确定,因此一般就选前二、三个主成分代替原来p个变量的信息,而不会损失很多信息。另一种方法是作如下的假设检验:(如果不作检验就没必要有这个限制)因为特征根相等意味着数据在相应的p一q维空间上有各向同性的散布,若接受H0 则在q 的基础上,再增加任何主成分就得把剩下的全部包括进去,因为后p一q个主成分含有相同的信息量。在H0成立下可得Bartlet近似检验统计量:2022/11/963 其中(算术平均)(几何平均)若拒绝H0即应增加主成分的个数。若接受H0,说明在已给检验水平下取q个主成分已能描述数据。5主成分分析用于系统评估 系统评估是指对系统营运状态做出评估,而评估

8、一个系统的营运状态往往需要综合考察许多营运的指标.2022/11/964 例如对某一类企业经济效益作评占,影响企业经济效益就有许多指标,很难直接比较其优劣,听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用,下面介绍三种方法。第一种方法,利用主成分F1,Fp做线性组合,并以每个主成分 Fi 的方差贡献率 作为权数构造一个综合评价函数:也称 y 为评估指数,依据对每个系统计算出的 y 值大小进行排序比较或分类划级。2022/11/96

9、5 这一方法目前在一些专业文献中都有介绍,但在实践中经常看到它的应用效果并不理想,主要原因是产生主成分的特征向量的各分量符号不一致,很难进行排序评估,因此有下面的改进方法。第二种方法,只用第一个主成分作评估指数即Y=F1,理由是:第一主成分与原始变量X1,Xp综合相关度最强即从这个意义上看,如果想以一个综合变量来代替原来所有原始变量,则最佳选择应该是F1,另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但值得指出的是使用这种方法是有前提条件的即要求所有评估指标变量都是正相关2022/11/966的,也就是说对听有变量均有同增、同减的趋势,这个

10、前提条件是基于代数中的Frobinius定理。定理 若相关系数阵中的每一个元素都是正值,即对一切则只矩阵的第一个特征向量中的所有分量均大于零,即 如果不满足这个前提条件,在原变量系统中X1,Xp有一部分变量正相关,另一部分变量负相关,则无法保证第一个特征向量u1o,因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至于一部分变量无关,这时很难以 n取值的大小来排序。特别是当出现某一分量 时使用Fq作为评估指数,更要慎重防止遗漏 上的重要信息。2022/11/967 第三种方法是在前两种方法的基础上又作了改进,具体做法.(1)将原始资料阵进行标准化处理记为标准化后的变量记为(2)令即根据

11、变量的重要程度赋予权数,重要的变量取大些,这时因此,各变量的方差分别为由于一部分在系统评估中更为重要的变量被赋予更大的权2022/11/968因此在这些指标上,变量的变差被拉长,于是在求第一主成分时,这些指标会得到更多的重视。(3)对标准化又加权后的数据阵计算协差阵求的最大特征值 和特征向量(4)令然后按进行排序比较或分类划级。6除本章介绍的主成分分析之外,还有主成分回归和加权主成分分析等。顾名思义,主成分回归,就是把各主成分作为新的自变量代替原变量作回归,在一般情况下它可以克服多重共线性带来的干扰。所谓加权主成分分析是当原来指标X1,Xp的重要程度存在较大差异时,这时对原指标应辅以加权,即相

12、当于用一个权数阵2022/11/969去乘而得出其中然后对作主成分分析.2022/11/9701、用主成分分析研究股票内在的联系。2、对国民经济增长方式作主成分分析。3、房地产指标的主成分分析。思考题稀疏子空间聚类模型给定一组数据设,这组数据属于k(k已知或未知)个线性子空间的并,子空间聚类是指将这组数据分割为不同的类,在理想情况下,每一类对应一个子空间。而稀疏性是指用尽可能少的基的线性组合表示数据,使数据的线性表示中的非零系数最少。根据子空间的定义,非零系数的位置表明该数据属于由相应基组成的子空间,同时非零系数的个数也反映了数据本身的维数,因此可以通过稀疏子空间聚类分析可以反映数据的子空间特性。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1