主成分分析聚类分析比较之欧阳科创编.docx-资源下载

主成分分析聚类分析比较之欧阳科创编.docx

1、主成分分析聚类分析比较之欧阳科创编主成分分析、聚类时间：2021.02.05创作：欧阳科分析的比较与应用主成分分析、聚类分析的比较与应用摘要：主成分分析、聚类分析是两种比较有价值的多元统计方法,但同时也是在使用过程中容易误用或混淆的几种方法。本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了两者的异同,并且举例说明了两者在实际问题中的应用。关键词：spss、主成分分析、聚类分析一、基本概念主成分分析就是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分，要尽可能多地保留原始变量的信息，且彼

2、此不相关。因子分析是研究如何以最少的信息丢失，将众多原始变量浓缩成少数几个因子变量，以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构，并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似，而属于不同组的样本应该足够不相似。二、基本思想的异同（一）共同点主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息，变量虽然较原始变量少，但所包含的信息量却占原始信息的85 %以上，所以即使用少数的几个新变量，可信度也很高，也可以

3、有效地解释问题。并且新的变量彼此间互不相关，消除了多重共线性。这两种分析法得出的新变量，并不是原始变量筛选后剩余的变量。在主成分分析中，最终确定的新变量是原始变量的线性组合，如原始变量为x1 ，x2 ，. . . ，x3 ，经过坐标变换，将原有的p个相关变量xi 作线性变换，每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi中，Z1 在方差中占的比重最大，说明它综合原有变量的能力最强，越往后主成分在方差中的比重也小，综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系，它不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子与特殊因子

4、两部分。公共因子是由所有变量共同具有的少数几个因子；特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分，就可以将主成分得分或因子得分代替原始变量进行进一步的分析，因为主成分变量及因子变量比原始变量少了许多，所以起到了降维的作用，为我们处理数据降低了难度。聚类分析的基本思想是: 采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的

5、方法，它能客观地反映这些变量或区域之间的内在组合关系。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法，是多元统计分析方法，分析的结果为群集。对向量聚类后，我们对数据的处理难度也自然降低，所以从某种意义上说，聚类分析也起到了降维的作用。 (二) 不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法，也就是求出少数几个主成分(变量) ，使它们尽可能多地保留原始变量的信息，且彼此不相关。它是一种数学变换方法，即把给定的一组变量通过线性变换，转换为一组不相关的变量(两两相关系数为0 ，或样本向量彼此相互垂直的随机变量) ，在这种变换中，保持变量的总方差

6、(方差之和) 不变，同时具有最大方差，称为第一主成分；具有次大方差，称为第二主成分。依次类推。若共有p 个变量，实际应用中一般不是找p 个主成分，而是找出m (m p) 个主成分就够了，只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组，使得同组内的变量之间相关性较高，但不同的组的变量相关性较低，每组变量代表一个基本结构，这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来

7、的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子和特殊因子两部分。具体地说，就是要找出某个问题中可直接测量的具有一定相关性的诸指标，如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律，从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异，主成分分析能解释所有变异。聚类分析算法是给定m 维空间R 中的n 个向量，把每个向量归属到k 个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来

8、的对象集合分成相似的组或簇，来获得某种内在的数据规律。从三类分析的基本思想可以看出，聚类分析中并没于产生新变量，但是主成分分析和因子分析都产生了新变量。三、数据标准化的比较主成分分析中为了消除量纲和数量级，通常需要将原始数据进行标准化，将其转化为均值为0方差为1 的无量纲数据。而因子分析在这方面要求不是太高，因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量，并且因子变量是每一个变量的内部影响变量，它的求解与原始变量是否同量纲关系并不太大，当然在采用主成分法求因子变量时，仍需标准化。不过在实际应用的过程中，为了尽量避免量纲或数量级的影响，建议在使

9、用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法，主要将指标值先进行标准化处理得到协方差矩阵，即相关矩阵和对应的特征值与特征向量，然后构造综合评价函数进行评价。聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化，即消除量纲的影响。不同方法进行标准化，会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。四、应用中的优缺点比较 (一) 主成分分析 1、优点首先它利用降维技术用少数几个综合变量来代替原始多个变量，这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分，对客观经济现象进行

10、科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 2、缺点当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确。命名清晰性低。 (二) 聚类分析 1、优点聚类分析模型的优点就是直观，结论形式简明。 2、缺点在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。五案例分析：下表是关于全国31个省市的8项经济指标，以此为例，进行主成分分析

11、。省份国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25内蒙832.881387250.234134781.7117.5116.8419.39辽宁2793.372397387.9949111371.7116.11141840.55吉林

12、1129.21872320.454430497.4115.2114.2762.47黑龙江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江苏5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.

13、4433.67江西1205.111182282.844211411.7116.9115.9571.84山东5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83广东5381.7226991639.838250656.5114111.61396.35广西1606.151314382.595105556118

14、.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81贵州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陕西1000.031208300.274396500.9119117600.98甘肃553.351007114.815493507119.8116.5468.79青海16

15、5.31144547.76575361.6118116.3105.8宁夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.965348339119.7116.7428.76经过输入数据，设置各项，Spss最终输出结果如下：描述统计量均值标准差分析 N国内生产1921.0926671.4748060E330居民消费1745.93861.64230固定资产511.508667402.885361430职工工资5457.631310.21830货物周转666.140000459.966985030消费价格117.2872.025330商品零

16、售114.9071.898130工业产值862.998000584.587258530相关矩阵a国内生产居民消费固定资产职工工资货物周转消费价格相关国内生产1.000.267.951.191.617-.273居民消费.2671.000.426.718-.151-.235固定资产.951.4261.000.400.431-.280职工工资.191.718.4001.000-.356-.135货物周转.617-.151.431-.3561.000-.253消费价格-.273-.235-.280-.135-.2531.000商品零售-.264-.593-.359-.539.022.763工业产值.8

17、74.363.792.104.659-.125a. 行列式 = .000相关矩阵a商品零售工业产值相关国内生产-.264.874居民消费-.593.363固定资产-.359.792职工工资-.539.104货物周转.022.659消费价格.763-.125商品零售1.000-.192工业产值-.1921.000a. 行列式 = .000公因子方差初始提取国内生产1.000.945居民消费1.000.800固定资产1.000.902职工工资1.000.875货物周转1.000.857消费价格1.000.957商品零售1.000.929工业产值1.000.903提取方法：主成份分析。解释的总方差成

18、份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.9997.065.81899.8178.015.183100.000提取方法：主成份分析。成份矩阵a成份123国内生产.885.384.121居民消费.607-.598.271固定资产.912.161.212职工工资.466-.7

19、22.368货物周转.486.738-.275消费价格-.509.252.797商品零售-.620.594.438工业产值.823.427.211提取方法 :主成份。a. 已提取了 3 个成份。从“解释的总方差”一表中可以得出相关系数矩阵的特征值为1=3.755，2=2.197，3=1.215，4=0.402，5=0.213，6=0.318，7=0.065，8=0.015前三个成分的特征值都大于1，并且累计贡献值达到了89.584%，所以选取了前三个因素作为主成分。将“成分矩阵”表中没一列值分别除以特征值的开方，就得出了每一个特征值对应的特征向量，由此可以得出第一，第二，第三主成分表达式（令各

20、因素为X1，X2X8）F1=0.4567*X1+0.4095*X2+0.8274*X3+0.735*X4+1.053*X5-1.37*X6-2.4318*X7+6.72*X8F2=0.1982*X2-0.4034*X2+0.1501*X3-1.1387*X4+2.0468*X5+0.6784*X6+2.33*X7+3.4864*X8F3=0.0624*X1+0.1828*X2+0.1923*X3+0.5804*X4-0.5959*X5+2.1455*X6+1.718*X7+1.7228*X8根据三个主成分表达式，通过SPSS的转换功能，就可以得出成分结果：省份F1F2F3北京13705.16-

21、5881.957046.91天津10446.78-5197.365630.69河北15956.233467.834713.74山西9721-1372.144315.87内蒙7390.3-1650.263462.48辽宁19564.533621.656335.88吉林10015.51-1507.114506黑龙江14049.71160.945132.78上海21778.77-5587.419863.21江苏22960.753202.467724.23浙江14746.51-2511.376240.97安徽11271.67-213.014438.96福建9819.83-3990.124892.59江

22、西8197.8-1804.893979.48山东23365.655193.377352.74河南15953.513670.484892.37湖北14283.24955.725312.38湖南11746.87-168.984564.4广东20630.81-2620.938383.58广西9209.94-2542.964455.72海南5248.71-5674.83899.05四川16350.022217.645689.45贵州6135.28-3224.343679.63云南9817.7-2591.244871.34西藏5522.4-8464.574950.51陕西8549.38-1775.924

23、085.61甘肃8034.14-3509.364391.51青海5266.56-6247.954221.22宁夏4872.95-5290.883791.89新疆8015.83-3918.564491.04综合上述可知，各省份的8个经济指标中国内资产，居民消费，固定工资可以作为衡量经济的主要成分。聚类分析根据分类对象的不同，可分为样本聚类和变量聚类。样本聚类又称Q型聚类，对样本进行分类。变量聚类又称R型聚类，对变量进行分类。Q型聚类实例分析例：一组有关12盎司啤酒成分和价格的数据，变量包括beername(啤酒名称)、 calorie (热量卡路里) 、 sodium (纳含量) 、 alcoh

24、ol (酒精含量) 、 cost (价格)。要求根据12盎司啤酒的各成分含量及12盎司啤酒的价格对20种啤酒进行分类。分析(Analysis) 分类(Classify) 分层聚类(Hierarchical Cluster)Q型聚类选个案，R型聚类选变量。相似性矩阵：表格形式给出任意两个样本的相关指数。方法：聚类方法：组间聚类，组内聚类，最近邻元素法，最远邻元素法度量标准：平方Euclidean距离，Euclidean距离，Pearson相关性。标准化：如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量进行标准化。常用的是Z分数法和全距从 0-1。这是常用的几种方法，具体问题根据具体结果选择方法。R型聚类实例分析有10个测检项目，分别用x1-x10表示。有50个学生参加测试，通过50个学生的数据，把这10个变量聚成两类。并且找出每类中的代表元素。x3,x8,x9,x10是一类x1,x2,x4,x5,x6,x7是一类。x8的相关指数最高，所以x8代表可第二类元素。参考文献:1李云晋.非标准化数据的聚类分析方法J.昆明冶金高等专科学校学报,2005

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？