主成分因子聚类判别.docx-资源下载

主成分因子聚类判别.docx

1、主成分因子聚类判别目录第十一章多元统计分析 3第一节主成分分析 3一、基本思想 3二、数学模型 4三、模型的求解 5四、主成分的性质 5五、基本步骤与应用实例 5第二节因子分析 9一、基本思想 9二、数学模型 10三、因子载荷的统计含义 10四、因子的求解 11五、因子得分 11六、基本步骤与应用实例 11第三节聚类分析 13一、基本思想 13二、统计量 14三、分类方法（系统聚类法） 14四、基本步骤与应用实例 15第四节判别分析 19一、基本思想 19二、基本方法 19三、判别效果的评价 20四、基本步骤与应用实例 20习题 23第十一章多元统计分析多元统计分析(multi

2、variate statistical analysis)是研究多个随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科，是现代统计学应用十分活跃的一个分支。常用多元统计方法主要有：多元数据图表示法、主成分分析、因子分析、聚类分析、判别分析、对应分析、多元回归分析、典型相关分析、路径分析等。从某种意义上讲，多元分析是一些方法的“混合体”，我们难于给出其确切的概念和难于对其所有方法进行归类，但是它可以同时展示和处理异度量的多个变量间的各种关系，且不损失原有的信息量，所以多元统计分析方法成为进行深层次经济分析的一种有效工具。每一种方法都有丰富的内容，也涉及较多的数理统计知识。本章主要的目的是

3、简要介绍一些常用多元统计方法的基本思路和方法，对于数理推导部分，有兴趣的读者可参考相关专著。第一节主成分分析在许多实际问题中，我们经常用多个变量来刻划某一事物，但由于这些变量之间往往具有相关性，很多变量带有重复信息，这样就给分析问题带来了很多不便，同时也使分析结论不具有真实性和可靠性，因此，人们希望寻找到少量几个综合变量来代替原来较多的变量，使这几个综合变量能较全面地反映原来多项变量的信息，同时相互之间不相关。主成分分析正是满足上述要求的一种处理多变量问题的方法。一、基本思想主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合

4、。为了能更清晰的解释主成分的基本思想，我们从用两个指标来衡量n个样本点的二维空间入手。在二维空间，n个样本点的变量信息若用离差平方和来表示，则变量的信息总量为总方差。对于每个变量的离差平方和，它们的取值可能出现各种情况：(1)如果离差平方和和之间相差悬殊，如取值之比为10：1，说明变量x1在方差总信息量中占较重要的地位，可剔除变量x2达到降维的目的；(2)如果和数值相差不大，说明两个指标在方差总信息量中的比重相当，统计分析时，两个指标都不可放弃，此时可对x1、x2作适当的变量替换，通过某方法寻找到两个新的变量y1、y2 (必须是原变量x1、x2的线性组合)，使新变量满足：，(其中)，上式说明新

5、变量y继承了原变量x的全部信息，并且要求和数值比例相差较大，这时仅用y1来分析原问题就可以了，变量的个数从2变为了1。此时的y1方差最大，包含的信息最多。y1称之为第一主成分，y2称为第二主成分。推而广之，第一主成分y1的方差达到最大，其方差越大，表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息，再考虑选取第二主成分y2，y2在剩余的线性组合中方差最大，并且与y1不相关，如若第一、第二主成分仍然不能反映原变量的全部信息，再考虑选取第三主成分y3，y3在剩余的线性组合中方差最大，并且与y1、y2不相关，依此可求出全部p个主成分，它们的方差是依次递减的。在实际工作中，在不损失较多信

6、息的情况下，通常选取前几个主成分来进行分析，达到简化数据结构的目的。二、数学模型主成分分析可以针对总体，也可以针对样本，但在许多问题中所涉及的总体都是未知的，所以我们主要讨论样本的主成分。仍从二维空间入手，设有两个变量的信息如图11.1所示，大部分的样本点集中在椭圆范围内：图11.1 两个变量的信息分布如果我们取椭圆的长轴y1、短轴y2作为样本点新的坐标轴，容易看出y1坐标变化程度大，即y1的方差最大，而y2的变化程度相对较小，即y2的方差较小。于是可以说变量(x1，x2)的信息大部分集中在新变量y1上，而小部分集中在新变量y2上。上图中的新坐标y1，y2是x1，x2经过坐标旋转而得到的，其旋

7、转公式为：系数满足的要求是：我们可以称y1为它们的第一主成分，y2为它们的第二主成分，坐标的正交变换为主成分变换。推广开来，设有n个样本点，每个样本点都有p项变量x1,x2,xp，其原始数据矩阵表示为：其中xij是第i个样本点第j个指标的观测值。如前所述，通过主成分变换得到的线性组合可以表示为x1,x2,xp的线性组合： (11.1)如果系数uij满足；而且系数uij的确使yi、与yj(ij)相互无关，并使y1是x1,x2,xp的一切线性组合中方差最大者，y2是与y1不相关的x1,x2,xp的所有线性组合中方差最大者，yp是与y1，y2，yp-1都不相关的x1,x2,xp的所有线性组合中方差最

8、大者，则称y1,y2,yp为原变量的第一，第二，第p主成分。三、模型的求解要求原始变量的主成分，关键在于求公式(11.1)的系数值。在应用主成分分析研究问题时，通常先将数据标准化，以消除量纲对结果的影响。标准化的常用公式为：，标准化后的数据均值为0，方差为1。可以证明，变量x1，x2，xp标准化以后，其协方差矩阵S与相关系数矩阵R相等。为了求出主成分，只需求样本协方差矩阵S或相关系数矩阵R的特征根和特征向量就可以。设R的特征根12p0，相应的单位特征向量为：(ui1 ui2 uip)，那么相应的主成分就是：。四、主成分的性质以下我们不加证明地给出主成分的有关性质。性质1：第k个主成分yk的系

9、数向量是第k个特征根k所对应的标准化特征向量Uk。性质2：第k个主成分的方差为第k个特征根k，且任意两个主成分都是不相关的，也就是主成分y1，y2，yp的样本协方差矩阵是对角矩阵。性质3：样本主成分的总方差等于原变量样本的总方差。性质4：第k个样本主成分与第j个变量样本之间的相关系数为：该相关系数又称为因子载荷量。在解决实际问题时，一般不是取p个主成分，而是根据累计贡献率取前k个。第k个主成分的方差贡献率为：，前k个主成分的累计方差贡献率为：。通常情况下，如果前k个主成分的累计贡献率达到85%，则表明取前k个主成分就能基本包含原指标中的信息了，从而达到减少变量个数的目的。另一种选择主成分个数的

10、方法是选择大于1的特征根所对应的主成分。五、基本步骤与应用实例（一）基本步骤（1）对原变量的样本数据矩阵进行标准化变换（2）求标准化数据矩阵的相关系数矩阵R（3）求R的特征根及相应的特征向量和贡献率等（4）确定主成分的个数（5）解释主成分的实际意义和作用（二）应用实例【例11.1】我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标见表11.1，对各地区经济效益作出分析。表11.1 我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标地区工业增加值率(%)x1总资产贡献率(%)x2资产负债率(%)x3流动资产周转次数x4成本费用利润率(%)x5劳动生产率(元/人

11、年)x6产品销售率(%)x7北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆27.9027.2836.4636.8038.0928.1528.1852.8029.2926.4826.4832.6734.2228.5132.6030.7733.7534.4831.2333.7025.9330.2531.6234.0655.3257.5637.0429.9830.7930.6245.025.228.128.125.416.097.368.2824.079.018

12、.5810.847.3510.896.4011.707.397.469.6710.568.636.446.116.847.9920.9310.678.285.145.216.3212.8157.2358.8460.2862.5957.3759.4964.7255.8147.4859.7355.0460.9658.5267.5361.5465.0262.5866.4056.8969.6866.0863.8263.9368.2950.0425.4367.6365.8772.4760.9860.851.311.851.49.881.241.481.281.671.511.681.851.361.85

13、1.191.921.231.231.291.761.391.181.071.07.831.37.591.071.08.581.161.782.636.805.492.492.314.676.2037.647.214.486.672.676.791.558.424.074.582.207.595.544.462.194.223.7111.5929.897.671.181.673.0715.8153987.9578191.2742629.8124413.5335129.8847955.6840141.0373120.46118816.1656044.8166785.2135674.3091263.

14、7029123.4952621.2429296.8649374.6238179.94120863.3444140.8958521.5036638.2035013.7532317.4296702.70103001.2438102.9734352.9251599.9833620.79118599.8298.1099.3598.9097.9799.0298.3798.8999.0799.4698.2698.2299.1197.8498.1198.3298.31101.2399.6197.9998.1694.9699.5498.9899.7199.0995.7898.0097.4797.3896.65

15、98.73【解】计算过程如下：1. 将数据标准化，并求相关矩阵R地区工业增加值率(%) ZX1总资产贡献率(%)ZX2资产负债率(%)ZX3流动资产周转次数ZX4成本费用利润率(%)ZX5劳动生产率(元/人年)ZX6产品销售率(%)ZX7北京 .77 -.90 .38 -.07 -.55 -.10 .26天津 .84 -.20 .19 1.45 -.02 .73 .80河北 .29 -.20 .02 .46 -.19 -.50 .41山西 .33 -.86 .26 -1.26 -.57 -1.13 -.37内蒙古 .49 -.69 -.36 -.26 -.59 -.76 .52辽宁

16、.74 -.39 -.11 .42 -.29 -.31 -.03吉林 .73 -.17 .51 -.14 -.10 -.58 .41黑龙江 .30 3.64 -.54 .96 3.90 .56 .56上海 .59 .01 1.53 .50 .03 2.14 .89江苏 .94 -.09 -.08 .99 -.31 -.03 -.13浙江 .94 .45 -.63 1.47 -.04 .34 -.16安徽 .18 -.39 .06 .08 -.54 -.74 .59福建 .01 .46 -.22 1.47 -.02 1.19 -.48江西 .69 -.62 .84 -.39 -.6

17、9 -.96 -.25山东 .19 .66 .13 1.65 .19 -.15 -.07河南 .41 -.38 .54 -.29 -.37 -.96 -.08湖北 .05 -.36 .25 -.28 -.30 -.26 2.39湖南 .04 .17 .71 -.10 -.60 -.65 1.02广东 .36 .38 -.42 1.22 .08 2.21 -.35广西 .05 -.08 1.09 .16 -.18 -.44 -.21海南 1.01 -.61 .67 -.42 -.32 .05 -2.91重庆 -.48 -.69 .40 -.73 -.61 -.70 .95四川

18、-.31 -.51 .41 -.74 -.35 -.76 .48贵州 -.01 -.23 .93 -1.40 -.41 -.85 1.10云南 2.61 2.88 1.22 .12 .59 1.38 .58西藏 2.88 .41 4.13 -2.08 2.92 1.59 -2.22陕西 .36 -.17 .85 -.73 .09 -.65 -.35甘肃 .51 -.92 .64 -.70 -.73 -.78 -.79青海 .41 -.91 1.42 -2.10 -.67 -.19 -.87宁夏 .43 -.64 .07 -.48 -.49 -.81 -1.49新疆 .34 .9

19、3 .05 1.25 1.13 2.13 .28得相关系数矩阵为：2. 求R的特征根及相应的单位正交特征向量和贡献率由R的特征方程求得R的单位特征根为：再由齐次线性方程组求得特征向量U，将具体结果整理为下表：对应的特征向量U1j.439-.251.414.017.159-.509.538U2j.460.228.240.398.081-.205-.687U3j-.408.228.247.591.532.177.242U4j.158.689-.372.233-.352-.223.366U5j.487-.126.130.243-.252.750.218U6j.408.153-.450-.287.70

20、6.159.036U7j-.021.565.593-.544.006.182.010特征根3.4221.4461.0160.5910.2790.1620.084贡献率48.88%20.66%14.52%8.44%3.98%2.32%1.20%3. 确定主成分的个数q按的原则，取三个主成分就能够对工业企业经济效益进行分析，且这三个主成分的累计方差贡献率达到84.06%主成分的表达式为：4. 主成分的经济意义第一主成分y1中，zx4、zx7的系数相对较小，表明此两指标在y1中作用较小。而zx1、zx2、zx5、zx6的系数都在0.4左右，说明它们的作用相当，但zx3的系数为负值(-0.48)，对y

21、1起着明显的反向变化作用：zx3(资产负债率)取值越大，y1的值就越小。资产负债率是反映企业经营风险的指标，y1的含义是在综合其它变量所反映信息的基础上，突出地反映了企业经营风险的大小。第二主成分y2中，zx4的系数最大，为0.689，zx4(流动资金周转次数)取值越大，y2的取值也明显地增大，说明y2在综合其它变量信息的基础上，突出地反映了企业投入资金的周转速度。第三主成分y3中，zx7(产品销售率)的系数最大，为0.593，说明y3在综合其它变量信息的基础上，突出地反映了工业产品满足社会需求的情况。第二节因子分析在实际问题的分析中，有时需要对不能直接观测的潜在因素进行分析，如企业的形象，

22、企业文化、创新能力等都是不可直接观测到的变量(潜在变量)，而利税总额、劳动生产率等都是显在变量。因子分析(Factor Analysi)用少数几个潜在随机变量去描述多个显在随机变量之间的相关关系，换句话说，因子分析是把每个可观测的原始变量分解为两部分因素，一部分是由所有变量共同具有少数几个公共因子构成的，另一部分是每个原始变量独自具有的，即特殊因子部分，对于所研究的问题就可试图用最少个数的不可观测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。二、数学模型（一）符号与假定设有n个样本，每个样本观测p个变量，记：原始变量矩阵为X：_，公共因子变量矩阵为F：_，特殊因子矩阵为E：_假定

23、因子模型具有以下性质：1. E(x)=0，cov(x)=2. E(F)=0，D(F)=I3. E(E)=0，D(e)=diag(12, 12, p2)4. Cov(F,E)=0（二）因子模型我们将p个变量xi(i=1,2，p)表示成公共因子F与特殊因子的线性组合：若用矩阵形式表示，则为:X=AF+E式中的，称为因子载荷矩阵，并且称aij 为第i个变量在第j个公共因子上的载荷，反映了第i个变量在第j个公共因子上的相对重要性。三、因子载荷的统计含义可以证明因子载荷aij 为第i个变量xi与第j个公共因子Fj的相关系数，即反映了变量与公共因子的关系密切程度，aij越大，表明公共因子Fj与变量xi的线

24、性关系越密切。因子载荷矩阵中各行元素的平方和：，称为变量x1，x2，xp的共同度。它表示q个公共因子F1，F2，Fq对变量xi的方差贡献，变量共同度的最大值为1，值越接近于1，说明该变量所包含的原始信息被公共因子所解释的部分越大，用q个公共因子描述变量xi就越有效；而当值接近于0时，说明公共因子对变量的影响很小，主要由特殊因子来描述。因子载荷矩阵中各列元素的平方和：，称为公共因子F1，F2，Fq的方差贡献。它与p个变量的总方差之比为：，是衡量各个公共因子相对重要程度的一个指标。方差贡献率越大，该因子就越重要。四、因子的求解要建立因子分析模型，关键就在于解出其因子载荷矩阵A。A的求法很多，这里

25、仅介绍主成分法。前一节已提及，在对数据进行标准化后，样本的协方差矩阵S与相关系数矩阵R相等。设相关系数矩阵的特征根为12p，相应的特征向量为U1，U2，Up，设由列向量构成的矩阵有A表示，即A=可以证明R的分解式为，这个公式是一个精确可行的因子分解式，实际这就是主成分分析法的根据。由相关系数矩阵R求出的解A即为因子载荷矩阵，A的估计值为：。因子分析的目的是将多个变量简化为数量较少的因子，以便进行下一步的分析，所以一般来说，公共因子的个数q要小于等于变量的个数p，而且q越小越好，当q与p的差异较大时，便能将高维空间的问题降至低维空间进行处理。在实际问题中，q的数值通常可以采用不同的方法加以确定

26、。如根据累计方差贡献率85%确定，或者根据大于1的特征根来确定。五、因子得分当获得公共因子和因子载荷后，我们可以进一步考察每一个样本点在每一公共因子上的得分，从而对样本点进行评价、排序比较和分类。估计因子得分函数的常用方法是回归法，因子的得分估计为：六、基本步骤与应用实例（一）基本步骤1. 用公式对原始数据标准化2. 建立相关系数矩阵R3. 根据及求R的单位特征根与特征向量U；4. 根据求因子载荷矩阵A；5. 写出因子模型X=AF+E6. 求因子得分（二）应用实例【例11.2】仍以我国2001年各地区全部国有及规模以上非国有工业企业主要经济效益指标作为研究对象，试求：（1）正交因子模型；（2）

27、各个变量的共同度以及特殊因子方差；（3）每个因子的方差贡献率以及三个因子的累计方差贡献率；（4）说明三个因子的意义。【解】1. (1) 将原始数据标准化后求得其相关系数矩阵R为 (2)特征根与特征向量根据及求得R的大于1的单位特征根与特征向量U分别为：.439 -.251 .414.460 .228 .240-.408 .228 .247U= .158 .689 -.372.487 -.126 .130.408 .153 -.450-.021 .565 .593(3)因子载荷矩阵为(4)因子模型为2. 结果见下表变量因子载荷共同度特殊因子方差F1F2F3X1X2X3X4X5X6X7.813.851-.754.293.901.754-3.956E-02-.302.274.274.829-.151.184.679.417.242.249-.375.131-.454.598.927.858.705.914.853.808.8200.0730.1420.2950.0860.1470.1920.180方差贡献率4

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？