1、9利用Matlab和SPSS实现主成分分析9.利用Matlab和SPSS实现主成分分析1.直接调用Matlab软件实现在软件Matlab中实现主成分分析可以采取两种方式实现:一是通过编程来 实现;二是直接调用Matlab中自带程序实现。通过直接调用Matlab中的程序可以实现主成分分析:pc,score, variance,t2 = princomp (X)式中:X为输入数据矩阵_xix1mx2mXnm -(一般要求 nm)1pc主分量fi的系数,也叫因子系数;注意:pcTpc=单位阵2score是主分量下的得分值;得分矩阵与数据矩阵 X的阶数是一致的;3varianee是score对应列的方
2、差向量,即 A的特征值;容易计算方差所占 的百分比1 X12X21 X22_Xni Xn2输出变量:perce nt-v = 100*varia nce/sum(varia nee);t2表示检验的t2-统计量(方差分析要用)计算过程中应用到计算模型fjxjf2a TX2I-=AJp 一1xm(要求pm)例:表1为某地区农业生态经济系统各区域单元相关指标数据, 运用主成分分析方法可以用更少的指标信息较为精确地描述该地区农业生态经济的发展状 况。表1某农业生态经济系统各区域单元的有关数据样本序号X1:人口密度2 (人/km )X 2:人均耕地面积(ha)X 3:森林覆盖率(%)X 4:农民人 均
3、纯收入(元/人)X 5:人均粮食产量(kg/ 人)X 6:经济作 物占农作物 播面比例(%)X 7:耕地占 土地面积比率(% )X 8:果园与 林地面积之比(%)X 9:灌溉田 占耕地面积 之比(%)1363.9120.35216.101192.11295.3426.72418.4922.23126.2622141.5031.68424.3011 752.35452.2632.31414.4641.45527.0663100.6951.06765.6011 181.54270.1218.2660.1627.47412.4894143.7391.33633.2051 436.12354.2617
4、.48611.8051.89217.5345131.4121.62316.6071 405.09586.5940.68314.4010.30322.932668.3372.03276.2041 540.29216.398.1284.0650.0114.861795.4160.80171.106926.35291.528.1354.0630.0124.862862.9011.65273.3071 501.24225.2518.3522.6450.0343.201986.6240.84168.904897.36196.3716.8615.1760.0556.1671091.3940.81266.5
5、02911.24226.5118.2795.6430.0764.4771176.9120.85850.302103.52217.0919.7934.8810.0016.1651251.2741.04164.609968.33181.384.0054.0660.0155.4021368.8310.83662.804957.14194.049.1104.4840.0025.7901477.3010.62360.102824.37188.0919.4095.7215.0558.4131576.9481.02268.0011 255.42211.5511.1023.1330.0103.4251699.
6、2650.65460.7021 251.03220.914.3834.6150.0115.59317118.5050.66163.3041 246.47242.1610.7066.0530.1548.70118141.4730.73754.206814.21193.4611.4196.4420.01212.94519137.7610.59855.9011 124.05228.449.5217.8810.06912.65420117.6121.24554.503805.67175.2318.1065.7890.0488.46121122.7810.73149.1021 313.11236.292
7、6.7247.1620.09210.078对于上述例子,Matlab进行主成分分析,可以得到如下结果以及每一个主成分的贡献率和累计贡献率,如表 2和图1表2.特征根及主成分贡献率主成分14.661特征值贡献率51.791累积贡献率51.79134567892.08923.21675.0071.04311.58986.5960.5075.63892.2340.3153.50295.7360.1932.14097.8760.1141.27199.1474.533E-020.50499.6503.147E-020.350100.000Scree PlotComp onent Number特征根前3几
8、个主成分的载荷系数如表3所示表3前三个主成分在原变量上的载荷X10.158-0.255-0.059X20.0260.424-0.027X3-0.2070.0460.091X40.0090.4150.036X50.1740.212-0.011X60.1760.0860.120X70.200-0.064-0.241X80.042-0.0480.930X90.207-0.0120.0882.直接调用SPSS软件实现多元分析处理的是多指标的问题。由于指标太多,使得分析的复杂性增加。 观察指标的增加本来是为了使研究过程趋于完整, 但反过来说, 为使研究结果清 晰明了而一味增加观察指标又让人陷入混乱不清。
9、 由于在实际工作中, 指标间经 常具备一定的相关性, 故人们希望用较少的指标代替原来较多的指标, 但依然能 反映原有的全部信息, 于是就产生了主成分分析、 对应分析、 典型相关分析和因 子分析等方法。调用Data Reduction菜单的Factor过程命令项,可对多指标或多因素资料进 行因子分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之 间的联系, 即将相关比较密切的几个变量归在同一类中, 每一类变量就成为一个 因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上 一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。基本操作以以上例子来说明在SP
10、SS中进行因子分析的整个过程。将以上数据导入到数据窗口中,先定义各变量为 numberic型。激活 Analysis 菜单选 Data Reduction 的 Factor.命令项, 弹出 Factor Analysis对话框(图1)。在对话框左侧的变量列表中选变量 X1至X9,点击 钮使之 进入 Variables框。图1 因子分析对话框点击 Descriptives.钮,弹出 Factor Analysis:Descriptives 对话框(图 2),在 Statistics中选Uni variate descriptives项要求输出各变量的均数与标准差,在 Cor relation M
11、atrix栏内选Coefficients项要求计算相关系数矩阵,并选 KMO and B artletts test of sphericity项,要求对相关系数矩阵进行统计学检验。点击 Conti nue钮返回Factor Analysis对话框。图2描述性指标选择对话框点击 Extraction.钮,弹出 Factor Analysis:Extraction 对话框(图 3),系统提供如下因子提取方法:21Factor Analysis: ExtractionUnweighted least squares Generalized least squares Maximum likelih
12、ood Principal axis factoring 為Iph刘 factoiingExtract金 Eigenvalues over: 1|_ Number of factors:Maximum Iterations for Convergence: 25图3因子提取方法选择对话框Principal components:主成分分析法;Un weighted least squares未加权最小平方法;Generalized least squares 综合最小平方法;Maximum likelihood :极大似然估计法;Prin cipal axis factori ng:主轴因子法
13、;Alpha factoring: a 因子法;Image factori ng:多元回归法。本例选用 Principal components方法,之后点击 Continue钮返回 Factor Ana lysis对话框。点击Rotation.钮,弹出Factor Analysis:Rotation对话框,系统有 5种因子旋转方法可选:None:不作因子旋转;Varimax :正交旋转;Equamax:全体旋转,对变量和因子均作旋转;Quartimax :四分旋转,对变量作旋转;Direct Oblimin :斜交旋转。旋转的目的是为了获得简单结构, 以帮助我们解释因子。 本例选正交旋转法,
14、 之后点击 Continue 钮返回 Factor Analysis 对话框。点击Scores.钮,弹出弹出Factor Analysis:Scores对话框,系统提供3种估 计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue 钮返回Factor Analysis对话框,再点击OK钮即完成分析。结果解释在输出结果窗口中将看到如下统计数据:系统首先输出各变量的均数(Mean)与标准差(Std Dev),并显示共有21 例观察单位进入分析;接着输出相关系数矩阵( Correlation Matrix),经Bartlett检验表明:Bartlett值=159.
15、767, P0.0001,即相关矩阵不是一个单位矩阵,故 考虑进行因子分析。Descriptive StatisticsMeanStd. DeviationAnalysis Nx1 :人口密度(人/km2)113.076 064.256 5421x 2 :人均耕地面积(ha)1.009 81.434 2121x 3 :森林覆盖率()55.017 8117.881 6421x4 :农民人均纯收入1 067.000405.633 321(兀/人)x5 :人均粮食产量(kg/ 人)257.297 699.471 321x6 :经济作物占农作 物播面比例()16.643 149.249 5621x7:
16、耕地占土地面积 比率(%)6.721 104.457 1521x8:果园与林地面积 之比(%).905 331.936 7221x9:灌溉田占耕地面 积之比(%)10.356 107.300 6321Correlation Matrix人口密 度人均耕地面积森林覆盖率农民人均 纯收入人均粮 食产量经济作物占农 作物播面比例耕地占土地果园与林地灌溉田占耕 地面积之比面积比率面积之比人口密度1.000-.327-.714-.336.309.408.790.156.744人均耕地面 积-.3271.000-.035.644.420.255.009-.078.094森林覆盖率-.714-.0351.0
17、00.070-.740-.755-.930-.109-.924农民人均纯 收入-.336.644.0701.000.383.069-.046-.031.073人均粮食产 量.309.420-.740.3831.000.734.672.098.747经济作物占 农作物播面.408.255-.755.069.7341.000.658.222.707比例 耕地占土地 面积比率.790.009-.930-.046.672.6581.000-.030.890果园与林地 面积之比.156-.078-.109-.031.098.222-.0301.000.290灌溉田占耕地面积之比.744.094-.924
18、.073.747.707.890.2901.000KMO and Bar tletts TestKaiser-Meyer-Olk in Measure of Sampli ng Adequacy.759Bartletts Test ofApprox. Chi-Square159.767Sphericitydf36Sig.000Commu nalitiesIn itialExtractio nx1:人口密度(人/km2)1.000.832x 2 :人均耕地面积(ha)1.000.803x 3 :森林覆盖率(%)1.000.947x 4 :农民人均纯收入(元/人)1.000.757x 5 :人均粮
19、食产量1.000.858(kg/ 人)x 6 :经济作物占农作1.000.718物播面比例( )x 7 :耕地占土地面积 比率( )1.000.952x 8 :果园与林地面积1.000.990之比( )x 9 :灌溉田占耕地面1.000.938积之比(% )Extractio n Method: Prin cipal Comp onent An alysis.使用主成分分析法得到3个因子,因子矩阵(Factor Matrix )如下,变量与某一因子的联系系数绝对值越大,则该因子与变量关系越近。如本例变量 X3与第一因子的值为-0.964,与第二因子的值为0.009 56,可见其与第一因子更近,
20、 与第二因子更远。或者因子矩阵也可以作为因子贡献大小的度量,其绝对值越大, 贡献也越大。Total Variance ExplainedExtractio n Method: Pr in cipal Comp onent An alysis.Comp onent123x1:人口密度(人/km2).739-.532-6.11E-02x 2 :人均耕地面积(ha).123.887-2.82E-02x 3 :森林覆盖率(%)-.9649.561E-029.486E-02x4 :农民人均纯收入(元/人)4.164E-02.8683.702E-02x5 :人均粮食产量(kg/ 人).813.444-1.
21、09E-02x6 :经济作物占农作 物播面比例().819.179.125x7 :耕地占土地面积 比率(%).933-.133-.251x 8 :果园与林地面积 之比(%).197-.100.970x9 :灌溉田占耕地面 积之比(%).964-2.50E-029.167E-02Comp onent MatrixaExtractio n Method: Prin cipal Comp onent An alysis.a. 3 comp onents extracted.下面显示经正交旋转后的因子负荷矩阵 (Rotated Factor Matrix)和因子转换矩阵(Factor Transfor
22、mation Matrix )。旋转的目的是使复杂的矩阵变得简洁,即 第一因子替代了 X1、X3、X7、X9作用,第二因子替代了 X2、X4的作用,第 三因子替代了 X8的作用。Comp onent123x1 :人口密度(人/km2).773-.4834.383E-02x 2 :人均耕地面积(ha)7.021E-02.891-5.36E-02x 3 :森林覆盖率(%)-.9723.427E-02-1.57E-02x4 :农民人均纯收入 (元/人)-1.71E-02.8702.953E-03x5 :人均粮食产量(kg/ 人).780.4965.874E-02x6 :经济作物占农作 物播面比例()
23、.787.238.206x7 :耕地占土地面积 比率(%).962-7.93E-02-.141x 8 :果园与林地面积 之比(%)9.301E-02-5.10E-02.989x9 :灌溉田占耕地面 积之比(%).9474.299E-02.198Rotated Comp onent MatrixaExtractio n Method: Prin cipal Comp onent An alysis. Rotati on Method: Varimax with Kaiser Normalizati on.a. Rotati on con verged in 4 iterati ons.fac2_
24、1、第三因子的因子分用变量名fac3_1存入原始数据库中。这些值既可用于 模型诊断,又可用于进一步分析。序号fac1 1fac2 1fac3 112.440 59-2.529 70.224 8821.831 841.708 320.208 63-0.603 610.343.570 440.929 870.696 270.239 4952.194 161.713 31-0.316 456-0.867 591.546 92-0.489 557-0.584 2-0.229 85-0.426 518-0.780 141.300 71-0.259 399-0.496 36-0.322 59-0.321
25、6510-0.404 01-0.283 93-0.346 7711-0.186 05-1.037 07-0.391 3912-0.861 94-0.088 65-0.501 5913-0.652 98-0.291 51-0.443 0914-0.448 42-0.615 782.114 8715-0.779 510.252 68-0.371 0116-0.593 5-0.281 71-0.507 7317-0.277 47-0.248 32-0.369 7618-0.007 8-0.825 86-0.452 26190.033 39-0.588 2-0.491 120-0.146 61-0.208 95-0.412 45210.260 35-0.006 1-0.257 52
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1