9利用Matlab和SPSS实现主成分分析.docx

上传人:b****3 文档编号:5443901 上传时间:2022-12-16 格式:DOCX 页数:15 大小:171.93KB
下载 相关 举报
9利用Matlab和SPSS实现主成分分析.docx_第1页
第1页 / 共15页
9利用Matlab和SPSS实现主成分分析.docx_第2页
第2页 / 共15页
9利用Matlab和SPSS实现主成分分析.docx_第3页
第3页 / 共15页
9利用Matlab和SPSS实现主成分分析.docx_第4页
第4页 / 共15页
9利用Matlab和SPSS实现主成分分析.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

9利用Matlab和SPSS实现主成分分析.docx

《9利用Matlab和SPSS实现主成分分析.docx》由会员分享,可在线阅读,更多相关《9利用Matlab和SPSS实现主成分分析.docx(15页珍藏版)》请在冰豆网上搜索。

9利用Matlab和SPSS实现主成分分析.docx

9利用Matlab和SPSS实现主成分分析

§9.利用Matlab和SPSS实现主成分分析

1.直接调用Matlab软件实现

在软件Matlab中实现主成分分析可以采取两种方式实现:

一是通过编程来实现;二是直接调用Matlab中自带程序实现。

通过直接调用Matlab中的程序可以实现主成分分析:

[pc,score,variance,t2]=princomp(X)

式中:

X为输入数据矩阵

_xi

x1m

x2m

Xnm-(一般要求n>m)

1pc主分量fi的系数,也叫因子系数;注意:

pcTpc=单位阵

2score是主分量下的得分值;得分矩阵与数据矩阵X的阶数是一致的;

3varianee是score对应列的方差向量,即A的特征值;容易计算方差所占的百分比

1X12

X21X22

_XniXn2

输出变量:

percent-v=100*variance/sum(varianee);

④t2表示检验的t2-统计量(方差分析要用)

计算过程中应用到计算模型

 

■fj

[

xj

f2

aT

X2

I-

=A

Jp一

1

xm

(要求p

 

例:

表1为某地区农业生态经济系统各区域单元相关指标数据,运用主成分

分析方法可以用更少的指标信息较为精确地描述该地区农业生态经济的发展状况。

表1某农业生态经济系统各区域单元的有关数据

样本

序号

X1:

人口密度

2(人/km)

X2:

人均耕

地面积(ha)

X3:

森林覆

盖率(%)

X4:

农民人均纯收入(元

/人)

X5:

人均粮

食产量(kg/人)

X6:

经济作物占农作物播面比例

(%)

X7:

耕地占土地面积比

率(%)

X8:

果园与林地面积之

比(%)

X9:

灌溉田占耕地面积之比(%)

1

363.912

0.352

16.101

192.11

295.34

26.724

18.492

2.231

26.262

2

141.503

1.684

24.301

1752.35

452.26

32.314

14.464

1.455

27.066

3

100.695

1.067

65.601

1181.54

270.12

18.266

0.162

7.474

12.489

4

143.739

1.336

33.205

1436.12

354.26

17.486

11.805

1.892

17.534

5

131.412

1.623

16.607

1405.09

586.59

40.683

14.401

0.303

22.932

6

68.337

2.032

76.204

1540.29

216.39

8.128

4.065

0.011

4.861

7

95.416

0.801

71.106

926.35

291.52

8.135

4.063

0.012

4.862

8

62.901

1.652

73.307

1501.24

225.25

18.352

2.645

0.034

3.201

9

86.624

0.841

68.904

897.36

196.37

16.861

5.176

0.055

6.167

10

91.394

0.812

66.502

911.24

226.51

18.279

5.643

0.076

4.477

11

76.912

0.858

50.302

103.52

217.09

19.793

4.881

0.001

6.165

12

51.274

1.041

64.609

968.33

181.38

4.005

4.066

0.015

5.402

13

68.831

0.836

62.804

957.14

194.04

9.110

4.484

0.002

5.790

14

77.301

0.623

60.102

824.37

188.09

19.409

5.721

5.055

8.413

15

76.948

1.022

68.001

1255.42

211.55

11.102

3.133

0.010

3.425

16

99.265

0.654

60.702

1251.03

220.91

4.383

4.615

0.011

5.593

17

118.505

0.661

63.304

1246.47

242.16

10.706

6.053

0.154

8.701

18

141.473

0.737

54.206

814.21

193.46

11.419

6.442

0.012

12.945

19

137.761

0.598

55.901

1124.05

228.44

9.521

7.881

0.069

12.654

20

117.612

1.245

54.503

805.67

175.23

18.106

5.789

0.048

8.461

21

122.781

0.731

49.102

1313.11

236.29

26.724

7.162

0.092

10.078

对于上述例子,Matlab进行主成分分析,可以得到如下结果

①以及每一个主成分的贡献率和累计贡献率,如表2和图1

表2.特征根及主成分贡献率

 

主成分

1

4.661

特征值

贡献率%

51.791

累积贡献率%

51.791

 

3

4

5

6

7

8

9

2.089

23.216

75.007

1.043

11.589

86.596

0.507

5.638

92.234

0.315

3.502

95.736

0.193

2.140

97.876

0.114

1.271

99.147

4.533E-02

0.504

99.650

3.147E-02

0.350

100.000

 

 

ScreePlot

ComponentNumber

特征根

②前3几个主成分的载荷系数如表3所示

表3前三个主成分在原变量上的载荷

X1

0.158

-0.255

-0.059

X2

0.026

0.424

-0.027

X3

-0.207

0.046

0.091

X4

0.009

0.415

0.036

X5

0.174

0.212

-0.011

X6

0.176

0.086

0.120

X7

0.200

-0.064

-0.241

X8

0.042

-0.048

0.930

X9

0.207

-0.012

0.088

2.直接调用SPSS软件实现

多元分析处理的是多指标的问题。

由于指标太多,使得分析的复杂性增加。

观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。

由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。

调用DataReduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。

基本操作

以以上例子来说明在SPSS中进行因子分析的整个过程。

将以上数据导入到数据窗口中,先定义各变量为numberic型。

①激活Analysis菜单选DataReduction的Factor...命令项,弹出FactorAnal

ysis对话框(图1)。

在对话框左侧的变量列表中选变量X1至X9,点击钮使之进入Variables框。

图1因子分析对话框

点击Descriptives..钮,弹出FactorAnalysis:

Descriptives对话框(图2),在Statistics中选Univariatedescriptives项要求输出各变量的均数与标准差,在CorrelationMatrix栏内选Coefficients项要求计算相关系数矩阵,并选KMOandBartlett'stestofsphericity项,要求对相关系数矩阵进行统计学检验。

点击Continue钮返回FactorAnalysis对话框。

图2描述性指标选择对话框

点击Extraction...钮,弹出FactorAnalysis:

Extraction对话框(图3),系统提

供如下因子提取方法:

2£1

FactorAnalysis:

Extraction

UnweightedleastsquaresGeneralizedleastsquaresMaximumlikelihoodPrincipalaxisfactoring為Iph刘factoiing

Extract

金Eigenvaluesover:

1

|_Numberoffactors:

MaximumIterationsforConvergence:

25

图3因子提取方法选择对话框

Principalcomponents:

主成分分析法;

Unweightedleastsquares未加权最小平方法;

Generalizedleastsquares综合最小平方法;

Maximumlikelihood:

极大似然估计法;

Principalaxisfactoring:

主轴因子法;

Alphafactoring:

a因子法;

Imagefactoring:

多元回归法。

本例选用Principalcomponents方法,之后点击Continue钮返回FactorAnalysis对话框。

点击Rotation...钮,弹出FactorAnalysis:

Rotation对话框,系统有5种因子

旋转方法可选:

None:

不作因子旋转;

Varimax:

正交旋转;

Equamax:

全体旋转,对变量和因子均作旋转;

Quartimax:

四分旋转,对变量作旋转;

DirectOblimin:

斜交旋转。

旋转的目的是为了获得简单结构,以帮助我们解释因子。

本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。

点击Scores..钮,弹出弹出FactorAnalysis:

Scores对话框,系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。

结果解释

在输出结果窗口中将看到如下统计数据:

系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有21例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett

检验表明:

Bartlett值=159.767,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。

DescriptiveStatistics

Mean

Std.Deviation

AnalysisN

x1:

人口密度(人/km2)

113.0760

64.25654

21

x2:

人均耕地面积(ha)

1.00981

.43421

21

x3:

森林覆盖率(%)

55.01781

17.88164

21

x4:

农民人均纯收入

1067.000

405.6333

21

(兀/人)

x5:

人均粮食产量

(kg/人)

257.2976

99.4713

21

x6:

经济作物占农作物播面比例(%)

16.64314

9.24956

21

x7:

耕地占土地面积比率(%)

6.72110

4.45715

21

x8:

果园与林地面积之比(%)

.90533

1.93672

21

x9:

灌溉田占耕地面积之比(%)

10.35610

7.30063

21

 

CorrelationMatrix

人口密度

人均耕

地面积

森林覆

盖率

农民人均纯收入

人均粮食产量

经济作物占农作物播面比例

耕地占土地果园与林地

灌溉田占耕地面积之比

面积比率

面积之比

人口密度

1.000

-.327

-.714

-.336

.309

.408

.790

.156

.744

人均耕地面积

-.327

1.000

-.035

.644

.420

.255

.009

-.078

.094

森林覆盖率

-.714

-.035

1.000

.070

-.740

-.755

-.930

-.109

-.924

农民人均纯收入

-.336

.644

.070

1.000

.383

.069

-.046

-.031

.073

人均粮食产量

.309

.420

-.740

.383

1.000

.734

.672

.098

.747

经济作物占农作物播面

.408

.255

-.755

.069

.734

1.000

.658

.222

.707

比例耕地占土地面积比率

.790

.009

-.930

-.046

.672

.658

1.000

-.030

.890

果园与林地面积之比

.156

-.078

-.109

-.031

.098

.222

-.030

1.000

.290

灌溉田占耕

地面积之比

.744

.094

-.924

.073

.747

.707

.890

.290

1.000

KMOandBartlett'sTest

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.759

Bartlett'sTestof

Approx.Chi-Square

159.767

Sphericity

df

36

Sig.

.000

Communalities

Initial

Extraction

x1:

人口密度(人/km2)

1.000

.832

x2:

人均耕地面积(ha)

1.000

.803

x3:

森林覆盖率(%)

1.000

.947

x4:

农民人均纯收入

(元/人)

1.000

.757

x5:

人均粮食产量

1.000

.858

(kg/人)

x6:

经济作物占农作

1.000

.718

物播面比例(%)

x7:

耕地占土地面积比率(%)

1.000

.952

x8:

果园与林地面积

1.000

.990

之比(%)

x9:

灌溉田占耕地面

1.000

.938

积之比(%)

ExtractionMethod:

PrincipalComponentAnalysis.

使用主成分分析法得到3个因子,因子矩阵(FactorMatrix)如下,变量与

某一因子的联系系数绝对值越大,则该因子与变量关系越近。

如本例变量X3与

第一因子的值为-0.964,与第二因子的值为0.00956,可见其与第一因子更近,与第二因子更远。

或者因子矩阵也可以作为因子贡献大小的度量,其绝对值越大,贡献也越大。

TotalVarianceExplained

ExtractionMethod:

PrincipalComponentAnalysis.

Component

1

2

3

x1:

人口密度(人/km2)

.739

-.532

-6.11E-02

x2:

人均耕地面积(ha)

.123

.887

-2.82E-02

x3:

森林覆盖率(%)

-.964

9.561E-02

9.486E-02

x4:

农民人均纯收入

(元/人)

4.164E-02

.868

3.702E-02

x5:

人均粮食产量

(kg/人)

.813

.444

-1.09E-02

x6:

经济作物占农作物播面比例(%)

.819

.179

.125

x7:

耕地占土地面积比率(%)

.933

-.133

-.251

x8:

果园与林地面积之比(%)

.197

-.100

.970

x9:

灌溉田占耕地面积之比(%)

.964

-2.50E-02

9.167E-02

ComponentMatrix

a

ExtractionMethod:

PrincipalComponentAnalysis.

a.3componentsextracted.

下面显示经正交旋转后的因子负荷矩阵(RotatedFactorMatrix)和因子转换

矩阵(FactorTransformationMatrix)。

旋转的目的是使复杂的矩阵变得简洁,即第一因子替代了X1、X3、X7、X9作用,第二因子替代了X2、X4的作用,第三因子替代了X8的作用。

Component

1

2

3

x1:

人口密度(人/km2)

.773

-.483

4.383E-02

x2:

人均耕地面积(ha)

7.021E-02

.891

-5.36E-02

x3:

森林覆盖率(%)

-.972

3.427E-02

-1.57E-02

x4:

农民人均纯收入(元/人)

-1.71E-02

.870

2.953E-03

x5:

人均粮食产量

(kg/人)

.780

.496

5.874E-02

x6:

经济作物占农作物播面比例(%)

.787

.238

.206

x7:

耕地占土地面积比率(%)

.962

-7.93E-02

-.141

x8:

果园与林地面积之比(%)

9.301E-02

-5.10E-02

.989

x9:

灌溉田占耕地面积之比(%)

.947

4.299E-02

.198

RotatedComponentMatrix

a

ExtractionMethod:

PrincipalComponentAnalysis.RotationMethod:

VarimaxwithKaiserNormalization.

a.Rotationconvergedin4iterations.

fac2_1、第三因子的因子分用变量名fac3_1存入原始数据库中。

这些值既可用于模型诊断,又可用于进一步分析。

序号

fac11

fac21

fac31

1

2.44059

-2.5297

0.22488

2

1.83184

1.70832

0.2086

3

-0.60361

0.34

3.5704

4

0.92987

0.69627

0.23949

5

2.19416

1.71331

-0.31645

6

-0.86759

1.54692

-0.48955

7

-0.5842

-0.22985

-0.42651

8

-0.78014

1.30071

-0.25939

9

-0.49636

-0.32259

-0.32165

10

-0.40401

-0.28393

-0.34677

11

-0.18605

-1.03707

-0.39139

12

-0.86194

-0.08865

-0.50159

13

-0.65298

-0.29151

-0.44309

14

-0.44842

-0.61578

2.11487

15

-0.77951

0.25268

-0.37101

16

-0.5935

-0.28171

-0.50773

17

-0.27747

-0.24832

-0.36976

18

-0.0078

-0.82586

-0.45226

19

0.03339

-0.5882

-0.4911

20

-0.14661

-0.20895

-0.41245

21

0.26035

-0.0061

-0.25752

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 其它

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1