9利用Matlab和SPSS实现主成分分析.docx

上传人:b****5 文档编号:5705327 上传时间:2022-12-31 格式:DOCX 页数:14 大小:211.56KB
下载 相关 举报
9利用Matlab和SPSS实现主成分分析.docx_第1页
第1页 / 共14页
9利用Matlab和SPSS实现主成分分析.docx_第2页
第2页 / 共14页
9利用Matlab和SPSS实现主成分分析.docx_第3页
第3页 / 共14页
9利用Matlab和SPSS实现主成分分析.docx_第4页
第4页 / 共14页
9利用Matlab和SPSS实现主成分分析.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

9利用Matlab和SPSS实现主成分分析.docx

《9利用Matlab和SPSS实现主成分分析.docx》由会员分享,可在线阅读,更多相关《9利用Matlab和SPSS实现主成分分析.docx(14页珍藏版)》请在冰豆网上搜索。

9利用Matlab和SPSS实现主成分分析.docx

9利用Matlab和SPSS实现主成分分析

§9.利用Matlab和SPSS实现主成分分析

1.直接调用Matlab软件实现

在软件Matlab中实现主成分分析可以采取两种方式实现:

一是通过编程来实现;二是直接调用Matlab中自带程序实现。

通过直接调用Matlab中的程序可以实现主成分分析:

式中:

X为输入数据矩阵

(一般要求n>m)

输出变量:

①pc主分量fi的系数,也叫因子系数;注意:

pcTpc=单位阵

②score是主分量下的得分值;得分矩阵与数据矩阵X的阶数是一致的;

③variance是score对应列的方差向量,即A的特征值;容易计算方差所占的百分比

percent-v=100*variance/sum(variance);

④t2表示检验的t2-统计量(方差分析要用)

计算过程中应用到计算模型:

(要求p

例:

表1为某地区农业生态经济系统各区域单元相关指标数据,运用主成分分析方法可以用更少的指标信息较为精确地描述该地区农业生态经济的发展状况。

表1某农业生态经济系统各区域单元的有关数据

样本序号

x1:

人口密度(人/km2)

x2:

人均耕地面积(ha)

x3:

森林覆盖率(%)

x4:

农民人均纯收入(元/人)

x5:

人均粮食产量(kg/人)

x6:

经济作物占农作物播面比例(%)

x7:

耕地占土地面积比率(%)

x8:

果园与林地面积之比(%)

x9:

灌溉田占耕地面积之比(%)

1

363.912

0.352

16.101

192.11

295.34

26.724

18.492

2.231

26.262

2

141.503

1.684

24.301

1752.35

452.26

32.314

14.464

1.455

27.066

3

100.695

1.067

65.601

1181.54

270.12

18.266

0.162

7.474

12.489

4

143.739

1.336

33.205

1436.12

354.26

17.486

11.805

1.892

17.534

5

131.412

1.623

16.607

1405.09

586.59

40.683

14.401

0.303

22.932

6

68.337

2.032

76.204

1540.29

216.39

8.128

4.065

0.011

4.861

7

95.416

0.801

71.106

926.35

291.52

8.135

4.063

0.012

4.862

8

62.901

1.652

73.307

1501.24

225.25

18.352

2.645

0.034

3.201

9

86.624

0.841

68.904

897.36

196.37

16.861

5.176

0.055

6.167

10

91.394

0.812

66.502

911.24

226.51

18.279

5.643

0.076

4.477

11

76.912

0.858

50.302

103.52

217.09

19.793

4.881

0.001

6.165

12

51.274

1.041

64.609

968.33

181.38

4.005

4.066

0.015

5.402

13

68.831

0.836

62.804

957.14

194.04

9.110

4.484

0.002

5.790

14

77.301

0.623

60.102

824.37

188.09

19.409

5.721

5.055

8.413

15

76.948

1.022

68.001

1255.42

211.55

11.102

3.133

0.010

3.425

16

99.265

0.654

60.702

1251.03

220.91

4.383

4.615

0.011

5.593

17

118.505

0.661

63.304

1246.47

242.16

10.706

6.053

0.154

8.701

18

141.473

0.737

54.206

814.21

193.46

11.419

6.442

0.012

12.945

19

137.761

0.598

55.901

1124.05

228.44

9.521

7.881

0.069

12.654

20

117.612

1.245

54.503

805.67

175.23

18.106

5.789

0.048

8.461

21

122.781

0.731

49.102

1313.11

236.29

26.724

7.162

0.092

10.078

对于上述例子,Matlab进行主成分分析,可以得到如下结果。

1以及每一个主成分的贡献率和累计贡献率,如表2和图1。

表2.特征根及主成分贡献率

主成分

特征值

贡献率%

累积贡献率%

1

4.661

51.791

51.791

2

2.089

23.216

75.007

3

1.043

11.589

86.596

4

0.507

5.638

92.234

5

0.315

3.502

95.736

6

0.193

2.140

97.876

7

0.114

1.271

99.147

8

4.533E-02

0.504

99.650

9

3.147E-02

0.350

100.000

图1特征根

2前3几个主成分的载荷系数如表3所示。

表3前三个主成分在原变量上的载荷

前三个主成分

变量

1

2

3

X1

0.158

-0.255

-0.059

X2

0.026

0.424

-0.027

X3

-0.207

0.046

0.091

X4

0.009

0.415

0.036

X5

0.174

0.212

-0.011

X6

0.176

0.086

0.120

X7

0.200

-0.064

-0.241

X8

0.042

-0.048

0.930

X9

0.207

-0.012

0.088

2.直接调用SPSS软件实现

多元分析处理的是多指标的问题。

由于指标太多,使得分析的复杂性增加。

观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。

由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。

调用DataReduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。

基本操作

以以上例子来说明在SPSS中进行因子分析的整个过程。

将以上数据导入到数据窗口中,先定义各变量为numberic型。

①激活Analysis菜单选DataReduction的Factor...命令项,弹出FactorAnalysis对话框(图1)。

在对话框左侧的变量列表中选变量X1至X9,点击钮使之进入Variables框。

图1因子分析对话框

点击Descriptives...钮,弹出FactorAnalysis:

Descriptives对话框(图2),在Statistics中选Univariatedescriptives项要求输出各变量的均数与标准差,在CorrelationMatrix栏内选Coefficients项要求计算相关系数矩阵,并选KMOandBartlett’stestofsphericity项,要求对相关系数矩阵进行统计学检验。

点击Continue钮返回FactorAnalysis对话框。

图2描述性指标选择对话框

点击Extraction...钮,弹出FactorAnalysis:

Extraction对话框(图3),系统提供如下因子提取方法:

图3因子提取方法选择对话框

Principalcomponents:

主成分分析法;

Unweightedleastsquares:

未加权最小平方法;

Generalizedleastsquares:

综合最小平方法;

Maximumlikelihood:

极大似然估计法;

Principalaxisfactoring:

主轴因子法;

Alphafactoring:

α因子法;

Imagefactoring:

多元回归法。

本例选用Principalcomponents方法,之后点击Continue钮返回FactorAnalysis对话框。

点击Rotation...钮,弹出FactorAnalysis:

Rotation对话框,系统有5种因子旋转方法可选:

None:

不作因子旋转;

Varimax:

正交旋转;

Equamax:

全体旋转,对变量和因子均作旋转;

Quartimax:

四分旋转,对变量作旋转;

DirectOblimin:

斜交旋转。

旋转的目的是为了获得简单结构,以帮助我们解释因子。

本例选正交旋转法,之后点击Continue钮返回FactorAnalysis对话框。

点击Scores...钮,弹出弹出FactorAnalysis:

Scores对话框,系统提供3种估计因子得分系数的方法,本例选Regression(回归因子得分),之后点击Continue钮返回FactorAnalysis对话框,再点击OK钮即完成分析。

结果解释

在输出结果窗口中将看到如下统计数据:

系统首先输出各变量的均数(Mean)与标准差(StdDev),并显示共有21例观察单位进入分析;接着输出相关系数矩阵(CorrelationMatrix),经Bartlett检验表明:

Bartlett值=159.767,P<0.0001,即相关矩阵不是一个单位矩阵,故考虑进行因子分析。

CorrelationMatrix

人口密度

人均耕地面积

森林覆盖率

农民人均纯收入

人均粮食产量

经济作物占农作物播面比例

耕地占土地面积比率

果园与林地面积之比

灌溉田占耕地面积之比

人口密度

1.000

-.327

-.714

-.336

.309

.408

.790

.156

.744

人均耕地面积

-.327

1.000

-.035

.644

.420

.255

.009

-.078

.094

森林覆盖率

-.714

-.035

1.000

.070

-.740

-.755

-.930

-.109

-.924

农民人均纯收入

-.336

.644

.070

1.000

.383

.069

-.046

-.031

.073

人均粮食产量

.309

.420

-.740

.383

1.000

.734

.672

.098

.747

经济作物占农作物播面比例

.408

.255

-.755

.069

.734

1.000

.658

.222

.707

耕地占土地面积比率

.790

.009

-.930

-.046

.672

.658

1.000

-.030

.890

果园与林地面积之比

.156

-.078

-.109

-.031

.098

.222

-.030

1.000

.290

灌溉田占耕地面积之比

.744

.094

-.924

.073

.747

.707

.890

.290

1.000

使用主成分分析法得到3个因子,因子矩阵(FactorMatrix)如下,变量与某一因子的联系系数绝对值越大,则该因子与变量关系越近。

如本例变量X3与第一因子的值为-0.964,与第二因子的值为0.00956,可见其与第一因子更近,与第二因子更远。

或者因子矩阵也可以作为因子贡献大小的度量,其绝对值越大,贡献也越大。

TotalVarianceExplained

Component

InitialEigenvalues

ExtractionSumsofSquaredLoadings

RotationSumsofSquaredLoadings

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

Total

%ofVariance

Cumulative%

1

4.661

51.790

51.790

4.661

51.790

51.790

4.605

51.172

51.172

2

2.089

23.217

75.007

2.089

23.217

75.007

2.100

23.329

74.500

3

1.043

11.589

86.596

1.043

11.589

86.596

1.089

12.095

86.596

4

.507

5.638

92.234

5

.315

3.502

95.736

6

.193

2.140

97.876

7

.114

1.271

99.147

8

4.533E-02

.504

99.650

9

3.147E-02

.350

100.000

ExtractionMethod:

PrincipalComponentAnalysis.

下面显示经正交旋转后的因子负荷矩阵(RotatedFactorMatrix)和因子转换矩阵(FactorTransformationMatrix)。

旋转的目的是使复杂的矩阵变得简洁,即第一因子替代了X1、X3、X7、X9作用,第二因子替代了X2、X4的作用,第三因子替代了X8的作用。

最后将第一因子的因子分用变量名fac1_1、第二因子的因子分用变量名fac2_1、第三因子的因子分用变量名fac3_1存入原始数据库中。

这些值既可用于模型诊断,又可用于进一步分析。

序号

fac1_1

fac2_1

fac3_1

1

2.44059

-2.5297

0.22488

2

1.83184

1.70832

0.2086

3

-0.60361

0.34

3.5704

4

0.92987

0.69627

0.23949

5

2.19416

1.71331

-0.31645

6

-0.86759

1.54692

-0.48955

7

-0.5842

-0.22985

-0.42651

8

-0.78014

1.30071

-0.25939

9

-0.49636

-0.32259

-0.32165

10

-0.40401

-0.28393

-0.34677

11

-0.18605

-1.03707

-0.39139

12

-0.86194

-0.08865

-0.50159

13

-0.65298

-0.29151

-0.44309

14

-0.44842

-0.61578

2.11487

15

-0.77951

0.25268

-0.37101

16

-0.5935

-0.28171

-0.50773

17

-0.27747

-0.24832

-0.36976

18

-0.0078

-0.82586

-0.45226

19

0.03339

-0.5882

-0.4911

20

-0.14661

-0.20895

-0.41245

21

0.26035

-0.0061

-0.25752

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1