SAS学习系列33主成分分析报告.docx

上传人:b****8 文档编号:9603300 上传时间:2023-02-05 格式:DOCX 页数:14 大小:168.84KB
下载 相关 举报
SAS学习系列33主成分分析报告.docx_第1页
第1页 / 共14页
SAS学习系列33主成分分析报告.docx_第2页
第2页 / 共14页
SAS学习系列33主成分分析报告.docx_第3页
第3页 / 共14页
SAS学习系列33主成分分析报告.docx_第4页
第4页 / 共14页
SAS学习系列33主成分分析报告.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

SAS学习系列33主成分分析报告.docx

《SAS学习系列33主成分分析报告.docx》由会员分享,可在线阅读,更多相关《SAS学习系列33主成分分析报告.docx(14页珍藏版)》请在冰豆网上搜索。

SAS学习系列33主成分分析报告.docx

SAS学习系列33主成分分析报告

33.主成分分析

(一)原理

一、基本思想

主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。

其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。

在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。

如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2,称为第二主成分。

为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0.依此类推可以构造出第三、第四、…、第p个主成分。

主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。

二、基本原理

设有n个样品(多元观测值),每个样品观测p项指标(变量):

X1,…,Xp,得到原始数据资料阵:

其中,Xi=(x1i,x2i,…,xni)T,i=1,…,p.

用数据矩阵X的p个列向量(即p个指标向量)X1,…,Xp作线性组合,得到综合指标向量:

简写成:

Fi=a1iX1+a2iX2+…+apiXpi=1,…,p

限制系数ai=(a1i,a2i,…,api)T为单位向量,即

且由下列原则决定:

(1)Fi与Fj互不相关,即COV(Fi,Fj)=aiT∑ai=0,其中∑为X的协方差矩阵;

(2)F1是X1,X2,…,Xp的所有满足上述要求的线性组合中方差最大的,即

F2是与F1不相关的X1,…,Xp所有线性组合中方差最大的,…,Fp是与F1,…,Fp-1都不相关的X1,…,Xp所有线性组合中方差最大的。

满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数

ai=(a1i,a2i,…,api)T

就是特征值λi所对应的单位特征向量。

方差的贡献率为

αi越大,说明相应的主成分反映综合信息的能力越强。

注:

主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。

新坐标第一轴与数据变化最大方向对应。

F1,F2,…,Fp可以理解为p维空间中互相垂直的p个坐标轴。

三、基本步骤

1.计算样品数据协方差矩阵Σ=(sij)pp,其中

2.求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0,及相应的正交化单位特征向量:

则X的第i个主成分为Fi=aiTX,i=1,…,p.

3.选择主成分

在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。

一般用方差贡献率

解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率

达到足够大(一般在85%以上)为原则。

4.计算n个样品在m个主成分得分

5.数据的标准化

实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。

消除数据的量纲有很多方法,常用方法是将原始数据标准化

其中,

即把每列变为均值为0,方差为1.

注:

标准化后变量的协方差矩阵Σ=(sij)pp,与原变量的相关系数矩阵R=(rij)pp相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。

(二)PROCPRINCOMP过程步

基本语法:

PROCPRINCOMPdata=数据集<可选项>;

VAR变量变量;

说明:

(1)可选项

type=COV/CORR

原始数据用CORR(相关系数矩阵,默认);标准化数据用COV(协方差矩阵);

out=数据集——存储原始数据和各主成分得分(相应特征值);

outstat=数据集——存储若干统计量;

n=——设定主成分个数;

std——OUT=数据集中,将主成分得分标准化为单位方差;

noint——要求模型中不含截距。

(2)VAR语句——指定做主成分分析的变量;

(3)PARTIAL语句——指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的数值变量名。

例1对全国30个省市自治区经济发展基本情况的八项指标作因子分析。

省份

GDP

x1

居民消费水平x2

固定资产投资x3

职工平均工资x4

货物周转量

x5

居民消费价格指数

x6

商品零售价格指数x7

工业总产值

x8

北京

1394.89

2505

519.01

8144

373.9

117.3

112.6

843.43

天津

920.11

2720

345.46

6501

342.8

115.2

110.6

582.51

河北

2849.52

1258

704.87

4839

2033.3

115.2

115.8

1234.85

山西

1092.48

1250

290.9

4721

717.3

116.9

115.6

697.25

内蒙古

832.88

1387

250.23

4134

781.7

117.5

116.8

419.39

辽宁

2793.37

2397

387.99

4911

1371.1

116.1

114

1840.55

吉林

1129.2

1872

320.45

4430

497.4

115.2

114.2

762.47

黑龙江

2014.53

2334

435.73

4145

824.8

116.1

114.3

1240.37

上海

2462.57

5343

996.48

9279

207.4

118.7

113

1642.95

江苏

5155.25

1926

1434.95

5943

1025.5

115.8

114.3

2026.64

浙江

3524.79

2249

1006.39

6619

754.4

116.6

113.5

916.59

安徽

2003.58

1254

474

4609

908.3

114.8

112.7

824.14

福建

2160.52

2320

553.97

5857

609.3

115.2

114.4

433.67

江西

1205.11

1182

282.84

4211

411.7

116.9

115.9

571.84

山东

5002.34

1527

1229.55

5145

1196.6

117.6

114.2

2207.69

河南

3002.74

1034

670.35

4344

1574.4

116.5

114.9

1367.92

湖北

2391.42

1527

571.68

4685

849

120

116.6

1220.72

湖南

2195.7

1408

422.61

4797

1011.8

119

115.5

843.83

广东

5381.72

2699

1639.83

8250

656.5

114

111.6

1396.35

广西

1606.15

1314

382.59

5105

556

118.4

116.4

554.97

海南

364.17

1814

198.35

5340

232.1

113.5

111.3

64.33

四川

3534

1261

822.54

4645

902.3

118.5

117

1431.81

贵州

630.07

942

150.84

4475

301.1

121.4

117.2

324.72

云南

1206.68

1261

334

5149

310.4

121.3

118.1

716.65

西藏

55.98

1110

17.87

7382

4.2

117.3

114.9

5.57

陕西

1000.03

1208

300.27

4396

500.9

119

117

600.98

甘肃

553.35

1007

114.81

5493

507

119.8

116.5

468.79

青海

165.31

1445

47.76

5753

61.6

118

116.3

105.8

宁夏

169.75

1355

61.98

5079

121.8

117.1

115.3

114.4

新疆

834.57

1469

376.95

5348

339

119.7

116.7

428.76

代码:

dataEconomics;

infile'C:

\MyRawData\Economics.txt';

inputProvince$x1x2x3x4x5x6x7x8;

run;

procprincompdata=Economicsn=3out=Resustsplots=score(ellipsencomp=2);

idProvince;

varx1-x8;

run;

procprintdata=Resusts;

run;

运行结果及说明:

PRINCOMP过程

观测

30

变量

8

简单统计量

 

x1

x2

x3

x4

x5

x6

x7

x8

均值

1921.092667

1745.933333

511.5083333

5457.633333

666.1200000

117.2866667

114.9066667

862.9980000

StD

1474.806031

861.641934

402.8854765

1310.218052

459.9352604

2.0253111

1.8980813

584.5872585

相关矩阵

 

x1

x2

x3

x4

x5

x6

x7

x8

x1

1.0000

0.2668

0.9506

0.1906

0.6172

-.2726

-.2636

0.8737

x2

0.2668

1.0000

0.4261

0.7181

-.1510

-.2351

-.5927

0.3631

x3

0.9506

0.4261

1.0000

0.3996

0.4306

-.2805

-.3591

0.7919

x4

0.1906

0.7181

0.3996

1.0000

-.3556

-.1350

-.5392

0.1044

x5

0.6172

-.1510

0.4306

-.3556

1.0000

-.2532

0.0217

0.6586

x6

-.2726

-.2351

-.2805

-.1350

-.2532

1.0000

0.7628

-.1252

x7

-.2636

-.5927

-.3591

-.5392

0.0217

0.7628

1.0000

-.1921

x8

0.8737

0.3631

0.7919

0.1044

0.6586

-.1252

-.1921

1.0000

相关系数矩阵可以看出,相关性较强的变量依次是

x1(GDP)与x3(固定资产投资),r13=0.9506

x1(GDP)与x8(工业总产值),r18=0.8737

x3(固定资产投资)与x8(工业总产值),r38=0.7919

x6(居民消费价格指数)与x7(商品零售价格指数),r67=0.7628

相关矩阵的特征值

 

特征值

差值

比例

累积

1

3.75512808

1.55839208

0.4694

0.4694

2

2.19673600

0.98184422

0.2746

0.7440

3

1.21489177

 

0.1519

0.8958

给出相关系数矩阵的特征值、上下特征值之差、各主成分对方差的贡献率以及累积的贡献率。

相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分对方差的贡献率为46.94%,第二主成分对方差的贡献率为27.46%,第三主成分对方差的贡献率为15.19%。

前三个主成分的累积贡献率为89.58%>85%,因此,用前三个主成分就可以很好地概括这组数据。

特征向量

 

Prin1

Prin2

Prin3

x1

0.456650

0.258828

0.109669

x2

0.313091

-.403601

0.246160

x3

0.470475

0.108706

0.192322

x4

0.240591

-.487408

0.333810

x5

0.250709

0.498125

-.249714

x6

-.262440

0.169963

0.722755

x7

-.319734

0.401028

0.396976

x8

0.424564

0.287908

0.191413

给出三个特征值(主成分)的特征向量,由此可以得到三个主成分的用原变量的线性组合表示(*表示列向量的标准化):

Prin1=0.46x1*+0.31x2*+0.47x3*+0.24x4*+0.25x5*–0.26x6*–0.32x7*+0.42x8*

Prin2=0.26x1*–0.40x2*+0.11x3*–0.49x4*+0.50x5*+0.17x6*+0.40x7*+0.29x8*

Prin3=0.11x1*+0.25x2*+0.19x3*+0.33x4*–0.25x5*+0.72x6*+0.40x7*+0.19x8*

可见,第一主成分中x3、x1、x8的系数最大;第二主成分中x5、x7具有较大的正系数,x4、x2则具有较大的负系数;第三主成分中x6的系数最大,远远超过其他指标的影响。

因此,可以把第一主成分看成是由固定资产投资(x3)、GDP(x1)、工业总产值(x8)所刻画的反映经济发展水平的综合指标;把第二主成分看成是由货物周转量(x5)、职工平均工资(x4)、居民消费水平(x2)、商品零售价格指数(x7)所刻画的与人民生活水平有关的综合指标;把第三主成分单独看成是居民消费价格指数(x6)的影响指标。

Obs

Province

x1

x2

x3

x4

x5

x6

x7

x8

Prin1

Prin2

Prin3

1

北京

1394.89

2505

519.01

8144

373.9

117.3

112.6

843.43

0.82827

-2.25758

0.54030

2

天津

920.11

2720

345.46

6501

342.8

115.2

110.6

582.51

0.65759

-2.63821

-1.17127

3

河北

2849.52

1258

704.87

4839

2033.3

115.2

115.8

1234.85

1.35759

2.35127

-1.31401

4

山西

1092.48

1250

290.90

4721

717.3

116.9

115.6

697.25

-0.98882

0.38922

-0.57132

5

内蒙古

832.88

1387

250.23

4134

781.7

117.5

116.8

419.39

-1.62129

0.72368

-0.38131

6

辽宁

2793.37

2397

387.99

4911

1371.1

116.1

114.0

1840.55

1.66278

0.97196

-0.62314

7

吉林

1129.20

1872

320.45

4430

497.4

115.2

114.2

762.47

-0.38675

-0.42395

-1.20965

8

黑龙江

2014.53

2334

435.73

4145

824.8

116.1

114.3

1240.37

0.52962

0.33875

-0.70859

9

上海

2462.57

5343

996.48

9279

207.4

118.7

113.0

1642.95

3.19719

-3.27750

2.88302

10

江苏

5155.25

1926

1434.95

5943

1025.5

115.8

114.3

2026.64

3.57017

1.26123

0.38489

11

浙江

3524.79

2249

1006.39

6619

754.4

116.6

113.5

916.59

1.88349

-0.48552

0.22547

12

安徽

2003.58

1254

474.00

4609

908.3

114.8

112.7

824.14

0.44489

0.11872

-1.86164

13

福建

2160.52

2320

553.97

5857

609.3

115.2

114.4

433.67

0.41861

-0.91913

-0.65652

14

江西

1205.11

1182

282.84

4211

411.7

116.9

115.9

571.84

-1.38992

0.29904

-0.52855

15

山东

5002.34

1527

1229.55

5145

1196.6

117.6

114.2

2207.69

2.99980

2.06713

0.54600

16

河南

3002.74

1034

670.35

4344

1574.4

116.5

114.9

1367.92

1.02208

2.14539

-0.94079

17

湖北

2391.42

1527

571.68

4685

849.0

120.0

116.6

1220.72

-0.28288

1.44846

1.14458

18

湖南

2195.70

1408

422.61

4797

1011.8

119.0

115.5

843.83

-0.41034

1.06234

0.25469

19

广东

5381.72

2699

1639.83

8250

656.5

114.0

111.6

1396.35

4.61321

-1.29561

0.09506

20

广西

1606.15

1314

382.59

5105

556.0

118.4

116.4

554.97

-1.14932

0.38142

0.37036

21

海南

364.17

1814

198.35

5340

232.1

113.5

111.3

64.33

-0.56304

-2.28905

-2.40729

22

四川

3534.00

1261

822.54

4645

902.3

118.5

117.0

1431.81

0.56919

1.97647

0.85166

23

贵州

630.07

942

150.84

4475

301.1

121.4

117.2

324.72

-2.80270

0.58752

1.22127

24

云南

1206.68

1261

334.00

5149

310.4

121.3

118.1

716.65

-2.01953

0.72284

1.89026

25

西藏

55.98

1110

17.87

7382

4.2

117.3

114.9

5.57

-2.01580

-2.01797

0.01626

26

陕西

1000.03

1208

300.27

4396

500.9

119.0

117.0

600.98

-1.77727

0.70634

0.45966

27

甘肃

553.35

1007

114.81

5493

507.0

119.8

116.5

468.79

-2.11587

0.16697

0.69430

28

青海

165.31

1445

47.76

5753

61.6

118.0

116.3

105.80

-2.34690

-1.07557

0.26359

29

宁夏

169.75

1355

61.98

5079

121.8

117.1

115.3

114.40

-2.16125

-0.99544

-0.48691

30

新疆

834.57

1469

376.95

5348

339.0

119.7

116.7

428.76

-1.72281

-0.04321

1.01964

输出原始数据及各主成分的得分。

绘图语句plots=score(ellipsencomp=2),“2”要求绘制第二主成分与第一主成分的散点图,ellipse绘制95%置信椭圆。

广东、江苏、上海、山东的第一主成分得分较高,说明这些省市经济发展水平较高,其次是浙江、辽宁、河北、河南、北京、天津等。

由于在第二主成分中职工平均工资与居民消费水平具有负的载荷量,因此处于右半图中的河北、河南、山东等地的职工平均工资与居民消费水平较低,商品零售价格指数较高;而左半图中上海、天津、海南、北京等地的职工平均工资与居民消费水平较高,商品零售价格指数较低。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1