SAS学习系列33主成分分析报告.docx

资源描述

SAS学习系列33主成分分析报告.docx

《SAS学习系列33主成分分析报告.docx》由会员分享，可在线阅读，更多相关《SAS学习系列33主成分分析报告.docx（14页珍藏版）》请在冰豆网上搜索。

SAS学习系列33主成分分析报告.docx

SAS学习系列33主成分分析报告

33.主成分分析

（一）原理

一、基本思想

主成份分析，是数学上对数据降维的一种方法，是将多个变量转化为少数综合变量（集中了原始变量的大部分信息）的一种多元统计方法。

其主要目的是将变量减少，并使其改变为少数几个相互独立的线性组合形成的新变量（主成份，其方差最大），使得原始资料在这些成份上显示最大的个别差异来。

在所有的线性组合中所选取的F1应该是方差最大的，称为第一主成分。

如果第一主成分不足以代表原来所有指标的信息，再考虑选取第二个线性组合F2,称为第二主成分。

为了有效地反映原有信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov（F1，F2）＝0.依此类推可以构造出第三、第四、…、第p个主成分。

主成份分析，可以用来综合变量之间的关系，也可用来减少回归分析或聚类分析中的变量数目。

二、基本原理

设有n个样品（多元观测值），每个样品观测p项指标（变量）：

X1，…，Xp，得到原始数据资料阵：

其中，Xi=（x1i，x2i，…，xni）T，i=1,…,p.

用数据矩阵X的p个列向量（即p个指标向量）X1，…，Xp作线性组合，得到综合指标向量：

简写成：

Fi=a1iX1+a2iX2+…+apiXpi=1,…,p

限制系数ai=（a1i，a2i，…，api）T为单位向量，即

且由下列原则决定：

（1）Fi与Fj互不相关，即COV（Fi,Fj）=aiT∑ai=0，其中∑为X的协方差矩阵；

（2）F1是X1，X2，…，Xp的所有满足上述要求的线性组合中方差最大的，即

F2是与F1不相关的X1，…，Xp所有线性组合中方差最大的，…，Fp是与F1，…，Fp-1都不相关的X1，…，Xp所有线性组合中方差最大的。

满足上述要求的综合指标向量F1，F2，…，Fp就是主成分，这p个主成分从原始指标所提供的信息总量中所提取的信息量依次递减，每一个主成分所提取的信息量用方差来度量，主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi，每一个主成分的组合系数

ai=（a1i，a2i，…，api）T

就是特征值λi所对应的单位特征向量。

方差的贡献率为

αi越大，说明相应的主成分反映综合信息的能力越强。

注：

主成分分析是将原始变量组成的坐标系进行平移变换，使得新的坐标原点和数据群点的重心重合。

新坐标第一轴与数据变化最大方向对应。

F1，F2，…，Fp可以理解为p维空间中互相垂直的p个坐标轴。

三、基本步骤

1.计算样品数据协方差矩阵Σ=（sij）pp，其中

2.求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0,及相应的正交化单位特征向量：

则X的第i个主成分为Fi=aiTX，i=1,…,p.

3.选择主成分

在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。

一般用方差贡献率

解释主成分Fi所反映的信息量的大小，m的确定是用累计贡献率

达到足够大（一般在85%以上）为原则。

4.计算n个样品在m个主成分得分

5.数据的标准化

实际应用时，指标的量纲往往不同，所以在主成分计算之前应先消除量纲的影响。

消除数据的量纲有很多方法，常用方法是将原始数据标准化

其中，

即把每列变为均值为0，方差为1.

注：

标准化后变量的协方差矩阵Σ=（sij）pp，与原变量的相关系数矩阵R=（rij）pp相同，故主成分分析可以从原始变量数据的相关系数矩阵，也可以从标准化数据的协方差矩阵出发做分析。

（二）PROCPRINCOMP过程步

基本语法：

PROCPRINCOMPdata=数据集<可选项>;

VAR变量变量;

说明：

（1）可选项

type=COV/CORR

原始数据用CORR（相关系数矩阵，默认）；标准化数据用COV（协方差矩阵）；

out＝数据集——存储原始数据和各主成分得分（相应特征值）；

outstat＝数据集——存储若干统计量；

n=——设定主成分个数；

std——OUT=数据集中，将主成分得分标准化为单位方差；

noint——要求模型中不含截距。

（2）VAR语句——指定做主成分分析的变量；

（3）PARTIAL语句——指明对偏相关阵或偏协方差矩阵进行分析时，被偏出去的数值变量名。

例1对全国30个省市自治区经济发展基本情况的八项指标作因子分析。

省份

GDP

居民消费水平x2

固定资产投资x3

职工平均工资x4

货物周转量

居民消费价格指数

商品零售价格指数x7

工业总产值

北京

1394.89

2505

519.01

8144

373.9

117.3

112.6

843.43

天津

920.11

2720

345.46

6501

342.8

115.2

110.6

582.51

河北

2849.52

1258

704.87

4839

2033.3

115.2

115.8

1234.85

山西

1092.48

1250

290.9

4721

717.3

116.9

115.6

697.25

内蒙古

832.88

1387

250.23

4134

781.7

117.5

116.8

419.39

辽宁

2793.37

2397

387.99

4911

1371.1

116.1

114

1840.55

吉林

1129.2

1872

320.45

4430

497.4

115.2

114.2

762.47

黑龙江

2014.53

2334

435.73

4145

824.8

116.1

114.3

1240.37

上海

2462.57

5343

996.48

9279

207.4

118.7

113

1642.95

江苏

5155.25

1926

1434.95

5943

1025.5

115.8

114.3

2026.64

浙江

3524.79

2249

1006.39

6619

754.4

116.6

113.5

916.59

安徽

2003.58

1254

474

4609

908.3

114.8

112.7

824.14

福建

2160.52

2320

553.97

5857

609.3

115.2

114.4

433.67

江西

1205.11

1182

282.84

4211

411.7

116.9

115.9

571.84

山东

5002.34

1527

1229.55

5145

1196.6

117.6

114.2

2207.69

河南

3002.74

1034

670.35

4344

1574.4

116.5

114.9

1367.92

湖北

2391.42

1527

571.68

4685

849

120

116.6

1220.72

湖南

2195.7

1408

422.61

4797

1011.8

119

115.5

843.83

广东

5381.72

2699

1639.83

8250

656.5

114

111.6

1396.35

广西

1606.15

1314

382.59

5105

556

118.4

116.4

554.97

海南

364.17

1814

198.35

5340

232.1

113.5

111.3

64.33

四川

3534

1261

822.54

4645

902.3

118.5

117

1431.81

贵州

630.07

942

150.84

4475

301.1

121.4

117.2

324.72

云南

1206.68

1261

334

5149

310.4

121.3

118.1

716.65

西藏

55.98

1110

17.87

7382

4.2

117.3

114.9

5.57

陕西

1000.03

1208

300.27

4396

500.9

119

117

600.98

甘肃

553.35

1007

114.81

5493

507

119.8

116.5

468.79

青海

165.31

1445

47.76

5753

61.6

118

116.3

105.8

宁夏

169.75

1355

61.98

5079

121.8

117.1

115.3

114.4

新疆

834.57

1469

376.95

5348

339

119.7

116.7

428.76

代码：

dataEconomics;

infile'C:

\MyRawData\Economics.txt';

inputProvince$x1x2x3x4x5x6x7x8;

run;

procprincompdata=Economicsn=3out=Resustsplots=score（ellipsencomp=2）;

idProvince;

varx1-x8;

run;

procprintdata=Resusts;

run;

运行结果及说明：

PRINCOMP过程

观测

变量

简单统计量

均值

1921.092667

1745.933333

511.5083333

5457.633333

666.1200000

117.2866667

114.9066667

862.9980000

StD

1474.806031

861.641934

402.8854765

1310.218052

459.9352604

2.0253111

1.8980813

584.5872585