主成分分析在数学建模中的应用文档格式.docx
《主成分分析在数学建模中的应用文档格式.docx》由会员分享,可在线阅读,更多相关《主成分分析在数学建模中的应用文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
又称
的累计贡献率。
记
,其中
为
的特征值,
是相应的单位正交特征向量,记正交矩阵
主成分
则总体主成分有如下的性质:
性质1.
,即P个主成分的方差为:
,且它们是互不相关的。
性质2.
,通常称
为原总体X的总方差(或称总惯量)。
性质3.主成分
与原始变量
的相关系数
并把主成分
的相关系数称为因子负荷量。
性质4.
。
性质5.
若记
,即令
这时标准化后的随机向量
的协方差阵
就是原随机向量X的相关阵R。
从相关阵R出发求主成分,记主成分向量为
,则
有与总体主成分相应的性质:
为相关矩阵R的特征值。
.
与标准化变量
其中
是R对应于
的单位正交特征向量。
2.样本的主成分
定义1.设变量
的n次观测数据阵X已标准化,这时样本的协方差阵就是样本相关阵R,且
R的特征值为
,其相应标准化特征向量为
,样本主成分为
类似总体主成分,样本主成分也具有如下的性质:
(因为
=0),而
上式说明当
时,第i个主成分得分向量
与第j个主成分得分向量
是相互正交的。
称
为样本主成分
性质3.样本主成分具有是残差平方和最小的优良性。
3.3基本步骤
⑴数据标准化
其中,
为第
列的方差;
⑵计算协方差矩阵
;
⑶计算协方差矩阵的特征值与特征向量;
利用特征方程
求出按大小排列特征值
以及相应的特征向量
⑷选择前几个特征向量,确定主成分;
3.4基本命令
使用procprincomp过程进行主成分分析,其主要语句格式如下:
Procprincomp<
选项列表>
Var变量列表;
Run;
其中:
(1)Procprincomp语句用来规定输入、输出和一些运行选项,其选项及功能如下:
①data=数据集名1:
指明所要分析的数据集,若省略则表示分析最新生成的数据集。
②out=数据集名2:
命名一个输出SAS数据集,其中包含原始数据以及各主成分得分(即各主成分的观测值)。
③outstat=数据集名3:
命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的SAS数据集。
④covariance(cov):
要求从协方差矩阵出发作主成分分析,若省略此选项,则从相关矩阵出发进行分析;
除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。
⑤N=n:
指定要计算的主成分的个数,其默认值为参与分析的变量的个数。
⑥prefix=name:
规定各主成分名称的前缀。
省略此句则SAS系统自动赋予各主成分名称分别为prin1,prin2,……;
若“name=A”,则各主成分名称分别为A1,A2,……,前缀的字符个数加上后面数字位数应不超过8个字符。
(2)VARvariables;
此句中的“variables”部分列出数据集中参与主成分分析的变量名称。
若省略此句,则被分析数据集中所有数值变量均参与分析。
4.举例
【例1】(中学生身体四项指标的主成分分析)在某中学随机抽取某年级30名学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),(数据见教材P277的表7.4)。
试对这30名学生体四项指标数据做主成分分析。
datad721;
inputnumberx1-x4@@;
cards;
11484172782139347176
31604977864149366779
51594580866142316676
71534376838150437779
915142778010139316874
1114029647412161477884
1315849788314140336777
1513731667316152357379
1714947827918145357077
1916047748720156447885
2115142738222147387378
2315739688024147306575
2515748808826151367480
2714436687628141306776
2913932687330148387078
;
procprincompdata=d721prefix=zout=o721;
varx1-x4;
run;
optionsps=32ls=85;
procplotdata=o721;
plotz2*z1$number='
*'
/href=-1href=2vref=0;
procsortdata=o721;
byz1;
procprintdata=o721;
varnumberz1z2x1-x4;
quit;
由PRINCOMP过程由相关阵出发进行主成分分析。
由下面的相关阵来看,指标之间存在着严重的共线关系,就要用主成分的方法进行降维(也就是说用较少的指标就能很好衡量学生的身体基本情况。
从相关阵的特征直来看,第一主成分的贡献率已高达88.53%,且前两个主成分的累计贡献率已高达96.36%,因此只需用两个主成分就能很好地概括这组数据。
另由第四个特征值近似为0,可以看出这4个标准化后的身体指标变量有近似的共线性。
由最大的两个特征值对应的特征向量可以写出第一和第二主成分:
利用特征向量的值对各个主成分进行分析。
第一主成分特征值对应的第一个特征向量的各个分量均在0.5附近,而且都是正值,它反映学生的魁梧程度。
身体高大的学生,他的4个部位的尺度都比较大;
而身体矮小的学生,他的4个部位的尺寸都比较小。
因此我们可以称第一主成分为大小因子。
第二大特征值对应的特征向量中第一和第四个分量均为负值,其它的都为正值,它反映学生的胖瘦情况,可称为形态因子。
从第二主成分得分对第一主成分得分的散布图看,很直观地看出,按学生的身体指标尺寸,这30名学生大约分三组(以第一主成分得分值为-1和2为分界点)。
每一组包括哪几名学生可由每一给散点旁边的序号可以得知。
5.训练题
5.1用主成分分析方法探讨城市工业主体结构。
表1是某市工业部门13个行业8项指标的数据。
表1某市工业部门13个行业8项指标的数据
年末固定资产净值
(万元)
职工人数
(人)
工业总产值
全员劳动产率
(元/人年)
百元固定原资产值实现产值
(元)
资金利税率
(%)
标准燃料消费量
(吨)
能源利用效果
(万元/吨)
1(冶金)
90342
52455
101091
19272
82.000
16.100
197435
0.172
2(电力)
4903
1973
2035
10313
34.200
7.100
592077
0.003
3(煤炭)
6735
21139
3767
1780
36.100
8.200
726396
4(化学)
49454
36241
81557
22504
98.100
25.900
348226
0.985
5(机械)
139190
203505
215898
10609
93.200
12.600
139572
0.628
6(建材)
12215
16219
10351
6382
62.500
8.700
145818
0.066
7(森工)
2372
6572
8103
12329
184.400
22.200
20921
0.152
8(食品)
11062
23078
54935
23804
370.400
41.000
65486
0.263
9(纺织)
17111
23907
52108
21796
221.500
21.500
63806
0.276
10(缝纫)
1206
3930
6126
15586
330.400
29.500
1840
0.437
11(皮革)
2150
5704
6200
10870
184.200
12.000
8913
0.274
12(造纸)
5251
6155
10383
16875
146.400
27.500
78796
0.151
13(文教艺术用品)
14341
13203
19396
14691
94.600
17.800
6354
1.574
(1)试用主成分分析方法确定8项指标的样本主成分(综合变量);
若要求损失信息不超过15%,应取几个主成分;
并对这几个主成分进行解释;
(2)利用主成分得分对13个行业进行排序和分类。
5.2某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润指标,14家企业关于这8个指标的统计数据如表3所示。
试进行主成分分析,并对所选取的主成分作出解释。
表214家企业的利润指标的统计数据
变量企业号
净产值利润率
固定资产利润率
总产值利润率
销售收入利润率
产品成本利润率
物耗利润率
人均利润率
流动资金利润率
1
40.4
24.7
7.2
6.1
8.3
8.7
2.442
20.0
2
25.0
12.7
11.2
11.0
12.9
20.2
3.542
9.1
3
13.2
3.3
3.9
4.3
4.4
5.5
0.578
3.6
4
22.3
6.7
5.