pca推导 主成分分析PCA含有详细推导过程以及案例分析matlab版.docx
《pca推导 主成分分析PCA含有详细推导过程以及案例分析matlab版.docx》由会员分享,可在线阅读,更多相关《pca推导 主成分分析PCA含有详细推导过程以及案例分析matlab版.docx(10页珍藏版)》请在冰豆网上搜索。
pca推导主成分分析PCA含有详细推导过程以及案例分析matlab版
pca推导主成分分析PCA(含有详细推导过程以及案例分析matlab版)
主成分分析法(PCA)
在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。
由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。
如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。
I.主成分分析法(PCA)模型
(一)主成分分析的基本思想
主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。
这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。
通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?
如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求
Cov(F1,F2)0,称F2为第二主成分,依此类推可以构造出第三、四„„第p个主成分。
(二)主成分分析的数学模型
对于一个样本资料,观测p个变量x1,x2,xp,n个样品的数据资料阵为:
x12
x22
xn2x1px2px1,x2,xpxnpx11x21Xxn1
x1jx2j,其中:
xjxnj
主成分分析就是将j1,2,pp个观测变量综合成为p个新的变量(综合变量),即
F1a11x1a12x2a1pxpFaxaxax22112222ppFpap1x1ap2x2appxp
简写为:
Fjj1x1j2x2jpxp
j1,2,,p
要求模型满足以下条件:
①Fi,Fj互不相关(ij,i,j1,2,,p)
②F1的方差大于F2的方差大于F3的方差,依次类推
③ak1ak2akp1222k1,2,p.
于是,称F1为第一主成分,F2为第二主成分,依此类推,有第p个主成分。
主成分又叫主分量。
这里aij我们称为主成分系数。
上述模型可用矩阵表示为:
FAX,其中
F1x1F2x2FXxFpp
a11a21Aap1a12a22ap2a1pa1a2pa2appap
A称为主成分系数矩阵。
(三)主成分分析的几何解释
假设有n个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。
设n个样品在二维空间中的分布大致为一个椭园,如下图所示:
图1主成分几何解释图
将坐标系进行正交旋转一个角度,使其椭圆长轴方向取坐标y1,在椭圆短轴方向取坐标y2,旋转公式为
y1jx1jcosx2jsinyx(sin)xcos1j2j2j
j1,2n
写成矩阵形式为:
Yy11
y21y12y22y1ny2n
x12
x22x1nUXx2n
1cossinsinx11cosx21其中U为坐标旋转变换矩阵,它是正交矩阵,即有UU,UUI,即满足
sin2cos21。
经过旋转变换后,得到下图的新坐标:
图2主成分几何解释图
新坐标y1y2有如下性质:
(1)n个点的坐标y1和y2的相关几乎为零。
(2)二维平面上的n个点的方差大部分都归结为y1轴上,而y2轴上的方差较小。
y1和y2称为原始变量x1和x2的综合变量。
由于n个点在y1轴上的方差最大,因而将二维空间的点用在y1轴上的一维综合变量来代替,所损失的信息量最小,由此称y1轴为第一主成分,y2轴与y1轴正交,有较小的方差,称它为第二主成分。
II.主成分分析法(PCA)推导
一、主成分的导出
根据主成分分析的数学模型的定义,要进行主成分分析,就需要根据原始数据,以及模型的三个条件的要求,如何求出主成分系数,以便得到主成分模型。
这就是导出主成分所要解决的问题。
1、根据主成分数学模型的条件①要求主成分之间互不相关,为此主成分之间的协差阵应该是一个对角阵。
即,对于主成分,
FAX
其协差阵应为,
Var(F)Var(AX)(AX)(AX)AXXA
1=2p
2、设原始数据的协方差阵为V,如果原始数据进行了标准化处理后则协方差阵等于相关矩阵,即有,
VRXX
3、再由主成分数学模型条件③和正交矩阵的性质,若能够满足条件③最好要求A为正交矩阵,即满足
AAI
于是,将原始数据的协方差代入主成分的协差阵公式得
Var(F)AXXAARA
ARA
展开上式得RAA
r11r21rp1
a11a12a1pr1pa11a21ap1r2pa12a22ap2rp2rppa1pa2pappa21ap11a22ap22a2papppr12r22
展开等式两边,根据矩阵相等的性质,这里只根据第一列得出的方程为:
r111a11r12a12r1pa1p0ra(r)ara02111221122p1prp1a11rp2a12(rpp1)a1p0
为了得到该齐次方程的解,要求其系数矩阵行列式为0,即
r111
r21
r1pr12rp2r1pr2p0r221rpp1
R1I0
显然,1是相关系数矩阵的特征值,a1a11,a12,a1p是相应的特征向量。
根据第二列、第三列等可以得到类似的方程,于是i是方程
RI0
的p个根,i为特征方程的特征根,aj是其特征向量的分量。
4、下面再证明主成分的方差是依次递减
设相关系数矩阵R的p个特征根为12p,相应的特征向量为aj
a11a21Aap1
相对于F1的方差为a12a22ap2a1pa1a2pa2appap
a1Ra11Var(F1)a1XXa1
同样有:
Var(Fi)i,即主成分的方差依次递减。
并且协方差为:
Cov(aiX,ajX)aiRaj
)ajai(aa
1p
aj)0,(aia)(a
1pij
综上所述,根据证明有,主成分分析中的主成分协方差应该是对角矩阵,其对角线上的元素恰好是原始数据相关矩阵的特征值,而主成分系数矩阵A的元素则是原始数据相关矩阵特征值相应的特征向量。
矩阵A是一个正交矩阵。
于是,变量x1,x2,xp经过变换后得到新的综合变量
F1a11x1a12x2a1pxpFaxaxax22112222ppFpap1x1ap2x2appxp
新的随机变量彼此不相关,且方差依次递减。
二、主成分分析的计算步骤
假设样本观测数据矩阵为:
x11x21Xxn1x12x22xn2x1px2pxnp
第一步:
对原始数据进行标准化处理。
x*
ijxijjvar(xj)(i1,2,,n;j1,2,,p)
1n
其中jxijni1
1n2(j1,2,,p)var(xj)(x)ijjn1i1
第二步:
计算样本相关系数矩阵。
r11r21Rrp1r12r22rp2r1pr2prpp
为方便,假定原始数据标准化后仍用X表示,则经标准化处理后的数据的相关系数为:
1n
rijxtixtjn1t1
(i,j1,2,,p)
第三步:
用雅克比方法求相关系数矩阵R的特征值(1,2p)和相应的特征向量aiai1,ai2,aip,i1,2p。
第四步:
选择重要的主成分,并写出主成分表达式。
主成分分析可以得到p个主成分,但是,由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取p个主成分,而是根据各个主成分累计贡献率的大小选取前k个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。
即
贡献率=i
i1pi
贡献率越大,说明该主成分所包含的原始变量的信息越强。
主成分个数k的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。
另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义解释。
主成分
分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。
一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。
主成分是原来变量的线性组合,在这个线性组合中个变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的实际意义,这要结合具体实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。
第五步:
计算主成分得分。
根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。
具体形式可如下。
F11F21Fn1F12F22Fn2F1kF2kFnk
第六步:
依据主成分得分的数据,则可以进行进一步的统计分析。
其中,常见的应用有主成份回归,变量子集合的选择,综合评价等。
III.主成分分析法(PCA)案例
为了系统的分析某IT类企业的经济效益,选择统计了8个不同的利润指标,15家企业关于这8个指标的统计数据如下所示,试对此进行主成分分析,并进行相关评价。
15家企业的利润指标的统计数据
变净产值固定资总产值销售收产品成物耗人均利流动量利润率产利润利润率入利润本利润利润润率资金企(%)率(%)(%)率(%)率(%)率(%)(千元利润业/人)率(%)Xi1Xi2Xi3Xi4Xi5Xi6序Xi7Xi8号
140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5
635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.61526.210.15.615.67.730.10.12625.9
解:
根据题目中的数据,利用matlab软件编程求解,对问题进行主成分分析。
求解结果如下:
1.标准化结果如下:
v=
1.00232.3473-0.3410-0.5714-0.3496-0.65740.90300.4483
-0.22860.30720.47740.38960.28350.43091.9108-0.6218
-1.1718-1.2909-1.0162-0.9244-0.8863-0.9603-0.8049-1.1617
-0.4444-0.7129-0.6684-1.0421-0.6661-0.7805-1.1732-0.7985
0.51480.1541-0.3615-0.3752-0.3909-0.63850.24701.1846
0.61870.27321.54141.50751.64601.29221.42981.0963
-0.4684-0.52590.21140.23270.24220.1849-0.5584-0.4745
1.64180.42620.41600.17390.0083-0.16530.28910.2323
1.01831.39522.23711.95862.59562.26700.90941.9995
-0.2446-0.49190.1910-0.02220.14590.0524-0.6115-0.1702
-1.2277-0.2029-0.9549-0.9440-0.8588-0.8656-0.5337-1.1323
-2.0830-1.7500-1.6710-1.6304-1.3818-1.3767-1.2831-1.4170
0.35490.51120.1091-0.1399-0.1431-0.22210.61340.1636
0.8505-0.30490.49790.09540.18720.0713-0.1186-0.3763
-0.1327-0.1349-0.66841.2918-0.43211.3679-1.21901.0276
2.相关系数矩阵:
std=
1.00000.76300.70170.58680.59590.48960.59730.7300
0.76301.00000.55040.46670.51580.41960.70460.6717
0.70170.55041.00000.84070.97600.81610.69410.6825
0.58680.46670.84071.00000.86670.98230.49260.7938
0.59590.51580.97600.86671.00000.86670.62600.7153
0.48960.41960.81610.98230.86671.00000.42160.7505
0.59730.70460.69410.49260.62600.42161.00000.4656
0.73000.67170.68250.79380.71530.75050.46561.0000
3.特征向量(vec)及特征值(val):
vec=
0.21820.1370-0.27810.22830.67270.31150.37880.3334-0.0745-0.1102-0.2276-0.5733-0.40460.18710.55620.3063-0.7186-0.05200.1186-0.22400.3874-0.3182-0.11480.39000.0386-0.6914-0.38080.2788-0.15470.0888-0.35080.37800.6385-0.06600.3451-0.41580.1518-0.2715-0.22540.3853-0.01230.6864-0.3738-0.0066-0.25540.0696-0.43370.36160.06750.10570.07160.5033-0.2816-0.61890.41470.3026-0.12860.04130.66920.2552-0.20550.5452-0.00310.3596
val=
0.0027000000000.0060000000000.1369000000000.1456000000000.2858000000000.5896000000001.0972000000005.7361
特征根从大到小排序:
5.73614
1.09723
0.589634
0.285791
0.14562
0.136883
0.00598681
0.00271084
4.根据累计贡献率,假设阈值为90%,选出主成分,计算如下:
贡献率:
newrate=
0.71700.13720.07370.03570.01820.01710.00070.0003
主成分数:
3
主成分载荷:
0.79850.39680.2392
0.73360.58260.1436
0.9340-0.1202-0.2443
0.9052-0.36740.0682
0.9228-0.2361-0.2085
0.8661-0.45430.0535
0.72460.4344-0.4752
0.8613-0.00320.4186
5.计算得分,倒数第二列表示的是各企业的得分情况,最后一列表示的是各企业的排序顺序:
score=
1.83502.78820.41755.04083.0000
2.32540.4571-1.30511.47747.0000
-6.9020-0.4556-0.2508-7.608514.0000
-5.2739-0.12370.2040-5.193712.0000
0.13240.96120.63391.72755.0000
8.1171-0.6926-0.58126.84322.0000
-0.7813-0.9854-0.1972-1.964011.0000
2.44360.98380.31343.74094.0000
12.4388-1.02580.015911.42891.0000
-0.8076-0.72180.0144-1.515010.0000
-5.77970.2241-0.2415-5.797113.0000
-10.6013-0.6473-0.2214-11.470015.0000
0.89470.8776-0.08301.68936.0000
0.8313-0.0620-0.09190.67749.0000
1.1278-1.57791.37310.92308.0000
可以看出,第9家企业的综合效益最好,第12家企业的综合效益最差。
XX搜索“就爱阅读”,专业资料,生活学习,尽在就爱阅读网92to,您的在线图书馆