主成分分析报告又称主分量分析报告主成分回归分析报告法.docx
《主成分分析报告又称主分量分析报告主成分回归分析报告法.docx》由会员分享,可在线阅读,更多相关《主成分分析报告又称主分量分析报告主成分回归分析报告法.docx(15页珍藏版)》请在冰豆网上搜索。
主成分分析报告又称主分量分析报告主成分回归分析报告法
主成分分析(principalcomponentsanalysis
什么是主成分分析法
PCA)又称:
主分量分析,主成分回归分析法
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principalcomponentsanalysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方
差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主
成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低
阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]
主成分分析的基本思想
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究
问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程
度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂
性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是
适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找岀影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。
上述想法可进一步概述为:
设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。
对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素
影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。
的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。
由于这些基本关系很可能与特
定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找岀一些
主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。
例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品
发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。
经过主成分分析计算,最后
确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可
信度,就容易进行科普效果的评估。
[编辑]
主成分分析法的基本原理
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量
转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交
方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
[编辑]
主成分分析的主要作用
概括起来说,主成分分析主要由以下几个方面的作用。
1•主成分分析能降低所研究的数据空间的维数。
即用研究m维的丫空间代替p维的X空
间(mvp),而低维的丫空间代替高维的x空间所损失的信息很少。
即:
使只有一个主成分丫1(即
m=1)时,这个丫仍是使用全部X变量(p个)得到的。
例如要计算YI的均值也得使用全部x的均值。
在所选的前m个主成分中,如果某个X的系数全部近似于零的话,就可以把这个Xi删除,
这也是一种删除多余变量的方法。
2•有时可通过因子负荷aj的结论,弄清X变量间的某些关系。
3•多维数据的一种图形表示方法。
我们知道当维数大于3时便不能画岀几何图形,多元统
计研究的问题大都多于3个变量。
要把研究的问题用图形表示岀来是不可能的。
然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画岀n个
样品在二维平面上的分布况,由图形可直观地看岀各样品在主分量中的地位,进而还可以对样本
进行分类处理,可以由图形发现远离大多数样本点的离群点。
4•由主成分分析法构造回归模型。
即把各主成分作为新自变量代替原来自变量x做回归分
析。
5•用主成分分析筛选回归变量。
回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。
用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。
主成分分析法的计算步骤
1、原始指标数据的标准化采集p维随机向量x=(Xi,X2,...,Xp)T)n个样品Xi=(Xii,Xi2,...,Xip)T
i=1,2,…,n
n>p,构造样本阵,对样本阵元进行如下标准化变换:
⑪=EJ知s2=匚4佝一用尸
其中■'',得标准化阵Z
2、对标准化阵Z求相关系数矩阵
3、解样本相关矩阵R的特征方程''''得p个特征根,确定主成分
H.>0*85
按^确定m值,使信息的利用率达85%以上,对每个人j=1,2,...,m,
b°
方程组Rb=jb得单位特征向量。
4、将标准化后的指标变量转换为主成分
Uij=bj,)=lt2,m
Ul称为第一主成分,U2称为第二主成分,…,Up称为第p主成分。
5、对m个主成分进行综合评价
对m个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。
主成分分析法的应用分析
[编辑]
案例一:
主成分分析法在啤酒风味评价分析中的应用⑴
啤酒是个多指标风味食品,为了全面了解啤酒的风味,啤酒企业开发了大量的检测方法用于分析啤酒的指标,但是面对大量的指标数据,大多数企业又感到茫然,不知道如何利用这些大量的数据,由上面的介绍可知,在这种情况下,主成分分析法能够派上用场。
近年来,科研人员为了
获得对啤酒风味更好的理解,多元统计技术的使用越来越多。
这主要有以下两方面的原因:
①在
啤酒领域里,几乎没有一个问题能够使用单变量(单指标)就能反映事物的属性,例如啤酒的好
坏、一致性,不能通过双乙酰一个指标说明问题;②另一个重要的原因就是,近年来大量数学统计
软件的不断岀现和个人电脑的普及促进了多元统计分析技术的应用。
多元统计技术在啤酒风味研
究中的一个重要任务就是找岀啤酒风格和啤酒理化指标(风味成分指标也属于理化指标)之间的
相关性。
例如可以用多元统计技术来找岀啤酒的风味指标和啤酒风味的关系或不同啤酒的风味差异性。
经常使用的多元统计技术有聚类分析、判别分析、主成分分析和回归分析等。
其中主成分分
析能够用于多指标产品,主成分分析可以按照事物的相似性区分产品,结果可用一维、二维或三
维平面坐标图标示,特别直观。
使用主成分分析法可以研究隐藏在不同变量背后的关系,而且根
据这些变量能够获得主成分的背景解释。
鉴于主成分分析在啤酒风味质量应用中的强大作用,本文简单介绍主成分分析的基本原理
及其在啤酒一致性监控中的应用,以引起我国啤酒同行的广泛关注。
[编辑]
1材料与方法
1.1仪器
HP6890毛细管气相色谱仪(美国安捷伦公司),FID检测器,HP7694E顶空自动进样器,
HP气相色谱化学工作站。
1.2分析方法
1.2.1样品制备
啤酒于5C冷藏,量取5mL酒液于20mL顶空瓶中,添加2.0g/L正丁醇溶液0.10mL,加密封垫及铝盖密封,振荡混匀以供顶空气相色谱测定。
1.2.2色谱条件
毛细管色谱柱(DB-WAXETR30m<0.53mmi.d,膜厚1.0卩m)柱温:
起始温度为35C,以
10°C/min程序升温至150°C,再以20°C/min升温到180°C,并继续恒温5min;进样口温度
150C;检测器温度200C;载气为高纯氮气,流速为5mL/min;氢气30mL/min;空气400mL/min;采用分流进样,分流比为1:
1。
S1啤酒旳三维坐标圏
[编辑]
2主成分分析法的基本原理
2.1主成分分析法在啤酒研究中应用的必要性这里通过一个例子说明,主成分分析在啤酒
研究中的必要性。
假如有6个啤酒样品,分别标为A-F,每个啤酒样品用3个指标来描述。
这些
指标可以是仪器的分析数据、感官分析数据或两者都用。
为了便于讨论,假设这3个指标分别为
苦味值(BU)、DMS和酒精浓度。
为了解这6个样品两两之间的相似性,便于将这6个样品进行分类,可以把这6个样品画在三维空间中,见图1。
显然在这个简单的例子中,这6个样品倾向于
形成两类,即分别是A-C和D-F。
通过所测的指标可以解释这种分类,例如,第一组(A-C)有
较高的苦味值和较低的酒精浓度。
这个例子中只涉及到6个样品和3个指标。
但是实际上,样
品数量和指标数量都会很大,例如,有20个指标,这时,样品不能在20维的坐标系中画岀。
为
了解决多指标的样品的比较问题,可以使用主成分分析法。
2.2主成分分析法的基本原理
主成分分析的第一步是将所有的指标数据进行标准化,标准化的一般方法为:
(Xj-Xjmean)/
d,这里Xj是样品j的第i个指标,xmean和d是第j个指标的平均值和标准偏差,通过标准化后,每个变量的平均值变成0,标准偏差为1。
标准化的好处是可以消除不同指标间的量纲差异和
数量级间的差异。
第二步求岀指标间的相关矩阵,通过相关矩阵,可以确定具有高度相关性的指标,这些指标
间的协方差可以通过另一个变量替代,这个变量叫作第一成分。
去掉第一成分后,计算残留相关
阵,通过残留相关阵,第二组高度相关的变量也可以发现,它们的协方差可以用第二成分替代,
第二成分和第一成分是正交的。
第二成分对原始数据的贡献去除后,可以提取第三成分。
此过程
一直继续,直到原始数据的所有方差都被提取后结束。
结果是原数据转化成了同样数量的新变量
但是,这些新变量之间是正交的。
因此,每个样品的原始变量的标准化数据就被转换成一系列成分的计算值。
每一个样品,原
始数据能够表达成新成分的线性组合值,例如一个有9个指标的数据集就可转换成:
M=LiIL12C2+■■■1厶黒
V2=I^iCi4£*2,2C2+■■■4G启
%=厶JjGIS2G2+■■■IL卿Cq
%,込厂…%是原始数据的标准化值。
孔I丄I卫…5.1j5卫---^4}川是原变
量与新成分之间的相关程度的指标,一般将其称为因子荷载。
通过计算机的主成分程序生成对方差的贡献率。
一般而言,原数据的总方差总是高度集中在
前几个成分中。
因此,在这个分析中,可以基于可以接受的最低方差贡献率,来选择几个数目较少的
主成分。
最终,可以用选择的几个主成分来重新计算所用的样品。
重新计算的值叫做主成分得分。
因为原始数据阵的方差通常集中在前几个主成分中(一般为2或3个),因此样品的一系列
标准化因子得分可以在二维的平面坐标中画岀,这样就能够根据样品的相似性来分类样品。
另外,
还可以根据因子荷载对这种分类做出某种解释。
[编辑]
3主成分分析法在啤酒质量一致性评价中的应用
3.1主成分分析法在不同品牌啤酒风味差异性评价中的应用
啤酒是含酒精的饮料酒,啤酒的风味是人们选择啤酒的主要影响因素。
显然啤酒不同于同浓
度的酒精水溶液,主要是因为啤酒除了含有酒精外还含有数以百计的微量成分,例如醛、醇及酯
类等。
对于啤酒生产企业来说,把自己的啤酒和竞争啤酒的风味进行比较非常重要,这样可以了
解自己的啤酒和竞品的差异,分析竞争啤酒受市场欢迎的原因,以改进自己的产品,或者找岀自
己啤酒的风格特点,走差异化竞争之路。
为了完成此工作,啤酒企业可以把自己的啤酒和竞争啤酒进行对比品评,这是一种非常好的方法,但是此方法很难从本质上找到与竞品的差异,很难形
成指导生产的定性定量措施。
为了解决此问题,啤酒企业可以对啤酒的风味成分进行分析,理论
上讲,分析的成分越多,获得的信息量越大,但是,很难从总体上进行对比分析,这时,可以通
过主成分分析法,提取主要的综合成分,然后在平面坐标系中画图进行比较
-2-1012
主成分1(47.5劲
图2我国市场上不同晶牌啤酒的主成分稱分图
图2是我国市场上主要啤酒的风味物质经主成分分析后的前两个主成分的平面坐标。
分析的风味成分有乙醛、乙酸乙酯、异丁酯、乙酸异戊酯、异戊醇及己酸乙酯。
分析的时间跨度为半年,这些数据通过主成分分析法后,提取前两个主成分,这两个主成分可以反映全部信息的83.1
%,提取较为完全,这说明这两个主成分替代原始的6个风味成分反映的样品信息。
百威啤酒、
喜力啤酒和青岛啤酒是我国啤酒市场上的3种知名品牌,同时这3种啤酒的质量也是得到人们的认可的。
从图2可看岀,尽管百威啤酒、喜力啤酒和青岛啤酒随着时间的变化每种啤酒的风味成分
的含量有所波动,但是,每种啤酒还是各自成一团,自成一类,三者的中心犹如一个三角形的3
个顶点,三者组成一个风味三角形。
从图2还可看岀,南方某品牌的啤酒有独自成型的特点,即
其不同于青岛啤酒、也不同喜力啤酒和百威啤酒的风格,实际上通过感官品尝也可以得到此结
论。
主成分分析法采用的分类是可以通过对主成分的分析做岀解释的,图3是前两个主成分的因
子荷载图。
-0.o
C
世&B
7HSS
-1.0-0.S0.00.5LO
主成分1(47.54)
图3不同晶牌啤酒的主成分的荷裁
从图3可以看岀,主成分1主要由乙酸乙酯、乙酸异戊酯和己酸乙酯决定,这些酯含量高:
主成分1就越大,即主成分1代表了啤酒的酯香,酯香越浓,主成分1就越大。
主成分2主要由乙醛、异丁醇和异戊醇决定,这些成分能够代表啤酒的酒劲”的大小,这些成分含量越高,主成分
2就越大,即啤酒的酒味就越重。
结合这种解释,就可以对图2中的分类做岀分析,其中百威啤
酒是酒味适中和酯香相对较浓的浓香型”啤酒,喜力啤酒是酒味和酯香均较浓的浓醇型”啤酒,
青岛啤酒是酒味较重,而酯香较弱的醇型”啤酒,而某品牌的啤酒则是酒味和酯香均弱的淡型”
啤酒。
3.2主成分分析法在同一品牌啤酒风味一致性评价中的应用
321主成分分析法在同一品牌不同生产厂之间一致性评价中的应用
近十几年来,我国啤酒行业发展非常快,啤酒企业的规模越来越大,很多啤酒企业已经走岀啤酒的原产地”到异地建厂,进一步扩大企业的规模。
对于一些啤酒企业来说,新建厂面对的消费
群体和建厂前面对的消费群体较为一致,这时就要求新建厂生产的啤酒要与原厂生产的啤酒风
格一致,以免生产厂在切换时,消费者不认可的情况发生。
图4是同一企业的3个不同生产厂
之间的同一品种啤酒的主成分分析图。
从图4可以看岀,总的来说,3个生产厂生产的啤酒还是比较一致的,因为3个厂生产的同
一品种的啤酒的波动范围较小。
从图4还可以看岀,生产厂1因为生产的历史长,生产较稳定,因此其波动较小(图中的圆圈);生产厂2和生产厂3的稳定性就稍差一点,这是由于这两个厂都是新厂,有个磨合的过程。
同时,生产厂2
g
•D
B
2」
0012
主成分I(45.1%)
图4同一企业不同生产厂之间同一話种啤酒的主成分分析图
和生产厂1的风味较为一致,生产厂3和生产厂1的一致性就稍差,其中生产厂3是最新的厂。
322主成分分析在同一生产厂啤酒一致性评价中的应用
同一生产厂生产的同一品种的啤酒,由于不同时间的水质、原辅料等的波动,最终体现在产
品风味的波动上。
同一主成分分析也可以评价产品随时间的一致性。
现以某一啤酒企业2006年
生产的某品种啤酒为例说明主成分分析在产品风味一致性评价中的应用。
要评价啤酒风味的一致
性,啤酒企业首先要测定啤酒的风味指标,目前通过顶空-毛细管技术能测定大约10种的风味物
质,分别为乙醛、DMS、甲酸乙酯、乙酸乙酯、乙酸异丁酯、正丙醇、异丁醇、乙酸异戊酯、异戊醇和己酸乙酯。
以前的一些统计技术例如统计过程控制(SPC)的控制图等只能说明某一指标的
波动情况,而不能从总体上反映产品的波动性,因为有些指标的波动,不会引起产品风格的波动
而主成分分析法,是从总体上说明产品的波动性,比控制图更能说明产品的波动性。
图5是某啤酒企业2006年一年生产的某品种的啤酒的10种风味指标的前两个主成分的
平面坐标图,这两个主成分可反映产品约60%的信息。
图5中的第一个小椭圆是95%的置信区,
即在这个椭圆外的点占5%,通过对该椭圆外的点进行跟进分析可以发现波动的原因,并在以后
的生产过程中加以避免,以提高产品的一致性。
■d■■*
43210
一4-3~2*10
1234
主成分1(33.2%)
5不同时间的同一品种啤酒的主成分得分图
[编辑]
4结论
4.1主成分分析法,可以消除各变量之间的共线性,减少变量的个数,利于后续的分析。
4.2使用主成分分析可以按照事物的相似性区分产品,结果可用一维、二维或三维平面坐标
图标示,特别直观。
4.3将样品的数据通过主成分分析进行浓缩,然后通过平面坐标可以实现从总体上对样品
进行一致性的分析,一般的统计技术只能对某一指标进行评价。
4.4静态顶空进样高效毛细管气相色谱分析啤酒香味组分技术结合,主成分分析技术可以
有效地应用于评价不同品牌啤酒风味的差异性、同一啤酒的风味一致性与均一性。