中红外和近红外光谱数据应用于通过移动窗口偏最小二乘回归在多组分光谱分析作波长间隔选择MWPLSRWord文档下载推荐.docx
《中红外和近红外光谱数据应用于通过移动窗口偏最小二乘回归在多组分光谱分析作波长间隔选择MWPLSRWord文档下载推荐.docx》由会员分享,可在线阅读,更多相关《中红外和近红外光谱数据应用于通过移动窗口偏最小二乘回归在多组分光谱分析作波长间隔选择MWPLSRWord文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
从波长选择中获得的好处是模型不仅是共线性多变量光谱的稳定性,而且对模型和样品的组合物之间的关系的解释性。
在多组分光谱的分析的波长选择方面已经提出了一些过程。
这些过程在客观标准上可以彼此区分开来,用于测量波长子集的最优或搜索算法来寻找最优子集。
典型的客观标准包括光谱信号噪声比,条件数或校验矩阵的行列式,阿凯克信息量准则(AIC)和统计学统计数据以及一些预测均方根误差(MSEP)的评估,而常规的搜索算法包括逐步选择,单纯形优化,分支定界组合搜索,模拟退火和遗传算法(GAS)。
然而,大多数的常规方法,通常加上逆最小二乘步骤,被设计来选择几个波长,使得多组分频谱分析的超定系统可被转换到一个精确确定的系统。
因为只有少数的光谱通道被用于定标模型和在整个光谱的许多信息不被删除,这些方法可能会暴露出在分析精度和分析准确性上明显的丢失。
为了补救的常规波长选择方法的缺陷,在发展可与全光谱定标技术有效耦合的新波长选择方法上做了大量努力。
有不同的方法,可以在与LV建模技术相结合来实现波长选择。
有一些方法对光谱信道的排序是基于相关回归系数的不确定性。
具有很大不确定性的波长被认为是无意义的,在建模过程中可以逐步去除,而具有小的不确定性的波长可以逐步包括在模型中。
其他过程用基于遗传算法搜索策略以减少对MSEP估计的LVs数量来优化波长范围或子集。
与此相反,本研究重点是波长间隔,而不是个别的光谱点的选择。
光谱区间搜索的理念是大多数种类的光谱响应的连续性。
例如,振动和转动光谱给福格特的配置文件,一般都具有至少4cm-1半高的全宽,通常在8-20cm-1。
这意味着固有的光谱间隔的存在。
此外,利用光谱间隔而不是个别的光谱点,不仅能够与全谱建模技术的波长选择过程有一个简单的耦合,从而提供改进分析精度的可能性,同时也使人们有可能实施有效的算法,以便确定有益于建模的间隔。
在本研究中,我们证明了间接(或反)校准的预测误差可以通过包括非理想的光谱区域进行膨胀,非理想光谱区域的共同特点是当这些区域用于校准模型时,就会增加LV模式的复杂性。
因而提出了一种新的波长间隔的选择方法,移动窗口偏最小二乘回归(MWPLSR)。
这种方法在移动过的光谱窗口方向上建立了一系列的PLS模型,然后确定在模型复杂性和残差的总和中有用的光谱间隔。
当多个频谱间隔被选中,对MWPLSR过程与用于PLS的多组分光谱分析的耦合提出了两种策略:
一种是建立一个PLS定标模型的全部选定间隔,另一种是分别建立在每个间隔上的PLS模型的组合。
光谱区间的选择已在多项工作中讨论。
诺里斯用手动过程来选择最佳光谱区域,通过测试用衍生间隙大小的经验优化光谱衍生物和分析物浓度之间的相关系数。
许和谢希特提出了一种基于净分析信号的范数的相对误差,然后优化窗口的位置和大小的波长的选择标准,该窗口以这样一种方式给出最小相对误差。
他们的方法是有区别于MWPLSR的,它的目的是在小分析信号和一阶预测误差的近似变得不切实际的情况下纠正全光谱方法。
Norgaard和他的同事提出了一种基于与MWPLSR比较相似的间隔偏最小二乘回归(iPLS)的光谱间隔选择方法。
但是,与用PLS不同维度模型光谱方向上逐渐移动的窗口的MWPLSR过程不一样,IPLS方法测试了一系列用相同维数的PLS回归的相邻但不重叠的窗口。
这可能使iPLS算法对模型维数的选择相当敏感,并增加缺失的最佳窗口的风险。
此外,MWPLSR可以直接找到优化的光谱间隔,而iPLS需要一个后优化步骤来细化最初确定的光谱窗口。
另一方面,iPLS估算了基于从接收窗口的所有波长的定标模型,这可能会降低包括不同优度的光谱窗口的总模型的性能。
相反,本方法通过局部模型的加权平均构造的总模型,它提供了一个强大的方式来利用包括在当前模型的相关信息,并避免在多光谱间隔可能积累的误差。
建议过程的评价是用三种振动光谱数据集,两个开放路径傅里叶红外变换数据集和一个近红外数据集,每一个都具有不同的噪声特性。
在以振动光谱为基础的多组分光谱分析中波长选择是特别重要的问题,因为红外光谱、拉曼光谱和近红外光谱在本实验条件的小干扰及样品在紫外和可见光谱物理性能的比较一般表现出较高的敏感性。
这些非组成相关的因素可能在某个明显偏离理想情况的局部光谱间隔作出响应,而且这些无意义间隔的消除可以在浓度建模时大大提高分析精度。
获得的结果表明提出的过程与全谱PLS建模对比产生了优越的性能。
理论
理论背景。
考虑在多组分光谱分析经常使用间接(或反向)定标模型c=rTb+e
(1)其中因变量c是样品的分析物浓度,解释性变量r是在样品的I波长测量的光谱响应,上标T表示矩阵或矢量转置,b为待估计的系数向量,而e是一个模型误差。
给定的数据,c=(c1,...,cN)T是N定边样品的分析物浓度,R是第n行rnT为第n个定标样品光谱的N*I的响应矩阵,方程1可以写为c=Rb+e
(2)其中e=(e1,...,eN)T。
不失一般性,可以假定R和c都表示标准化纵列;
也就是说,每列具有零均值和单位方差。
间接定标的目标是估计b,以便可以使用公式1准确地预测新样品中分析物的浓度。
实际上这是一个关于预测的线性回归问题。
它已经表明,真正的回归系数向量由b=nas/11nas211(3)给出,其中NAS表示分析物的净分析信号(NAS),11。
11表示矢量的欧几里德范数。
理想情况下,假设该误差是独立同分布的,然后在理论上可达到的最小MSEP是msep(c)=ó
211b112=ó
2/11nas112(4)也就是说,MSEP随着nas长度的增加而减小,所提供的NAS可以是没误差且误差是独立同分布的。
事实上,这个结论是证明添加光谱通道总是提高预测性能的理论的基础。
然而,光谱的做法常常变为相反的误差是同分布且不能始终得到没有任何偏差的NAS的理想假设。
在估计浓度预测误差时,r和b两者的误差应加以考虑。
假设该误差是独立的,我们可以从公式1得到MSEP的一阶近似,如下所示:
其中bi和ri分别是b和r的第i个元素,d2()表示一个变量的平方误差。
注意到MSEP由两部分组成;
一个是回归系数的估计误差,另一个是测定光谱中的错误。
如果j光谱通道加入定标模型,MSEP由下式给出
然后,MSEP的变化是
假设在最初选择的光谱通道的回归系数的估计误差不受另外的光谱信道的明显作用;
于是MSEP的变化可近似表示为
现在很显然,另外的光谱信道对MSEP有两种作用。
一方面,bi的幅度在最初选定的区域变得较小,所以在方程8的右边第一项为负值,这使得MSEP下降。
另一方面,在与添加的光谱信道相关联的回归系数中,bi和误差的幅度变化范围是从0到非零值,于是方程8右边的第二和第三项有一个正值,这导致了MSEP的增加。
因此,如果从添加波长得到的光谱误差或从加入光谱通道的回归系数的估计误差太大,MSEP可被这些包含的光谱通道夸大。
换句话说,具有良好信噪比并为回归系数提供准确的估计的合适光谱通道选择能够改进多组分光谱分析技术的准确性。
迄今为止,具有较差信噪比并且给回归系数的估算带来很大不确定性的光谱通道已经被证明会引起浓度预测误差的增大。
回归系数估计的不确定性是由两个因素产生的。
一个是所用浓度的误差,另一个是光谱的不确定性。
在LV模型中,回归系数向量是伴随着与浓度有关的组合权重的定标样品光谱的线性组合。
在该浓度下的误差通过组合权重传播到整个光谱区的回归系数向量,其具有在不同光谱通道类似的效果。
相反的,光谱中的误差可以通过基向量的线性组合传播到回归系数,对不同的光谱通道具有不同的贡献。
如果在一定的光谱通道有较大的不确定性,在相应光谱通道中回归系数的不确定性也会比较大。
因为浓度中误差的影响无法通过波长选择减小,波长选择的目的只能通过消除具有较大不确定性的光谱通道或仅仅包括较小不确定性的光谱通道设置来改进预测精度。
在对提出波长选择过程的描述之前,首先要需要解决的是含有较大不确定性光谱通道的特点。
实际上,具有较大不确定性的光谱通道被不能用定标样品建模的因素严重污染。
这些因素包括大量的随机误差、非线性、通过改变仪器参数创建漂移、实验条件或者样品物理性质(非组成有关的属性)。
由于这些非组成有关因素在光谱通道的响应中引入了额外的可变性,如果这些光谱通道用在基于LV方法如PLS的定标模型,LV数量的增加必须被构造来说明由非组成有关因素产生的额外可变性。
这会导致增加LV模型的复杂性和模型维数。
也就是说,具有很大不确定性的光谱通道可以通过增加用其建立定标模型的LV模型维数表征出来。
相反,具有小的不确定性光谱通道可以被认为是有最少模型维数的。
通过移动窗口偏最小二乘回归选择波长间隔。
光谱间隔选择的目的是光谱响应的连续性。
也就是说,如果有一个模型的波长信息,就必须有一个包含对建立模型有用信息的波长的光谱间隔。
类似的,如果一个光谱通道被非组合物相关的因素污染,通道周围的波长间隔也会被这些因素干扰。
根据上一节的结论,显然具有较大不确定性的光谱区间可以通过增加用其建立定标模型的LV模型维数来确定,而具有小的不确定性光谱间隔可以被认为是有最少模型维数的。
移动窗口偏最小二乘回归时提出波长间隔选择过程的基础。
在MWPLSR中,建立了一个在第i个光谱通道开始并在第(ⅰ+H-1)个光谱通道结束的光谱窗口。
为简单起见,窗口的位置用于表示窗口起始的位置。
在光谱窗口中得到的光谱是一个包含了定标矩阵R中第i列到第(i+H-1)列的子矩阵Ri(N*H矩阵)。
具有不同LV数目的PLS模型可以设置为涉及浓度分析物窗口的光谱。
也就是c=Ribi,k+ei,k(9)其中bi,k是用PLS和kPLS主成分估计的回归系数向量,ei,k是用k-成分PLS模型得到的残留物载体。
该窗口在整个光谱区移动。
在每个位置上,具有不同PLS成分的PLS模型是为定标样品和平方残基总和等等而建立的,残余矢量的平方标准时计算这些PLS模型和绘制窗口位置的函数。
这就产生了一些残线,在相应窗口位置的一定的模型维数有与SSR相关的每一行。
显然,在窗口位置PLS模型的SSR随PLS成分的增加而减少。
此外,基于上述结论,所提供的窗口被定位在光谱间隔包括用于建模的有用信息,并且这个窗口是被适当确定的,SSR有望达到可接受的具有相对小数目的PLS成分的误差水平。
相反,如果窗口设在由明显不确定因素的光谱间隔,SSR不能接近用少量的PLS成分的期望误差水平,以及所需的PLS模型维数必须大大增加,使得多PLS主成分可以被利用来减少SSR。
因此,由所希望的PLS模型维度分析作为窗口位置的功能,包含信息有利于定标模型的光谱间隔以及包含显著不确定光谱间隔也可以被确定。
那么这些信息的频谱间隔选定并用于建立基于PLS的定标模型。
值得注意的是有一个因变量的PLS方法在本研究中被用于光谱窗口的建模。
使用PLS1的主要优点是,每一个组件都可以独立地检测,由于用于确定各组分的最佳条件是在大多数情况下不同。
一旦多个光谱间隔被选择时,两种策略会被用于使用选择光谱间隔的定标方程的PLS模型。
一种是包括所有选择的光谱间隔和开发使用所选择的时间间隔一个PLS模型。
另一种是在每个时间间隔来分别建立单独的PLS模型和构造用于预测的所有单独的PLS模型的线性组合。
第二种策略是在随后的章节中描述。
在光谱间隔选择多PLS模型组合。
如果两个或更多的频谱间隔由MWPLSR选定,多个PLS定标模型可以通过在每个时间间隔建立的模型来获得。
假设有J组所选的光谱间隔和JPLS模型建立如下:
c=Rjbj+ejj=1,2,...,J(10)其中bj是有合适PLS主成分的回归系数估计,ej是第j个光谱间隔的PLS模型的误差。
这些PLS模型浓度未知样品中的预测模型的组合,该定标模型的计算方法为JPLS模型的某个线性组合。
也就是
(11)其中wj是组合权重(j=1,2,...,J)。
显然,组合权重可以直接用通过最小化的
的最小二乘回归来确定。
然而,由于各PLS模型被构建为浓度c的估计值,所以该组合权重的总和趋于接近1。
如果一些权重具有负值,其他权重可以具有大于1的值。
另一方面,由于使用不同的光谱间隔获得的每个PLS模型,因此预计在Rjbj(j=1,2,...,J)的误差是相互独立的。
于是,组合模型的误差是权重为组合权重平方的每个模型的误差加权。
因此,如果存在的组合权重比1大时,相应模型的误差会被夸大。
这对模型组合来说是一个不良的属性。
为了避免该问题,有必要对组合权重做一定约束。
一个直接的制约因素是,权重被限制在区间[0,1]。
然而,由于组合权重的总和趋于接近1,这是不够
限制组合权重为负数。
因此,对多个PLS模型的组合的问题可归结为最小化的实际浓度,并进行该组合权重都是非负约束的组合模型之间的偏差的平方的总和。
也就是:
(12)组合权重的解决方案可以使用一个非负最小二乘算法来容易的接近。
值得注意的是,上述过程来确定组合权重是基于这些用来组合模型都是正确构造的;
也就是说,每个模型被建立来产生优化的预测。
在某些机型无法正常建立的情况下,最好是利用一个MSEP为基础的损失函数来确定组合权重。
一个常见的手段是交叉验证PRESS(预测平方残留量的总和)或一个额外的验证集MSEP,它可以通过其对应的验证集替换c和Rj(j=1,2,...,J)来快速计算。
在本研究中,在不同光谱区间的PLS模型都是根据一个代表性的定标集正确构成的,所以上述的过程可以被直接使用。
实验部分
OP/FT-IR数据。
这些数据在之前已经详细提到。
通过在实验测得的开路式背景光谱增加参考光谱,将两个OP/FT-IR数据集合成。
用一个在长时间不同条件下的BomemMB-104光谱仪测得开放路径背景光谱的范围为700t到3000cm-1。
在每次测量中,两个单光束光谱得到具有相同值得路径长度和用来确定、转换为吸光度的比值。
在数据A中,该干涉的背景在1cm-1的光谱分辨率测定,并用Norton-Beer交叉宽度介质处理,而数据B中的背景光谱分辨率均在8cm-1获得。
所有背景光谱可以根据在美国用于解决OP/FT-IR测量的EPA方法TO-16中概述的程序来校正。
100个样品的参考光谱是用5种纯化合物测量得到的纯光谱产生的,如甲醇、乙醇、1-丙醇、1-丁醇和2-丙醇。
每个纯光谱最强的吸收峰首先被缩放到0.3吸光度单位的浓度和分配1任意浓度单元(ACU)的值。
100个样品中5个成分的浓度是用从0-1的随机数字产生的。
于是这些样品的参考光谱可以由使用缩放的纯光谱和浓度矩阵的Beer定律准确生成。
通过加入参考吸光光谱,最终的反应谱被合成为真正的开放路径的背景吸收光谱。
用介质诺顿比尔交叉宽度将参考光谱操作为干涉,然后在数据A中截断为1-cm-1的分辨率,在数据B中为8-cm-1的分辨率。
为了对混合物中乙醇浓度的建模,100个样品数据被分成定标集和预测集。
用全谱PLS或所提出的方法将包含75个样品的定标集用来建立预测模型。
包含剩余25个样品的预测集被用来评估模型的行为。
近红外光谱数据。
制备样品重量分析和分四个部分,包括乙醇、1-丁醇、乙酸乙酯和正丁基组成乙酸叔丁酯。
样品的浓度范围是根据监测反应的状况选择的EtOAc+BuOH98t-BuOKBuOAc+EtOH这里不添加催化剂、叔丁醇钾,因此可以得到稳定的混合物。
用反式屈曲模式在福斯6500分光计上记录近红外光谱。
将样品置于石英管具有金涂层的反射镜(0.5毫米的层厚度相对应≤1毫米的样品厚度)的石英窗上,是从下方照亮。
从样品反式屈曲辐射收集定位在石英窗下以45°
的倾斜角4硫化铅检测器。
各样品重复测定由45°
旋转的石英管光谱之间的记录,和32扫描,积累在波长范围1100至2498年纳米,具有2纳米的间隔1个光谱。
光谱分辨率为10nm的1600纳米。
一种陶瓷板作为参考,和样品的近红外光谱的在22℃下测定。
为了在混合物中的EtOAc建立浓度模型,37个样本数据被分成定标集和预测集。
定标集是由从整个集中随机选择19个样品组成,而预测集由其余18个样品组成。
贯穿本研究中,窗口的大小为MWPLSRis设置为20的光谱点。
人们发现,在窗口大小对得到的残留物系中没有显著作用,所提供的窗口大小是比期望的模型维数大,比频谱间隔要寻求更小。
为了进行比较简单,使用某些光谱区域的PLS模型维数被确定为其中的SSR值随模型的维数的增加不显着减少的数量构成。
在一个代表性的定标集中,在本研究中此程序给出了与那些由验证方法确定一致的模型维度也被检查。
结果与讨论
OP/FT-IR数据A。
OP/FT-IR数据A的光谱示于图1。
在数据的测量误差主要来自于背景光谱的仪器噪声。
人们可以看到一些“尖峰”在整个光谱区域。
这些尖峰是由于检测错误和强大的背景吸收。
在很长的路径长度,背景成分,水蒸汽和CO2在大气中,在1200至2000和2250至2400cm-1具有很强的吸收,并在这些光谱范围内的吸光度的光谱范围是非常大的。
最终,当这些频谱(即具有非常强的强度)之比确定时,在这些光谱范围两个非常小的检测器的误差会大大扩增。
在1-cm-1的分辨率这些尖峰是不可避免的。
在光谱的减少分辨率可能消除大部分的尖峰,但它也可能会排除一些分析信息。
对于OP/FT-IR现场操作和标定,美国环保署目前规定了共同使用一个1厘米的1号决议。
因为OP/FT-IR光谱在1200至2000cm-1和2250至2400cm-1的范围是由测量误差引起的,样品本身不具有吸收在2200至2250cm-1的范围内,人们可以很好利用的光谱区域700-1200和2400-3000cm-1作为乙醇混合物的定量。
由于事实上,我们发现,即使在整个光谱范围内被包含在频谱间隔的选择,所提出的方法仍然能够指示的2400至00年-1的光谱范围在建模是无意义的并应被排除的。
为了保持与OP/FT-IR分析的实现一致性,我们将只专注于700-1200和2400-3000cm-1光谱范围的做法。
通过MWPLSR在700-1200和2400-3000cm-1的光谱范围内的OP/FT-IR数据A中得到的前20个残余线被分别描绘在图2a和d。
由于过多的成分被用于PLS模型,残余线表示对于~10-3的乙醇预测误差水平是可实现的。
在图2a中,有两个光谱区与内置的PLS模型达到误差水平。
在这两个区域的残余线在图2b和c重新绘制在放大的尺度。
人们可以观察到的基于窗口的PLS模型获得的误差水平与五个组分,当窗口被定位在719-738cm-1的光谱间隔(请注意,在区间的右边界可以由19光谱向后延伸点,该窗口减去1。
)的大小,并引入多种组分不显著提高模型的适应度。
这表明,719-738cm-1的光谱间隔可以是信息性的建模的乙醇的浓度。
同样地,人们可以从图2c确定该1013至1029的cm-1的光谱间隔可以是用于建模。
在图2c中,大约有1039和1050cm-1两种光谱区间被内置在PLS模型,使它可以达到误差水平。
但是,这两个时间间隔被排除,由于这样的事实,将残余线继续显著降低下来直至10多组分被利用在PLS模型,表明在这些光谱间隔额外的不确定性。
在图2d中,人们看到,当窗口处于2400-3000cm-1的区域中,20-组分的PLS模型的残余线仍比可达到明显更高的误差水平。
这意味着,在该光谱区域的样品的光谱是严重受到的仪器噪音和从理想的线性响应所得到的光谱显示大幅偏离污染。
模型使用这种噪声失真的谱乙醇浓度,PLS不得不利用多个组分,以补偿该模型的偏差,以及PLS模型对数据的适应度不能达到令人满意的水平,所提供的光谱窗口不够大。
因此,可以断定,对2400-3000cm-1的光谱区域是无意义的,并且可能在建模中被淘汰。
基于上述研究结果,很显然,对于OP/FT-IR数据的只有两个小波谱区间,719-738和1013-1029cm-1,都没有实质的仪器噪声污染,可用于建模有用的乙醇的浓度。
在随后的定标和预测中将会选择这两个光谱区间。
PLS建模的结果为OP/FT-IR数据A使用全光谱或光谱选择的间隔示于表1中,可以看出,位于由IPLS算法的最佳光谱间隔是非常接近的信息中的一个通过该方法给出的光谱窗口。
此外,在预测(RMSEP)的根均方误差的计算,基于所选择的光谱间隔的PLS模型都得到比全光谱为基础的PLS模型更好的性能。
这证实了PLS的性能还是可以基本上通过选择适当的光谱区域改善的结论。
因为从乙醇的CH伸缩模式所产生的吸收带是与混合物中其它的醇非常相似的,2400-3000cm-1的光谱区包含关于相对于乙醇更少的固有信息到700-1200cm-1的光谱区,其中由于OH变形模式的波段是被期望的。
也就是说,NAS的乙醇中的2400-3000cm-1区域的长度比在700-1200cm-1的区域变小。
于是,在理论上可以实现的预测误差为建立在2400-3000cm-1区域的模型比在700-1200cm-1的区域大。
作为结果,该全光谱的PLS模型采用2400-3000cm-1的光谱区构造给出最坏预测在所有的模型。
此外,由于在该区域的弱信号被仪器噪声严重地失真,该PLS模型包括这个区域和700-1200cm-1的区域也产生相比于PLS模型稍微劣化性能内置仅在700-1200cm-1的光谱区。
人们也可以