最常见的近红外光谱的预处理技术的综述Word文档下载推荐.docx

资源描述

最常见的近红外光谱的预处理技术的综述Word文档下载推荐.docx

《最常见的近红外光谱的预处理技术的综述Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《最常见的近红外光谱的预处理技术的综述Word文档下载推荐.docx（12页珍藏版）》请在冰豆网上搜索。

最常见的近红外光谱的预处理技术的综述Word文档下载推荐.docx

对生物样品，散射特性是过于复杂，所以软或自适应补偿，光谱预处理技术，正如我们近红外光谱在本文中进行讨论，要求删除散射从纯粹的、理想的吸收光谱。

显然，预处理不能纠正镜面反射率（直接散射），自谱不包含任何精细结构。

光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析，因为他们仍将是局外人，甚至在预处理。

图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何（极端）镜面反射率表现比正常的光谱。

图1还演示了总体布局的大多数数据在本文中。

上部的图，一个条形图显示了主成分得分值第一主成分（PC）后的样本集数据意味着定心[1]。

下面部分显示预处理效果的数据集（或

者，在这种情况下，任何预处理）。

相关系数r的平方值之间的酒吧和一个选定的参考变量包含（在本例中，已知的平均粒径的13蔗糖样本）。

蔗糖的数据集，这种关系应该是低，例如，当假设散射是一种阻碍粒子始发;

尽可能小的信息的粒度应该保持在正确的预处理。

图1近红外光谱的13蔗糖和样品不同粒径（最小的粒子在底部，最大的顶部;

粒子尺寸范围在20-540lm。

黑色的光谱显示了一个镜面反射率蔗糖样本。

酒吧是分数值第一主成分的13个蔗糖样品主成分分析模型在完整的光谱。

一个示例数据的预处理蔗糖中可以看到图2，其中也包含一个其实的一个示例数据预处理的蔗糖中可以看到图2，其中也包含一个其实

图2上图：

数据被一个二阶蔗糖乘法散射校正;

底：

相应的标准差每个波长，虚线是原始/未加工的数据（见图1），固体是预处理的数据。

最广泛使用的预处理技术在近红外光谱法（在两个反射和透射模式）可以分为两类：

cattercorrection方法和光谱衍生品。

第一群散射校正预处理方法包括乘法散射校正（MSC），逆MSC，扩展MSC（EMSC），扩展逆MSC，de趋势，标准正态变量（SNV）和标准化。

图3生/未加工的光谱，7果胶样本。

蓝线是一个示例有0%程度的果胶酯化（DE），红色的线是一个样本93%德。

打开条指示主成分分析（PCA）评分值在第一个PC为完整的光谱，意味着定心，关闭了酒吧后的光谱值在波长2244纳米。

光谱推导集团是为代表的两种技术在本文中：

诺里斯威廉姆斯（NW）衍生品和Savitzky-Golay（SG）多项式导数过滤器。

这两种方法都使用一个平滑的光谱导数计算之前，以减少有害的影响，传统的信噪比有限差分衍生品会。

预处理步骤的目标可以三种：

1）提高后续探索性分析

2）提高后续叠层校正模型（力数据服从兰伯特啤酒法律）;

或者，3）提高后续的分类模型。

朗伯比尔定律（方程

（1））是经验对近红外光谱/NIT和显示成线性关系，吸收光谱和浓度（）的成分（）：

Alog10（T）lc

（1）

其中A作为吸光度，依赖波长的摩尔吸光系数，l代表光通过容器有效的路径长度，是c成分的浓度。

朗伯比尔定律严格有效的只有纯透射系统没有散射。

在反射率测量，方程

（1）是重新定义在类比透射率的测量为：

Alog10（R）lc

其中，R是反射率。

选择合适的预处理应该总是被认为是相对于连续建模阶段。

例如，如果数据集的兴趣不遵守法律，额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预测[5]。

的缺点包括额外的因素是提高模型的复杂性，反过来，最有可能减少对未来预测的模型的鲁棒性。

所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱，常常一个线性（简单的）关系现象（比如，一个成分）的兴趣。

通过使用一个合适的预处理技术，这可以实现，但总是有危险的应用了错误的类型或应用太严重的预处理，将移除有价值的信息。

正确的选择的预处理是很难评估模型验证之前，但是，一般来说，执行几个预处理步骤是不可取的，作为最低要求，预处理应保持或降低复杂性的有效模型。

图4样品光谱（蓝色的点）密谋反抗一个选定的参考光谱。

标量修正条款发现随着拦截和边坡的黑色线条，就是发现从最小二乘回归适合通过所有的点。

3.散射校正

根据散射校正方法，我们考虑三个预处理的概念：

硕士，SNV和标准化。

这些技术是为了减少（物理）可变性样本之间由于散射。

所有三个也调整基线样本之间的变化。

3.1MSC

乘法散射（或者，在一般情况下，信号）校正（MSC）可能是最广泛使用的预处理技术对近红外光谱（紧随其后SNV和派生）。

MSC其基本形式是由Marten首次引入等人1983年[6]，并进一步阐述了通过Geladi等人1985年[7]。

MSC背后的概念是，工件或缺陷（如，不良的

散射效应）将被删除的数据矩阵之前，数据建模。

MSC包含两个步骤：

1）估计的校正系数（加法和乘法的贡献。

某orgb0bref,1某refe

（2）

2）校正记录的光谱

某corr某orgb0bref,1某refebref,1（3）

其中：

某org代表近红外光谱仪器对一个原样品进行光谱测量，某ref代表参考光谱用于预处理的整个数据集，e是降低的一部分的某org，某corr代表了修正后的光谱，其中b0和bref,1都是标量参数，这在每个样品中具有不同的代表含义，这个在图4中进行说明，对每个标量参数进行了解释。

在大多数应用中，平均频谱的校准设置用作参考光谱。

然而，一个通用参考光谱也可以应用。

在最初的论文Martenetal。

[6]，这是建议只使用那些部分光谱轴，不包括相关信息（基线）。

而这使得好的光谱意义上说，很难确定这些地区在实践中，特别是在近红外光谱测量，信号从不同的化学成分是强烈重叠和相关，很少或根本没有真正的基线是发现。

这是为什么，在大多数情况下，整个频谱用于查找标量校正参数在MSC。

图5演示了应用程序的标准MSC对果胶的数据。

光谱特征的果胶粉是守恒的，而背景偏移和斜坡基本上是删除（与图3）。

的线性关系光谱和%德是不错，但它并不完美。

图5数据预处理的乘法散射校正用一阶校正对平均频谱。

基本形式的MSC已经扩展成更复杂的扩展（8-12）通常被称为EMSC。

这个扩展包括二阶多项式拟合参考光谱，拟合的一个基线的波长轴，和利用先验知识从光谱的兴趣或光谱干扰物。

在本文中，所有这些替代品被称为MSC为简单起见，因为他们可以总结为一个单一的方程：

某org221,某,某,,某known,1,某known,2...refrefbe（4）

其中，代表依赖波长轴的修正向量，某known,1包含先验知识包括了想要/不必要的光谱信息（比如一个已知的光谱干扰的物种）。

方程（4）可以轻易地扩大到包括任何其他任何具有适当

意义的修正。

b代表了一组标量（校正系数）给出了方程（5）。

bb0,bref,1,bref,2,b,1,b,2,bknown,1,bknown,2...（5）

b0偏差校正

bref,1是根据ith的修正

b,1改正对我

bknown,1是对ith校正订单波长轴依赖，bknown,1是纠正第i已知信息吗

相比方程

（2），它可以观察到方程（4）只是一个高阶扩张之一的想法。

在本文中某known,1将不再做进一步的讨论，因为，在很多实际情况，参考光谱对想要的和不必要的成分并没有现成可用的。

参考校正是最常用的方法只有一个一阶多项式。

即使没有数学限制扩大到高阶增加，有通常没有光谱参数这样做（除了也许如果重要的瑞利散射是出现在短的波长区域。

图6显示了结果的一个二阶多项式校正的果胶数据。

修正条款用于二阶多项式参考校正只是发现了拟合二阶（二次）多项式的点在图4。

只有边际改进取得了比一阶修正在图5。

波长轴的依赖是最常包括作为一个二阶多项式拟合的波长轴的光谱。

当没有参考校正包括在内，这个简单的波长配件也的名义光谱de趋势[13]，它可以被视为一个基线校正。

重要的是要注意，包括波长依赖性在完整的校正方程（4）而不是让它作为一个单独的步骤会导致一个较小的矫正效果。

这是由于一个矩阵求逆操作同时执行所有的校正参数在MSC，不同的修正会相互影响的最小二乘法拟合准则。

当一个波长的依赖是独立决定只有波长轴（而不是参考光谱）影响的校正，这将导致一个趋平加工谱。

这个效果可以看出通过比较无花果。

7和8。

正如前面提到的，更加复杂的修正（比如，高阶多项式或其他转换的波长依赖性）可以很容易地纳入MSC。

Thennadil和马丁[12]建议使用对数值的波长，因为这是更多的声音来判断光谱。

然而，区别使用对数变换的波长与使用一个一阶多项式校正是最小的，使这两个方法相同的所有实用目的。

彼得森指出，etal。

[9]，这是一个相当简单的过程，应用逆版本的MSC，称为逆信号校正（ISC）[14]。

估计的校正参数，b系数，发现以类似的方式来定期MSC：

22某ref1,某,某,,某known,1,某known,2...orgorgbe（6）

请注意，某org和某ref已经交换了地方比方程（4）。

一个利用（扩展）ISC（EISC）是简单的修正方

程：

22某corr1,某org,某org,,某known,1,某known,2...b（7）

图6乘法散射校正的光谱使用二阶参考校正对平均频谱。

在ISC和EISC，无论是估计的校正系数和校正本身中执行可以被描述为一个前进的方式，使它能方便包括附加的条款和/或参考信号[9]。

前面提到的矩阵求逆操作所需的参数估计在MSC可以很容易地成为数字坏脾气的如果它包括高阶多项式参考更正。

这是一个论点支持ISC。

然而，假设，ISC最小二乘法拟合，误差在记录的光谱（纠正）小于误差为参考光谱。

在大多数实际应用，参考是平均谱计算样本数据集从n的（例如，校准设置）。

预期的噪音水平数量级这个引用是小于个人光谱（忽略了偏见由于散射差别集）。

这是一个反对ISC，因为一个小错误在光谱预处理将会影响到更大的程度比最初的MSC。

图8乘法散射校正（MSC）与一个一阶多项式参考校正对平均频谱，其次是一个单独的MSC与二阶多项式波长校正（去趋势）。

主要的挑战是定义一个合适的MSC参考光谱。

正如前面提到过的，这是最经常设置为普通的校准光谱。

加拉格尔等人[15]提供了一个天然的变化来MSC通过包含一个加权方案在预处理步骤。

提出了两个选择：

1）使用一个预定义的权向量的波长轴向2）迭代搜索最优权重向量

迭代的解决方案是通过给低体重发现变量或波长与高残留差异的原始数据和修正的解决方案。

权重的计算将继续，直到区别两个后续的迭代修正光谱小于假定数据中噪声水平。

不幸的是，这个相当简单直接的方法并不总是适合近红外光谱数据，自蔓延在更高的波长范围通常表明更分散，应该更正而不是权重小。

图9显示了权重。

用于最终的修正给强调到hortwavelength地区，而长波长区域并不有助于校正在所有。

另一个建议寻找参考校正在MSC都暗示了Windigetal。

——所谓的糊涂MSC[16]。

这种方法发现平均频谱从mc修正数据集。

接下来，MSC是多次重复更新参考光谱的平均数据集的纠正在每次迭代中步骤。

图10显示了结果的糊涂MSC应用到果胶数据集——在这种情况下的表现非常类似于呆头呆脑的MSC单纯的MSC。

在呆头呆脑的MSC，可以遵循增加模型的统计信息，然后停止在收敛（两个迭代步骤通常是足够的）。

叠加在图10的变化参考光谱从原始光谱的平均值。

3.2标准正态变量（SNV）

SNV预处理可能是第二个最散射校正的应用方法NIR/NIT数据[13]。

在本文中，规范化（也称为对象明智的标准化）的光谱将检查在同一个小节由于明显的相似性两个原则。

SNV的基本格式和正常化修正与传统MSC：

图9加权乘法散射校正，基于迭代重量的决心。

绿线显示了最终的权向量（任意规模的贡献）。

某corr某orga0a1（8）

对于SNV，a0是平均值的样品光谱需要修正的同时，为标准化，a0设置等于零。

对于SNV，a1是标准偏差的样品光谱。

图11演示了SNV校正的果胶的数据集。

对于正常化，不同的向量规范可以用于比例因子a1，最常见的是总金额的绝对值的元素的向量（城市街区或出租车规范）或的平方根之和的平方元素（欧几里得的规范）。

其他选项，有时也用正最大吸光度变量和正常化向着单一选定波长。

这两个最后选项应该小心使用，因为他们可以有不良影响后续分析在例嘈杂的数据。

图12显示了效果。

欧几里得的正常化，迄今为止最常用的正常化，果胶的数据集。

这个信号校正背后的概念SNV和标准化是相同的MSC除了常见的参考信号不是必需的。

相反，每个观察自己处理，孤立于剩下的设置。

缺乏需要一个共同的参考可能是一个实际的优势。

因为SNV和归一化不涉及一个最小二乘方拟合在他们的参数估计，他们可以敏感嘈杂的条目谱。

相反，使用平均值和标准偏差作为校正参数，有人可能会考虑使用更健壮的等价物这些统计的时刻。

郭etal。

[17]建议使用中等或意味着内部的四分位范围和标准偏差的内

部四分位数估计为a0，a1，分别命名为“方法”健壮的正常变量”。

这将是特别合适的情况下光谱很模糊（如。

在超快的在线近红外光谱的应用程序，在强劲的措施将会更受散射噪声（例如，波长选择性反射颗粒的液体流）]。

鲁棒估计的影响他们演示郭etal。

[17]对于模拟和实际数据。

正如已经讨论了Dhanoaetal。

[18]，有一个明显的相似性SNV和MSC。

这种关系可以通过以下简单的近似提出：

某mc某SNV某某（9）

某一般的标准偏差的光谱，某大意味着在所有的光谱，都发现了从原始/未修正的光谱（参见图13）。

图10呆头呆脑的乘法散射校正与一个一阶参考校正。

绿线显示了最终的，差别开始参考光谱（任意规模的贡献）。

图11标准正态变量修正光谱

图12欧几里得规范归一化光谱

图13标准正态变量之间的关系和乘法散射校正。

蓝色的和红色的线条代表的趋势线估计在图4。

作为方程（9）表明，MSCandSNV相似到简单的旋转和抵消校正。

对于本文中使用果胶数据，相关的SNV预处理数据（图11）和基本MSC修正数据（图5）是0.9995后意味着中心。

换句话说，MSC和SNV是相同的对于大多数实际应用。

4.导数光谱

衍生品有能力清除两个添加剂和乘法效应在光谱和已经被用于分析光谱学了几十年。

这个概念表明在无花果。

14对于一个简单的高斯峰添加了基线和基线加上乘法效应。

第一个衍生品只删除基线;

二阶导数删除两个基线和线性趋势。

在本文中，我们将讨论两种不同的方法：

SG和西北。

两个派生技术使用平滑为了不降低信噪比的修正光谱太多。

最基本的方法，推导是有限的差异：

一阶导数是估计为区别两个后续光谱测量分;

二阶导数是然后估计通过计算连续两个点之间的区别的一阶导数光谱：

某i'

某i某i1（10）

某i1'

某i12某i某i1（11）

4.1诺里斯威廉姆斯推导

西北推导是一个基本的方法，以避免噪音通胀开发在有限的差异。

这种技术是在1983年提出诺里斯[19]和阐述了通过诺里斯和威廉姆斯在1984年[20]作为一种方法来计算导数近红外/NIT光谱。

西北派生包含两个步骤（见图15）：

1.平滑的光谱，平均在一个给定的点的数量是执行：

某mooth,1mjm某og,i12m1（12）

其中，m中的点数平滑窗口围绕电流测量的点i

2.对于一阶求导，以区别两个平滑值与一个给定他们之间缺口大小（大于零）;

对二阶求导，

采取两倍的平滑值点我和平滑值在一个间隙距离两边：

图14派生的影响在添加剂（绿色）和添加剂加上乘法（红色）的影响。

蓝色光谱是光谱没有任何补偿，黑色虚线是零线。

某mooth,igap某mooth,igap某i'

某mooth,igap2某mooth,i某mooth,igap（13）

可以看到从方程（13），实际的推导模仿一个有限差分（方程（10）和（11））。

通过应用一个平滑之前的计算，通过引入一个缺口大小的问题，降低信噪比降低。

在文学、NW推导往往是紧随其后的正常化修正光谱。

诺里斯和威廉姆斯[20]提出了规范化光谱强度相当于在一个选定的波长，但更复杂的归一化方法可以使用。

使用一个缺口很难捍卫在近红外光谱。

这个概念经常使用的一个缺口，如果有一个（固定）频率分量在数据，大小的地方缺口将对应于两峰之间的距离值的信号。

然而，在光谱学，有通常没有这样的背景频率的贡献。

西北的衍生作品由于高度的co变异和平滑的近红外光谱和不一定由于光谱推理（见图16）。

一个有趣的注意在西北存在推导几个设置（组合的差距和平滑窗口），给相同的估计导数。

再见。

数，三分的差距有五个平滑等于一个四点平滑与一个缺口大小的三个;

类似地，一个threepoint平滑有缺口的七是一样的i某point平滑与一个缺口大小的三个。

这可以推广到m点平滑与一个缺口大小的k等于一个k1点平滑和一个缺口大小的m。

4.2Savitzky-Golay推导

Savtizky和戈利（SG）[21]推广一个方法推导的数值一个向量，包括一个平滑的一步。

为了找到导数在中心点我，一个多项式拟合在一个对称窗口的原始数据（参见图17）。

当参数对

于这个多项式计算，任何顺序的导数的这个函数可以很容易地发现分析，这个值随后被用作导数估算出这个中心点（参阅图。

18）。

这个操作是应用于所有分光谱顺序。

点的数目用来计算多项式（窗口大小）和程度的拟合多项式都决定要做，。

最高的衍生物，可以确定取决于学位的多项式拟合过程中使用（即一个三阶多项式可用于估计的三阶导数）。

图15估计的一阶导数，诺里斯威廉姆斯。

支持率窗口用于平滑，和一个缺口大小3应用于派生。

原始形式的NW，SG推导使用对称窗口平滑，要求数据点的数量在每一边的中心点是相同的。

因此，忽视一些点技术在每一端在预处理。

为NW推导，点的数目失去了数等于分用于平滑加上差距的大小减去一个。

对于SG推导，点的数目失去了数等于分用于平滑减一。

因此吸收更多的点NW推导比SG推导。

如果谱向量是长（即超过500点），这个问题不重要，但是，对于较短的光谱（例如，二极管阵列仪器），这个损失的波长可能是重要的。

天天p和舍伍德在1980年[24]和[25]天呀在1990年提出一个解决方案，包括使用一个基于非对称多项式拟合的终端窗口。

在实践中，这意味着米的第一个得分谱估计从2m+1

第一分光谱，和一个类似的估计去年米点。

然而，这样的解决方案将介绍，显然工件精度的衍生品随距离中心点（m+1）。

此外，估计的端点并不拥有内在的冗余提到：

没有两个后续的SG多项式秩序配件将给相同的估计。

此外，估计的潜孔导数相等的所有端点如果谱是平滑的潜孔秩序多项式。

NW推导类似于有限的差异，但引入了平滑和缺口大小为counteraction在估计衍生物光谱保持信号-噪音比例。

这两个步骤在NW派生或多或少是独立的。

然而，SG推导使用更多的常见的过滤技术来估算导数光谱，而不是使用有限差分方法，适合一个多项式通过一系列的点来维持一个可接受的信噪比。

一般来说，NW，SG派生不给相同的估计。

唯一的一双设置，让相同的结果是三个平滑分两，SG使用一阶多项式配合，在西北气隙的大小等于1。

然而，更复杂的（和现实）设置为SG和/或NW自动导致（稍微）不同的推导的结果。

图16诺里斯威廉姆斯二阶导数使用9点平滑和一个缺口大小的3。

5.间隔和联合版本

提到的预处理技术迄今为止，只有估计的衍生品是由一个移动窗操作，只有一个本地部分（窗口）的光谱用于任何时间估计校正。

然而，所有其他的方法同样能够在一个窗口明智的方式执行。

伊萨克松和科瓦尔斯基[26]建议这详尽分析，并将其命名为分段MSC（PMSC）。

Anderon[27]预处理方法相比替代两个版本的PMSC：

移动窗或当地的预处理（划分成几部分波长轴和执行预处理在每一个部分分别）。

这个移动窗版本的预处理技术获得了一些利益，从近红外光谱的社区，可能是因为正确的选择的窗口大小是至关重要的，它是远离琐碎要正确做到这点。

过小窗口会导致引进大型

工件在纠正光谱和降低信噪比。

然而，更大的窗口的大小，较小的完整和移动窗之间的区别预处

图17估计的，Savitzky-Golay一阶导数。

支持率窗户，一个二阶多项式是用来平滑

理（见图19）。

本地窗口预处理是有用的，尤其是在记录的情况下测量光谱从视觉范围或短波近红外光谱的中期红外范围。

在这个宽光谱区，几个不同的散射问题并存，和光谱应该相应的分割，执行单独的散射纠正在不同的部分。

然而，由于这不是本质上不同于在区域划分光谱的预处理方法，应用独立，我们不讨论它进一步。

使用预处理方法的组合是丰富的文学，原则上，任何序列的预处理是可能的。

然而，以下简单的规则可以作为最初的指导方针。

1）散射校正（除了标准化）应该被执行之前，分化。

这些技术都是设计用于修正原始光谱，

从未被认为是修正一个分化或基线纠正谱。

2）可以使用规范化的两端校正，尽管它是容易评估正常化的影响如果是任何其它操作之前

执行。

3）SNV之间的基本差异与随后的消除趋势和MSC与参考和基线校正是，在MSC，同时应

用两个修正，而不是连续的。

因此，通常会给一个较小的MSC基线校正比SNV加德趋势。

4）其次是SNV执行de趋势并不推荐Barneetal。

[13]，基于以上原因，不推荐进行消除

趋势第一。

6.一个定量的例子

图18Savitzky-Golay估计的二阶导数使用9分和一个二阶多项式的平滑。

现在我们将应用所有的预处理方法的讨论到一个定量分光任务涉及32杏仁蛋白软糖样品测量六非常不同的光谱分析仪作为预测变量两种不同的响应变量：

水分和糖含量。

这些数据来自一项由克里斯腾森etal。

[3]。

图20显示了一个，光谱集。

对于一个总结的数据，见表1。

在这里，我们展示了pl回归模型，建立所有的六个近红外光谱仪器，和响应分别（所谓的PLS1模型[5]）。

杏仁糖近红外光谱数据集是不同的预处理技术处理本文中描述的。

除了设置用于理

展开阅读全文