红外与近红外光谱常用大数据处理算法Word文档格式.docx

资源描述

红外与近红外光谱常用大数据处理算法Word文档格式.docx

《红外与近红外光谱常用大数据处理算法Word文档格式.docx》由会员分享，可在线阅读，更多相关《红外与近红外光谱常用大数据处理算法Word文档格式.docx（26页珍藏版）》请在冰豆网上搜索。

红外与近红外光谱常用大数据处理算法Word文档格式.docx

（3）支持向量机回归（SVR）

中心化变换的目的是在于改变数据相对于坐标轴的位置。

一般都是希望数据集的均值与坐标轴的原点重合。

若xik表示第i个样本的第k个测量数据，很明显这个数据处在数据矩阵中的第i行第k列。

中心化变换就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算：

，其中

是n个样本的均值。

（2）归一化处理

归一化处理的目的是是数据集中各数据向量具有相同的长度，一般为单位长度。

其公式为：

归一化处理能有效去除由于测量值大小不同所导致的数据集的方差，但是也可能会丢失重要的方差。

（3）正规化处理

正规化处理是数据点布满数据空间，常用的正规化处理为区间正规化处理。

其处理方法是以原始数据集中的各元素减去所在列的最小值，再除以该列的极差。

该方法可以将量纲不同，围不同的各种变量表达为值均在0~1围的数据。

但这种方法对界外值很敏感，若存在界外值，则处理后的所有数据近乎相等。

（4）标准化处理（SNV）也称标准正态变量校正

该处理能去除由单位不同所引起的不引人注意的权重，但这种方法对界外点不像区间正规化那样的敏感。

标准化处理也称方差归一化。

它是将原始数据集各个元素减去该元素所在列的元素的均值再除以该列元素的标准差。

（5）数字平滑与滤波

数字平滑与滤波的目的在于消除随机误差与仪器的噪声，它是一种最简单的滤波方法。

平滑的实质是略去数据中较小的偏离，而保留具有较大偏离的部分。

设滤波值为

，原始信号值为

，两者间的关系如下：

式中，k为原始数据点的序号，2m+1表示窗口（滤波带宽）的大小，m为调节滤波带宽的参数。

随着窗口的移动，即得到经过滤波后的7一系列信号值。

滤波使数据的噪声减小，但在实际应用过程中应慎重选择滤波带宽，否则会扭曲数据结构。

（6）导数处理

（7）多元散射校正（msc）

由于样品的不均匀性（粒度分布）常导致所测的样品光谱具有很大的差异性，不同批号的同一样品所测的光谱从表面看，也可能有很大的差异。

在许多情况下，散射引起的光谱变化可能要大于样品成分引起光谱的变化。

散射的程度与光的波长、颗粒度和样品的折射指数等有关，因此在整个光谱围，散射的强度是不同的，通常表现为基线的平移、旋转、二次和高次曲线。

MSC是由Geladi等人提出的，目的是校正每个光谱的散射并获得较理想的光谱。

MSC法假定与波长有关的散射对光谱的贡献和成分的贡献是不同的，理论上，通过光谱上许多点的数据分析，可以把这两部分分开。

MSC方法认为每一条光谱都应该与“理想”光谱成线性关系，而真正的“理想”光谱无法得到，可以用校正集的平均光谱来近似。

因此每个样品的任意波长点下反射吸光度值与其平均光谱的相应吸光度的光谱是近似线性关系，直线的截距和斜率可由光谱集线性回归获得，并用以校正每条光谱，截距（即附加效应）大小反映样品

独特反射作用，而斜率大小则反映样品的均匀性。

二、特征的提取与压缩

（1）主成分分析（PCA）

又称抽象因子分析，主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。

思想：

利用降维的思想，把多指标转化为少数几个综合指标。

在研究多变量问题时，变量太多会增大计算量和增加分析问题的复杂性，人们自然希望在进行定量分析的过程中涉及的变量较少，而得到的信息量又较多。

主成分分析是解决这一问题的理想工具。

（主要分析众多变量之间的相关性）

1.1主成分分析计算步骤

计算相关系数矩阵

（1）

在（3.5.3）式中，rij（i，j=1，2，…，p）为原变量的xi与xj之间的相关系数，其计算公式为

（2）

因为R是实对称矩阵（即rij=rji），所以只需计算上三角元素或下三角元素即可。

计算特征值与特征向量

首先解特征方程

，通常用雅可比法（Jacobi）求出特征值

，并使其按大小顺序排列，即

；

然后分别求出对应于特征值

的特征向量

。

这里要求

=1，即

，其中

表示向量

的第j个分量。

计算主成分贡献率及累计贡献率

主成分

的贡献率为

累计贡献率为

一般取累计贡献率达85—95%的特征值

所对应的第一、第二，…，第m（m≤p）个主成分。

计算主成分载荷

其计算公式为

（3）

得到各主成分的载荷以后，还可以按照（3.5.2）式进一步计算，得到各主成分的得分

（4）

1.2matlab中主成分分析的函数：

百思博客6h`l@Y#im*D

1.princomp

.kd#irs9g0

功能：

主成分分析百思博客U4tG}cVy

格式：

PC=princomp（X）百思博客"

YOvg

aw0vy（e5n

[PC,SCORE,latent,tsquare]=princomp（X）百思博客xpVSEg

说明：

[PC,SCORE,latent,tsquare]=princomp（X）对数据矩阵X进行主成分分析，给出各主成分（PC）、所谓的Z-得分

（SCORE）、X的方差矩阵的特征值（latent）和每个数据点的HotellingT2统计量（tsquare）。

2.pcacov

运用协方差矩阵进行主成分分析

PC=pcacov（X）

[PC,latent,explained]=pcacov（X）

[PC,latent,explained]=pcacov（X）通过协方差矩阵X进行主成分分析，返回主成分（PC）、协方差矩阵X的特征值（latent）和每个特征向量表征在观测量总方差中所占的百分数（explained）。

3.pcares

主成分分析的残差

residuals=pcares（X,ndim）

pcares（X,ndim）返回保留X的ndim个主成分所获的残差。

注意，ndim是一个标量，必须小于X的列数。

而且，X是数据矩阵，而不是协方差矩阵。

4.barttest

主成分的巴特力特检验

ndim=barttest（X,alpha）

[ndim,prob,chisquare]=barttest（X,alpha）

巴特力特检验是一种等方差性检验。

ndim=barttest（X,alpha）是在显著性水平alpha下，给出满足数据矩阵X的非随机变量的n维模型，ndim即模型维数，它由一系列假设检验所确定，ndim=1表明数据X对应于每个主成分的方差是相同的；

ndim=2表明数据X对应于第二成分及其余成分的方差是相同的。

主成分分析（PCA）的目的就是将数据降维，以消除众多信息共存中相互重叠的信息部分．PCA方法得到光谱的主成分和得分，得分为压缩后的光谱数据．使用得分数据代替原始光谱数据计算马氏距离，不仅能反映全谱数据信息，而且也能压缩参加计算马氏距离的变量数，并能保证肼矩阵不存在共线问题．具体方法如下：

在MATLAB中有函数mahal可以调用求解马氏距离。

一、相关知识

已知

个

维样本数据集合

其中，

个属于

类，

类。

Fisher线性判别的基本原理是：

把

维空间的样本投影到一条直线上，形成一维空间。

找到某个最好的、最易于分类的投影方向，使在这个方向的直线上，样本的投影能分开得最好。

这就是Fisher法所要解决的基本问题。

对

的分量作线性组合

（F2.1）

从几何意义上看，若

，则每个

就是相对应的

到方向为

的直线上的投影。

的方向不同，将使样本投影后的可分离程度不同，从而直接影响识别效果。

寻找最好投影方向

，Fisher准则函数为

（F2.2）

式中，

为样本类间离散度矩阵，

为样本总类离散度矩阵。

使

取极大值时的

即为

维空间到一维空间的最好投影方向：

（F2.3）

为在

维空间的两类样本的均值向量。

利用先验知识选定分界阈值点

，例如选择

（F2.4）

（F2.5）

（F2.6）

为投影到一维空间的两类样本的均值，

为两类样本的先验概率。

对于任意未知类别的样本

，计算它的投影点

：

（F2.7）

决策规则为

，

MATLAB中有函数fisheriris、classify可以调用

MATLAB里面的函数knnclassify可以调用

（3）模型分类方法（Softindependentmodellingofclassanalogy，SIMCA）

已知数据

表示

维样本集，

或

标记两类样本。

对于一个新的数据

，判别

属于哪一类，即判断

中的

是

还是

支撑向量机可表示为如下的二次规划问题：

（F6.1）

而相应的判别函数式为

（F6.2）

其中：

不同的核函数表现为不同的支撑向量机算法，常用的积函数有以下几类：

（1）

阶非齐次多项式核函数和

阶齐次多项式核函数

与

（F6.3）

（2）高斯径向基核函数

（F6.4）

（3）S型核函数

（F6.5）

（4）指数型径向基核函数

（F6.6）

（5）线性核函数

（F6.7）

线性核函数是核函数的一个特例。

MATLAB中有plsregress函数可以调用

◆MLR虽然计算简单，但限制变量数必须小于样品数，无法处理存在多重相关的系统，而且只是单纯地对X和y进行回归，没有考虑数据中的噪声，X和y之间是否相关，并且在变量多重相关的情况下无法估计回归系数，因此不适合近红外光谱的建模；

◆PCR和PLS都采用了成分提取的方式建模，PCR在光谱中提取出一系列对光谱数据有最佳解释能力并且彼此独立的成分，但在对X中的信息做综合提取时，只注重尽可能多地概括X的信息，而完全没有考虑对浓度y的解释性。

这样提取得到

展开阅读全文