基于Matlab的化学实验数据分析含源文件Word格式文档下载.docx
《基于Matlab的化学实验数据分析含源文件Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于Matlab的化学实验数据分析含源文件Word格式文档下载.docx(7页珍藏版)》请在冰豆网上搜索。
Matlab[1,2]是MathWorks公司于1982年推出的一套高性能的数值计算和可视化软件,它集数值分析、矩阵运算、信号处理和图形显示于一体,构成了一个方便的、界面友好的用户环境。
MATLAB的推出得到了各个领域专家学者的广泛关注,其强大的扩展功能为各个领域的应用提供了基础。
这些专家学者陆续推出了MATLAB工具箱,其中主要有信号处理、控制系统、神经网络、图像处理、鲁棒控制、非线性系统控制设计、系统辨识、最优化、模糊逻辑、小波、样条、通信和统计等工具箱,而且工具箱还在不断增加,这些工具箱给各个领域的研究和工程应用提供了有力的工具。
除此之外,MATLAB还具有如下优点:
(1)语言简洁,库函数丰富,压缩了一切不必要的编程工作。
(2)运算符丰富,语法限制不严,程序设计自由度大,且程序可移植好,基本上不做修改就可在各种型号计算机和操作系统上运行。
(3)图形功能强大,数据的可视化非常简单。
(4)原程序的开放性。
除内部函数以外,所有的MATLAB的核心文件和工具箱文件都是可读可改的源文件,用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。
随着分析化学的发展,产生了化学计量学。
该门学科是化学、数学、统计学和计算机科学相互交叉而形成的一门边缘学科,它运用数学和统计学的方法,设计或选择最优量测程序和实验方法,并通过解析化学量测数据而获取最大限度的信息。
化学计量学中的计算问题一般比较复杂,尤其是高维数据的处理涉及到大量的矩阵运算,MATLAB语言由于它独特的优势和强大的计算功能为化学试验设计及数据处理提供了有力的工具。
文献[3]报道了MATLAB在化工计算中的简单应用,本文着重介绍了MATLAB在化学实验数据处理中的应用。
2分析方法分类
2.1定量分析方法
定量分析方法里有主成分分析法与偏最小二乘法。
(1)主成分分析法(principalcomponentanalysis,PCA)方法是化学计量学中的基础方法,广泛用于化学实验数据的统计分析,进行数据降维、变量提取与压缩、确定化学组分数、分类和聚类以及与其他方法连用进行数据处理。
对于一个有n个变量x1,x2,…,xn的多维空间,PCA方法可构造n个新变量,称为主成分得分(简称主成分)t1,t2,…tn。
主成分必须满足以下条件:
1)每个主成分是各个原变量的线性组合;
2)各个主成分之间为正交;
3)经线性交换得到的t1的方差为最大,t2次之,依此类推,t1,t2,…,tn称为第1,2,…,n个主成分。
与它对应的特征值为λ1,λ2,…,λn,且λ1≥λ2≥…≥λn。
一般而言,方差大的主成分含原变量的信息量大,因此,t1所含原变量的信息量最大,t2次之,其余类推。
顺序排在前m个主成分的方差贡献率可表示为(λ1+λ2+…+λm)/(λ1+λ2+…+λn)。
一般情况下,前面几个主成分的方差贡献率已足够大,可基本反映原变量的信息。
这样原来多维空间的大部分信息可由前面几个主成分组成的低维(二维或三维)空间表现出来。
PCA方法是核磁共振光谱数据多变量分析中常用的运算法则[4~6],它充分地减小了含大量相关变量的数据的复杂性,使计算机的效率最优化,降低仪器噪音,同时使小化学位移的变化最小化,预测复杂结构的核磁共振光谱参数,从而分离复杂体系。
PCA方法可以同时对数据集中所有的谱进行分解,来获取它们的基本特征,即主成分,它不需要预先对波谱的形状等进行假定,即不需要有关的先验知识;
另一方面,MRS数据集中,各谱一般恰恰具有这种共同的基本信息,如基本的波形函数等,所以在MRS参数量化及校正中,PCA方法有着独特的优势。
例如:
ROWN证明,PCA方法能够检测很小的频率和相位变化[7];
HUFFEL也展示它有比相关法更好的幅度估计[8]。
1995年,STOYANOVA较早地把PCA方法应用到磁共振波谱量化分析领域[9],至今先后已有许多重要的理论成果发表[10~13]。
这些文献都指出了PCA方法在磁共振波谱中应用的重要理论基础,但比较遗憾的是,它们要么没有对磁共振波谱衰减系数的校正进行讨论,要么虽然有所涉及,但还没有进一步推广到复数域。
在复数域量化中一般不需要对相位进行校正,而需要对衰减系数校正进行具体研究,且该种研究对基于复数PCA方法是很有必要的。
曾卫明等人利用复数PCA方法对MRS衰减系数自动校正的研究,解决了MRS校正过程中的关键难题[14]。
不饱和化合物和卤化脂肪族化合物中,不同碳原子上的杂原子取代产生诱导效应,使C13产生取代诱导化学位移。
研究人员运用PCA方法,不但可以对其进行区别与聚类分析,而且可据此进行化学位移与分子性质之间的相互关联及化学位移的校正[15,16]。
NEIL等人将PCA方法应用到13C核磁共振波谱中,测定苯乙烯和聚丁烯橡胶中单体苯乙烯的组成并进行聚类分析[17]。
另外,PCA方法曾被用来光谱定量形状相同而振幅不同的单个共振峰。
STOYANAVA等将此方法延伸,评估了所有的谱峰参数:
振幅、频率、相位和线宽,从而详细阐述了谱线形状的测定过程[18]。
相关的应用还包括PCA方法建模法解析电子顺磁共振波谱重叠峰,测定二组分、三组分含顺磁离子的顺磁化合物极性溶液[19];
PCA方法解析液相色谱质子核磁共振光谱,在不同缩放比例下区分了3种二氢萘的同分异构体[20]。
在运用PCA方法解析核磁共振光谱时,样品矩阵的变化和仪器本身的不稳定性将导致样品的核磁共振光谱峰位和峰形均发生变化。
JENNY使用线性内插法和转换校正对其进行改进,以增强多变量模式的解释能力,并对2种校正方法作了比较[21]。
相干扰多组分不经分离的同时化学测定,已引起国内外分析工作者的重视。
PCA方法在滴定分析中应用的基本原理是将已知混合液测定数据中能代表多组分特性的有效信息,以主成分向量形式逐步提取出来,把代表测量误差的次要成分向量忽略,进而建立回归形式的数学模型,以测定试液中各组分浓度或含量。
应用主成分分析法,将电位滴定、数学计算法和计算机技术三者有机地结合在一起,用现代数学分离法代替繁琐的化学分离或掩蔽法,其突出优点是无需知道酸的电离常数,也无需对电极系统进行严格校正,只需准确测定几个pH点所消耗滴定剂的体积即可。
方法简单,易于操作,省时省力,节约药品,测定成本大大降低,是一种很有应用价值的分析方法。
张传宇用PCA方法研究了用电位滴定法直接同时测定磷酸和亚磷酸。
张大伦将PCA方法用于同时单点pH络合滴定,讨论了方法原理,指定了pH值的选择,建立了PCA方法常数矩阵,并用于测定EDTA络合物稳定常数相近的金属离子混合物的各组分浓度,获得满意结果;
他还将PCA方法用于对极弱酸碱、多组分极弱碱混合试样的pH值滴定进行了研究,并将PCA用于pM滴定及单点R滴定马继平采用主成分回归法同时测定油品中的铁、钴、镍、钒的含量及油品的安定性。
(2)偏最小二乘法(PartialLeastSquares,PLS)是一种基于因子分析的多变量校正方法。
它同时将响应矩阵和浓度矩阵进行分解,提取主因子,具有很强的提供信息的能力,现己成为化学计量学中最受推崇的多变量校正方法之一。
PLS法不仅把吸光度矩阵A分解成得分矩阵T和载荷矩阵P,还把浓度矩阵C也分解成得分矩阵U和载荷矩阵Q:
Anxp=TnxdWdxm+Enxp
(1)
Cnxm=UnxdQdxm+Fnxm
(2)
其中E和F分别为A矩阵和C矩阵的残差矩阵。
对得分矩阵T和U作线性回归,用对角矩阵V关联:
Unxd=TnxdVdxd(3)
在用校正组求出W、Q和V矩阵后,对未知试样,可由下式求得各组分的浓度Cunk=Aunk(UTA)TVQ(4)
PLS法在构造校正模型时更充分地利用了A矩阵和C矩阵的信息,能降低噪音对校正模型的影响,是较完善的基于因子分析原理的校正方法。
乔晓艳等[22]对荧光光谱法测量农药残留得到的混合光谱进行分离,基于偏最小二乘法建立荧光光谱测量系统校正模型,并预测啶虫脒残留量。
选择20个特征波长,采用交互验证方法,以预测残差平方和为评价指标,确定最优主成份数,获得了最佳分析模型。
实验显示,采用偏最小二乘法结合荧光光谱测定啶虫脒农药残留,具有快速、无损、测量精度高等特点,并表明该方法用于定量分析复杂多组分体系是有效的。
王动民等[23]建立了四个棉成分的定量分析模型。
利用50个棉—涤混纺面料作为对象,自行设计采样装置,采集其近红外光谱,然后,经一阶、二阶导数,Savitzky-Golay滤波等方法预处理,结合偏最小二乘法,结果表明:
Savitzky-Golay滤波对定标结果几乎没有影响;
经一阶导数预处理后的光谱数据结合偏最小二乘法建立的模型具有较高的分析精度,定标均方差和预测均方差分别达到了0.022、0.018,分析误差控制在±
0.05以内。
Ali等[24]用偏最小二乘法辅助分光光度法对氯氰菊酯和胺菊酯同时测定,以校正光谱干扰产生的误差。
结果表明,经过正交信号校正的氯氰菊酯、胺菊酯的预测均方差是0.0884、0.0614,可信度很高。
Al-Degs等[25]运用固相萃取和多元校正的方法检测水库和水龙头中莠去津等三种毒性农药的含量。
在所有的多元校正的方法中PLS被证明是最有效的。
样品检出限为3,2和3µ
g/L。
线性范围莠去津、杀扑磷、残杀威分别是5~30,3~60和5~40µ
RSD总低于5.0%。
回归分析是数理统计中常用的方法,一般根据最小二乘法确定回归方程中的系数。
其涉及到矩阵的求逆较为复杂,MATLAB中提供了丰富的回归函数。
其中regress()函数可用于多元线性回归、ployfit()函数可用于多项式回归、ridge()函数可用于岭回归、stepwise()函数可用于逐步回归分析、leasttsq()函数可用于非线性回归。
2.2模式识别
模式识别(patternrecognition)是借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。
模式识别的基本方法主要包括支持向量机和人工神经网络。
(1)支持向量机
支持向量机(supportvectormachine,简称SVM)是一种基于统计学习理论的新型机器学习算法[26].统计理论是一种专门研究小样本情况下机器学习规律得基本理论和数学框架,也是目前针对小样本统计和预测学习的最佳理论.它从理论上系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则.Vapnik等人从20世纪六七十年代开始致力于此方面的研究,到20世纪90年代中期,随着该理论的不断发展和成熟,产生了基于统计学习理论体系的新的通用的机器学习方法,即支持向量机[27].
支持向量机即是通过就是通过某种事先选择的非线性映射,将输入向量映射到一个高维特征空间,在这个空间构造最优分类超平面的实现过程。
SVM的关键在于核函数。
低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。
但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。
也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。
在SVM理论中,采用不同的核函数将导致不同的SVM算法。
在确定了核函数之后,由于确定核函数的已知数据也存在一定的误差,考虑到推广性问题,因此引入了松弛系数以及惩罚系数两个参变量来加以校正。
在确定了