基于matlab的化学实验数据分析大学论文.docx
《基于matlab的化学实验数据分析大学论文.docx》由会员分享,可在线阅读,更多相关《基于matlab的化学实验数据分析大学论文.docx(10页珍藏版)》请在冰豆网上搜索。
![基于matlab的化学实验数据分析大学论文.docx](https://file1.bdocx.com/fileroot1/2023-2/7/7b4d6833-bab5-46e3-8350-de31dfefbf9c/7b4d6833-bab5-46e3-8350-de31dfefbf9c1.gif)
基于matlab的化学实验数据分析大学论文
基于Matlab的化学实验数据分析
摘要:
本文对化学实验数据分析方法做了详细的介绍,包括定量分析方法、模式识别、光谱分析法、色谱分析法,并对其中的一些方法给出了具体的应用。
同时本文也给出了一些MATLAB在化学实验数据分析方法中的应用,如回归分析等。
关键词:
Matlab;化学实验数据分析;化学实验数据处理
1引言
Matlab[1,2]是MathWorks公司于1982年推出的一套高性能的数值计算和可视化软件,它集数值分析、矩阵运算、信号处理和图形显示于一体,构成了一个方便的、界面友好的用户环境。
MATLAB的推出得到了各个领域专家学者的广泛关注,其强大的扩展功能为各个领域的应用提供了基础。
这些专家学者陆续推出了MATLAB工具箱,其中主要有信号处理、控制系统、神经网络、图像处理、鲁棒控制、非线性系统控制设计、系统辨识、最优化、模糊逻辑、小波、样条、通信和统计等工具箱,而且工具箱还在不断增加,这些工具箱给各个领域的研究和工程应用提供了有力的工具。
除此之外,MATLAB还具有如下优点:
(1)语言简洁,库函数丰富,压缩了一切不必要的编程工作。
(2)运算符丰富,语法限制不严,程序设计自由度大,且程序可移植好,基本上不做修改就可在各种型号计算机和操作系统上运行。
(3)图形功能强大,数据的可视化非常简单。
(4)原程序的开放性。
除内部函数以外,所有的MATLAB的核心文件和工具箱文件都是可读可改的源文件,用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。
随着分析化学的发展,产生了化学计量学。
该门学科是化学、数学、统计学和计算机科学相互交叉而形成的一门边缘学科,它运用数学和统计学的方法,设计或选择最优量测程序和实验方法,并通过解析化学量测数据而获取最大限度的信息。
化学计量学中的计算问题一般比较复杂,尤其是高维数据的处理涉及到大量的矩阵运算,MATLAB语言由于它独特的优势和强大的计算功能为化学试验设计及数据处理提供了有力的工具。
文献[3]报道了MATLAB在化工计算中的简单应用,本文着重介绍了MATLAB在化学实验数据处理中的应用。
2分析方法分类
2.1定量分析方法
定量分析方法里有主成分分析法与偏最小二乘法。
(1)主成分分析法(principalcomponentanalysis,PCA)方法是化学计量学中的基础方法,广泛用于化学实验数据的统计分析,进行数据降维、变量提取与压缩、确定化学组分数、分类和聚类以及与其他方法连用进行数据处理。
对于一个有n个变量x1,x2,…,xn的多维空间,PCA方法可构造n个新变量,称为主成分得分(简称主成分)t1,t2,…tn。
主成分必须满足以下条件:
1)每个主成分是各个原变量的线性组合;2)各个主成分之间为正交;3)经线性交换得到的t1的方差为最大,t2次之,依此类推,t1,t2,…,tn称为第1,2,…,n个主成分。
与它对应的特征值为λ1,λ2,…,λn,且λ1≥λ2≥…≥λn。
一般而言,方差大的主成分含原变量的信息量大,因此,t1所含原变量的信息量最大,t2次之,其余类推。
顺序排在前m个主成分的方差贡献率可表示为(λ1+λ2+…+λm)/(λ1+λ2+…+λn)。
一般情况下,前面几个主成分的方差贡献率已足够大,可基本反映原变量的信息。
这样原来多维空间的大部分信息可由前面几个主成分组成的低维(二维或三维)空间表现出来。
PCA方法是核磁共振光谱数据多变量分析中常用的运算法则[4~6],它充分地减小了含大量相关变量的数据的复杂性,使计算机的效率最优化,降低仪器噪音,同时使小化学位移的变化最小化,预测复杂结构的核磁共振光谱参数,从而分离复杂体系。
PCA方法可以同时对数据集中所有的谱进行分解,来获取它们的基本特征,即主成分,它不需要预先对波谱的形状等进行假定,即不需要有关的先验知识;另一方面,MRS数据集中,各谱一般恰恰具有这种共同的基本信息,如基本的波形函数等,所以在MRS参数量化及校正中,PCA方法有着独特的优势。
例如:
ROWN证明,PCA方法能够检测很小的频率和相位变化[7];HUFFEL也展示它有比相关法更好的幅度估计[8]。
1995年,STOYANOVA较早地把PCA方法应用到磁共振波谱量化分析领域[9],至今先后已有许多重要的理论成果发表[10~13]。
这些文献都指出了PCA方法在磁共振波谱中应用的重要理论基础,但比较遗憾的是,它们要么没有对磁共振波谱衰减系数的校正进行讨论,要么虽然有所涉及,但还没有进一步推广到复数域。
在复数域量化中一般不需要对相位进行校正,而需要对衰减系数校正进行具体研究,且该种研究对基于复数PCA方法是很有必要的。
曾卫明等人利用复数PCA方法对MRS衰减系数自动校正的研究,解决了MRS校正过程中的关键难题[14]。
不饱和化合物和卤化脂肪族化合物中,不同碳原子上的杂原子取代产生诱导效应,使C13产生取代诱导化学位移。
研究人员运用PCA方法,不但可以对其进行区别与聚类分析,而且可据此进行化学位移与分子性质之间的相互关联及化学位移的校正[15,16]。
NEIL等人将PCA方法应用到13C核磁共振波谱中,测定苯乙烯和聚丁烯橡胶中单体苯乙烯的组成并进行聚类分析[17]。
另外,PCA方法曾被用来光谱定量形状相同而振幅不同的单个共振峰。
STOYANAVA等将此方法延伸,评估了所有的谱峰参数:
振幅、频率、相位和线宽,从而详细阐述了谱线形状的测定过程[18]。
相关的应用还包括PCA方法建模法解析电子顺磁共振波谱重叠峰,测定二组分、三组分含顺磁离子的顺磁化合物极性溶液[19];PCA方法解析液相色谱质子核磁共振光谱,在不同缩放比例下区分了3种二氢萘的同分异构体[20]。
在运用PCA方法解析核磁共振光谱时,样品矩阵的变化和仪器本身的不稳定性将导致样品的核磁共振光谱峰位和峰形均发生变化。
JENNY使用线性内插法和转换校正对其进行改进,以增强多变量模式的解释能力,并对2种校正方法作了比较[21]。
相干扰多组分不经分离的同时化学测定,已引起国内外分析工作者的重视。
PCA方法在滴定分析中应用的基本原理是将已知混合液测定数据中能代表多组分特性的有效信息,以主成分向量形式逐步提取出来,把代表测量误差的次要成分向量忽略,进而建立回归形式的数学模型,以测定试液中各组分浓度或含量。
应用主成分分析法,将电位滴定、数学计算法和计算机技术三者有机地结合在一起,用现代数学分离法代替繁琐的化学分离或掩蔽法,其突出优点是无需知道酸的电离常数,也无需对电极系统进行严格校正,只需准确测定几个pH点所消耗滴定剂的体积即可。
方法简单,易于操作,省时省力,节约药品,测定成本大大降低,是一种很有应用价值的分析方法。
张传宇用PCA方法研究了用电位滴定法直接同时测定磷酸和亚磷酸。
张大伦将PCA方法用于同时单点pH络合滴定,讨论了方法原理,指定了pH值的选择,建立了PCA方法常数矩阵,并用于测定EDTA络合物稳定常数相近的金属离子混合物的各组分浓度,获得满意结果;他还将PCA方法用于对极弱酸碱、多组分极弱碱混合试样的pH值滴定进行了研究,并将PCA用于pM滴定及单点R滴定马继平采用主成分回归法同时测定油品中的铁、钴、镍、钒的含量及油品的安定性。
(2)偏最小二乘法(PartialLeastSquares,PLS)是一种基于因子分析的多变量校正方法。
它同时将响应矩阵和浓度矩阵进行分解,提取主因子,具有很强的提供信息的能力,现己成为化学计量学中最受推崇的多变量校正方法之一。
PLS法不仅把吸光度矩阵A分解成得分矩阵T和载荷矩阵P,还把浓度矩阵C也分解成得分矩阵U和载荷矩阵Q:
Anxp=TnxdWdxm+Enxp
(1)
Cnxm=UnxdQdxm+Fnxm
(2)
其中E和F分别为A矩阵和C矩阵的残差矩阵。
对得分矩阵T和U作线性回归,用对角矩阵V关联:
Unxd=TnxdVdxd(3)
在用校正组求出W、Q和V矩阵后,对未知试样,可由下式求得各组分的浓度Cunk=Aunk(UTA)TVQ(4)
PLS法在构造校正模型时更充分地利用了A矩阵和C矩阵的信息,能降低噪音对校正模型的影响,是较完善的基于因子分析原理的校正方法。
乔晓艳等[22]对荧光光谱法测量农药残留得到的混合光谱进行分离,基于偏最小二乘法建立荧光光谱测量系统校正模型,并预测啶虫脒残留量。
选择20个特征波长,采用交互验证方法,以预测残差平方和为评价指标,确定最优主成份数,获得了最佳分析模型。
实验显示,采用偏最小二乘法结合荧光光谱测定啶虫脒农药残留,具有快速、无损、测量精度高等特点,并表明该方法用于定量分析复杂多组分体系是有效的。
王动民等[23]建立了四个棉成分的定量分析模型。
利用50个棉—涤混纺面料作为对象,自行设计采样装置,采集其近红外光谱,然后,经一阶、二阶导数,Savitzky-Golay滤波等方法预处理,结合偏最小二乘法,结果表明:
Savitzky-Golay滤波对定标结果几乎没有影响;经一阶导数预处理后的光谱数据结合偏最小二乘法建立的模型具有较高的分析精度,定标均方差和预测均方差分别达到了0.022、0.018,分析误差控制在±0.05以内。
Ali等[24]用偏最小二乘法辅助分光光度法对氯氰菊酯和胺菊酯同时测定,以校正光谱干扰产生的误差。
结果表明,经过正交信号校正的氯氰菊酯、胺菊酯的预测均方差是0.0884、0.0614,可信度很高。
Al-Degs等[25]运用固相萃取和多元校正的方法检测水库和水龙头中莠去津等三种毒性农药的含量。
在所有的多元校正的方法中PLS被证明是最有效的。
样品检出限为3,2和3µg/L。
线性范围莠去津、杀扑磷、残杀威分别是5~30,3~60和5~40µg/L。
RSD总低于5.0%。
回归分析是数理统计中常用的方法,一般根据最小二乘法确定回归方程中的系数。
其涉及到矩阵的求逆较为复杂,MATLAB中提供了丰富的回归函数。
其中regress()函数可用于多元线性回归、ployfit()函数可用于多项式回归、ridge()函数可用于岭回归、stepwise()函数可用于逐步回归分析、leasttsq()函数可用于非线性回归。
2.2模式识别
模式识别(patternrecognition)是借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。
模式识别的基本方法主要包括支持向量机和人工神经网络。
(1)支持向量机
支持向量机(supportvectormachine,简称SVM)是一种基于统计学习理论的新型机器学习算法[26].统计理论是一种专门研究小样本情况下机器学习规律得基本理论和数学框架,也是目前针对小样本统计和预测学习的最佳理论.它从理论上系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则.Vapnik等人从20世纪六七十年代开始致力于此方面的研究,到20世纪90年代中期,随着该理论的不断发展和成熟,产生了基于统计学习理论体系的新的通用的机器学习方法,即支持向量机[27].
支持向量机即是通过就是通过某种事先选择的非线性映射,将输入向量映射到一个高维特征空间,在这个空间构造最优分类超平面的实现过程。
SVM的关键在于核函数。
低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。
但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。
也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。
在SVM理论中,采用不同的核函数将导致不同的SVM算法。
在确定了核函数之后,由于确定核函数的已知数据也存在一定的误差,考虑到推广性问题,因此引入了松弛系数以及惩罚系数两个参变量来加以校正。
在确定了核函数基础上,再经过大量对比实验等将这两个系数取定,该项研究就基本完成,适合相关学科或业务内应用,且有一定能力的推广性。
当然误差是绝对的,不同学科、不同专业的要求不一。
(2)人工神经网络
人工神经网络(artificialneuralnetwork,ANN),亦称为神经网络(neuralnetwork,NN),是由大量处理单元(神经元)广泛互连而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特性.其中,神经元的数学模型、神经网络的连接方式以及神经网络的学习方式是决定神经网络信息处理性能的三大要素,对神经网络起至关重要的作用[28].
大量神经元组成庞大的神经网络,才能实现对复杂信息的处理与存储,并表现出各种优越的特性.神经网络的强大功能与其大规模并行互连、非线性处理以及互连结构的可塑性密切相关.因此必须按一定规则将神经元连接成神经网络,并使网络中各种神经元的连接权按一定规则变化.生物神经网络由数以亿记的生物神经元连接而成,而人工神经网络限于物理实现的困难和为了计算简便,是由相对少量的神经元按一定规律构成的网络.人工神经网络中神经元常称为节点或处理单元,每个节点均具有相同的结构,其动作在时间上同步.
神经元是生物神经系统的最基本单元,虽然其形状大小是多样的,但从功能结构角度而言,各个神经元是相似的.人工神经元模型是生物神经元的数学抽象与模拟,它从功能特性角度对生物神经元进行模拟,并形成人工神经网络的基本组成单位.人工神经元通常为多输入、单输出的非线性单元。
神经元模型有三个基本要素:
1)一组连接(对应于生物神经元的突触),连接强度由各连接上的权值表示,权值为正表示激活,为负表示抑制.2)一个求和单元,用于求取各输入信号的加权和(线性组合).3)一个非线性激活函数,起非线性映射作用并将神经元输出幅值限制在一定范围内(一般限制在(0,1)或(-1,1)之间)[29].人工神经网络的模型很多,目前应用较多的有:
Elman网络、RBF网络和BP网络.它们都可以很好地实现对多维非线性系统的映射功能,并且在实际工程中已得到广泛的应用[30].
BP网络是目前应用较广泛的人工神经网络之一,它可以以任意精度逼近任意的非线性函数.本文就非线性函数逼近能力方面,对BP网络和支持向量机网络的仿真结果进行比较,结果表明,支持向量机具有较强的逼近能力和较好的泛化能力.利用MATLAB工具箱中的newff函数和sim函数对采集到的样本进行训练和仿真。
2.3光谱分析方法
利用光谱学的原理和实验方法以确定物质的结构和化学成分的分析方法称为光谱分析法(spectrumanalysis)。
各种结构的物质都具有自己的特征光谱,光谱分析法就是利用特征光谱研究物质结构或测定化学成分的方法。
光谱分析法主要有原子发射光谱法、原子吸收光谱法、紫外-可见吸收光谱法、红外光谱法等。
根据电磁辐射的本质,光谱分析又可分为分子光谱和原子光谱。
[参考文献]
[1]王沫然.MATLAB610与科学计算[M].北京:
电子工业出版社,2001,1-6.
[2]李丽,王振领.MATLAB工程计算及应用[M].北京:
人民邮电出版社,2001,1-3.
[3]郝平娇,李士雨.浅谈MATLAB在化工计算中的应用[J].计算机与应用化学,2000,17(4):
371-374.
[4]HANSG,FRANKD.Multivariantdataanalysisforpatternrecognitionin2-dimensionalNMR[J].JournalofMagneticResonance,1988,77:
294-307.
[5]EDLUNDU,HANSG.Chemometrisinpharmaceuticalandbiomedicalanalysis[J].JournalofPharmaceuticalandBiomedicalAnalysis,1991,(9):
655-658.
[6]NIKOLAT,FELICIAND.Usingwaveletde-noisedspectrainNMRscreening[J].JournalofMagneticResonance,2005,173:
280-287.
[7]BROWNTR.NMRspectralquantizationbyprincipalcomponentanalysis:
Determinationoffrequencyandphaseshifts[J].JournalofMagneticResonance,1996,112(SeriesB):
32-43.
[8]HUFFELSV.Automaticfrequencyalignmentandquantizationofsingleresonancesinmultiplemagneticresonancespectraviacomplexprincipalcomponentanalysis[J].JournalofMagneticResonance,2002,158:
1-14.
[9]STOYANOVAR.CommunicationsapplicationofprincipalcomponentanalysisforNMRspectralquantization[J].JournalofMagneticResonance,1995,115(SeriesA):
265-269.
[10]ELLIOTTMA.Spectralquantizationbyprincipalcomponentanalysisusingcomplexsingularvaluedecomposition[J].MagneticResonanceinMedicine,1999,41:
450-455.
[11]WITJESH.Automaticcorrectionforphaseshifts,frequencyshiftsandlineshapedistortionsacrossaseriesofsingleresonancelinesinlargespectraldatasets[J].JournalofMagneticResonance,2000,144:
35-44.
[12]WITJESH.Modelingphaseshifts,peakshiftsandpeakwidthvariationsinspectraldatasets:
Itsvalueinmultivarietiesdataanalysis[J].AnalyticaChimicaActa,2001,432:
113-124.
[13]STOYANOVAR.NMRspectralquantizationbyprincipalcomponentanalysis:
Ageneralizedprocedurefordeterminationoflineshapevariations[J].JournalofMagneticResonance,2002,154:
163-175.
[14]曾卫明,梁晓云,罗立民.基于复数主成分分析的磁共振波谱信号衰减系数的自动校正[J].电路与系统学报,2004,9
(2):
84-87.
[15]TASICL,RITTNERR.Principalcomponentanalysisinstudiesofsubsistent-inducedcrabon-13chemicalshiftsofhalogenatedaliphaticcompounds[J].JournalofMolecularStructure,2002,616:
49-54.
[16]TASICL,RITTNERR.Principalcomponentanalysisinstudiesofsubsistent-inducedcarbon-13chemicalshiftsofhalogenatedaliphaticcompounds:
Theohem[J].JournalofMolecularStructure,2004,681(26):
47-49.
[17]NEILGW,JAMESKH,PETERLR.Useof13Cnuclearmagneticresonancespectroscopyandprincipalcomponentanalysisforautomatedanalysisofstyrene/butadienecopolymers[J].AppliedSpectroscopy,1997,51(6):
889-897.
[18]STOYANAVAR,BROWNR.NMRspectralquantitationbyprincipalcomponentanalysis[J].JournalofMagneticResonance,2002,154:
163-175.
[19]OLIVERS,BETTINAN.ADemonstationofprincipalcomponentanalysisforEPRspectroscopy:
Identifyingpurecomponentspectrafromcomplexspectra[J].AnalChem,1997,69(18):
3708-3713.
[20]CHRISTIANYA,HAILINS,RICHARDGB.Principalcomponentanalysisinliquidchromatographyprotonnuclearmagneticresonance:
Differentiationofthreeregion-isomers[J].AnalyticalChemicalActa,2001,447:
199-210.
[21]JENNYF.AcomparisonofmethodsforalignmentofNMRpeaksinthecontextofclusteranalysis[J].JournalofPharmaceuticalandBiomedicalAnalysis,2005,38:
824-832.
[22]乔晓艳,王艳景,李刚.偏最小二乘法荧光光谱预测啶虫脒农药残留.光学精密工程,2010,18(11):
2369~2374.
[23]王动民,金尚忠,陈华才,陈星旦.棉—涤混纺面料中棉含量的近红外光谱分析.光学精密工程,2008,16(11):
2051~2054.
[24]AliNiazi,MohammadGoodarzi.Orthogonalsignalcorrection-partialleastsquaresmethod