基于判定区间伸缩因子的决策融合算法研究Word文档下载推荐.docx-资源下载

基于判定区间伸缩因子的决策融合算法研究Word文档下载推荐.docx

1、中图分类号：TP312 文献标识码：A 文章编号：1672-7800（2016）004-0059-04 0引言中国是茶树的源产地，是世界上最早种植和加工茶叶的国家，茶叶是世界上消费量最大的三大软饮料之一。随着社会进步和人们生活水平的提高，消费者对茶叶品质的要求也越来越高。我国现行茶叶品质标准中，关于茶叶的感官品质都采用定性语言描述，消费者难以理解和应用，致使标准在交易定价中很难发挥作用，造成实施标准的缺失。普通消费者在购买茶叶时往往难辨良莠，听任一些不良茶商的信口胡言，以次充好，收购人员随意开价，致使茶叶加工厂或茶农的利益受损，长此以往也会抑制消费者需求1。因此，急需建立一种科学、量化、便捷

2、的茶叶鉴别方法。对茶叶进行分类鉴别的传统方法主要是感官评定法和化学方法。感官评定的结果易受人为因素和外界环境的干扰，评定结果存在较大的客观性；化学方法是通过茶叶物理、化学要素的测定，采用较简易的数据处理方法对所获得的测定数据进行分析，寻求内在规律，并以此来评定茶叶的品质。但此类方法耗时费力，推广难度大。近红外光谱（NIRS）分析具有快速、成本低以及结果重现性好等优点2，是一种无损检测方法。研究表明，利用数学手段和计算机技术有效地提取近红外光谱的微弱信息，使得近红外光谱技术成为一种极具发展前途的技术，其已在石油化工、烟草、水果等领域中得到了应用，产生了一定的经济效益3-6。在近红外光谱分析中，目

3、前对茶叶进行识别分类的常用建模方法有偏最小二乘法（PLS）、K最近邻分类算法（KNN）、聚类方法（K-means）、线性判别分析（LDA）、簇类独立软模式法（SIMCA）、支持向量机（SVM）和人工神经网络法等。周健7等以近红外光谱分析技术为基础，采用PLS、欧氏距离等方法的组合来实现茶叶特殊原料品种鉴别，对4种不同品种茶叶样本的原料品种进行识别，训练集样本的准确率为90.3%，预测集样本的准确率为83.5%。该研究为实现特殊品种茶叶鉴定以及成品茶的品种溯源提供了一种参考方法。陈全胜8等以碧螺春茶为研究对象，利用近红外光谱分析技术结合支持向量机模式识别原理建立碧螺春茶真伪鉴别模型，对训练集中的

4、138个茶叶样本进行识别，准确率为93.48%，对90个独立样本组成的预测集样本进行识别，准确率为84.44%，表明基于支持向量机的近红外光谱鉴别名优茶真伪的方法是可行的。赵杰文9等采用近红外光谱结合主成分马氏距离模式识别方法鉴别龙井、碧螺春、毛峰和铁观音4种中国名茶，模型对训练集样本和预测集样本的鉴别率分别达到了98.75%和95%。本研究利用近红外光谱技术，获得西湖龙井和普通龙井的近红外光谱数据，结合向后区间偏最小二乘法10和支持向量机建立识别模型进行决策融合，通过调节区间伸缩因子动态改变判定区间，对西湖龙井和普通龙井进行识别，弥补传统方法的缺陷，提高识别的准确性和效率，为西湖龙井茶叶的真

5、假鉴别提供了理论基础和依据，对推动茶叶市场规范化具有重要意义。1材料与方法 1.1实验材料本实验采用的所有样本均按照龙井茶加工工艺生产，包括杭州地区的西湖龙井样本57份、在超市购买的其它普通龙井样本53份。采用SPXY方法11将样本分为两部分，即抽取部分西湖龙井样本和普通龙井样本组成训练集用于建立识别模型，其中西湖龙井样本40份，普通龙井样本32份。剩下的样本组成预测集作为未知样本对识别模型进行验证。因此，样本集分为包含72个样本的训练集和包含38个样本的预测集。1.2样品处理在进行近红外光谱的采集前，所有样品均经过粉碎处理。称取20g左右的茶叶样品放入粉碎机粉碎约30s，然后经过筛子筛选

6、后，准确称取10g作为近红外光谱的分析样品。1.3近红外光谱采集样品的近红外光谱采集实验仪器采用美国PerkinElmer公司生产的红外光谱仪，实验所设置的光谱范围为73005500cm-1，扫描32次，分辨率2cm-1，波数间隔为0.5cm-1。采用光谱仪的随机软件SpectrumVersion10.4.1采集光谱数据，实验室内温度保持在25左右，湿度保持基本不变（低于60%）。每个样本平行采集3次，取其平均光谱作为该样本的原始光谱。为保证测量环境和人工操作的一致性，测量过程中每隔10个样品进行一次背景扫描以消除漂移。原始光谱如图1所示。1.4光谱处理考虑不同光谱预处理方法对模型性能的影

7、响，本文应用原始光谱（RAW）、多元散射校正（MSC）、标准正态变量变换（SNV）、SNV+去趋势方法（DT）、Savitzky-Golay卷积平滑（S-G）、移动窗口平滑（SW）、一阶（1-Dr）及二阶（2-Dr）求导等方法对光谱作预处理，使用SVM建立龙井分类模型，选择径向基函数12（RBF，RadialBasisFunction）作为核函数，其识别结果如表1所示。由此可见，SVM结合二阶求导预处理建立分类模型效果较好，训练集的准确率为97.2%，预测集的准确率为97.4%。图2为原始光谱经过二阶求导处理后的光谱图，可以看出，处理后的光谱消除了背景干扰，吸收峰增多并且更加明显，更有利于光谱

8、分析。本文后续实验均以二阶求导预处理后的光谱数据为基础。 1.5BiPLS方法本文使用的向后区间偏最小二乘法（BiPLS）是文献13中所描述的一种研究算法，该算法是对LarsNrgaard于2000年提出的一种波长筛选法的改进和发展10。算法流程如下：将整个光谱区域划分为k个等宽的波段；依次去除一段，在剩余的（k-1）段上进行偏最小二乘回归建模，得到k个局部回归模型；以交互验证均方根误差RMSECV值衡量各模型精度，取精度最高的局部模型所去除的波段为第一去除波段，并取该局部模型为第一个子模型；在余下的（k-1）个波段中依次去除一段，用剩余的（k-2）段进行PLS建模，得到（k-1）个局部模型

9、，取RMSECV值最低的局部模型所对应的去除段为第二去除波段，并取该局部模型为第二个子模型。重复上述过程，直至剩余一个波段；考察第-步中每个子模型的RMSECV值，在所有子模型中选出性能最佳者（RMSECV最小），其所对应的区间组合即为最佳组合。1.6支持向量机（SVM）支持向量机（SupportVectorMachine，SVM）是由Vapnik等提出的一种基于统计学习理论和结构风险最小化原则的机器学习技术14-15。SVM是一种新的模式识别方法，它兼顾训练误差和泛化能力，在解决小样本、非线性、高维数、局部极小值等模式识别问题中表现出许多特有优势16-17。其目的是寻找一个最优的分类超平面

10、，对于线性可分问题，此分类超平面不但能够将所有训练样本正确分类，而且能使训练样本中离分界面最近的点到分界面的距离（分类间隔）最大。对于一般的线性分类，设训练集为T=（x1，y1），（x2，y2），（xn，yn）（RdY）n，其中xiRd，yiY=1，-1，i=1，2，n，则最优分类超平面可以通过求解一个优化问题得到。对于非线性分类问题，SVM通过一个非线性映射将输入空间变换到一个高维的特征空间中，来求取最优分类超平面。引入核函数K（x，x）=（x）?（x）代替的内积运算，常用的核函数主要有多项式核函数、Gauss径向基核函数、B-样条核函数等。由此得到的分类函数为：f（x）=sgnni=1yi

11、iK（xi，x）+b其中，i0为拉格朗日乘子，i不为零对应的训练样本称为支持向量。1.7基于区间伸缩因子的决策融合为了避免只采用单一分类器分类存在的片面性和分类精度不高的问题，本文添加BiPLS建立的分类模型，对分类结果进行决策融合。在二分类情况下，判定区间的划分通常以0为分界点，判定结果的误差较大，而判定区间的划分不合理是主要原因之一。在此背景下本文提出了判定区间伸缩因子（-11），对结果判定区间进行调节，即对判定区间的分界点进行调节，找到最优的分类区间。其主要步骤如下：（1）初始化判定区间。即=0，此时判定区间以0为分界点，分为（-b，0）和（0，b），b为区间上界，即对于样本矩阵X，其

12、中的某一个样本x的判定值y，则：y（-b，0），x类Iy（0，b），x类II （2）将SVM和BiPLS分别使用同一训练集样本进行训练，分别建立分类模型f（x）和（x），其中x为样本矩阵。（3）用上述建立的分类模型对训练集分别进行验证，得到两个分类模型的准确率分别为a1、a2。（4）将上述得到的两个模型的识别率作为权值，进行归一化，即w1=a1a1+a2，w2=a2a1+a2，对验证的结果分别乘以权值后相加，则最终判别结果为：F（x）=w1f（x）+w2（x）；（5）调节，改变判定区间大小，如图3所示，当对训练集进行验证的准确率最优，此时的类别区间即为最优的类别区间，然后使用上述模型F（x）

13、对预测集进行预测验证，并使用上述的最优判定区间进行类别判定，则：2实验与分析本文分别使用支持向量机、向后区间偏最小二乘法、K最邻近分类算法（K-NearestNeighbor，KNN）、聚类方法（K-means）以及本文提出的基于区间伸缩因子的决策融合方法进行了实验和分析。向后区间偏最小二乘法（BiPLS）分别在分段数为3050段的建模结果如表2所示，从表中可以看出在分段为36段时，效果最好，训练集准确率为100%，预测集准确率为86.8%。因此后续实验选用36段作为分段数。表3是采用K最近邻分类算法对实验样本进行分类识别的实验结果。当K取不同值时，对实验样本进行分类的准确率不同。从表中可以

14、看出，当K=1或K=5时，分类的准确率为94.7%，分类效果最好。采用本文提出的决策融合方法进行建模，在不同大小伸缩因子（调节步长为0.05）下的实验结果如表4所示。由实验结果可以看出，当伸缩因子为0，即不进行分类区间伸缩时，训练集和预测集的准确率分别为97.2%和97.4%。当伸缩因子为0.25时，实验效果最好，训练集和预测集的准确率均为100%。该实验结果比分别使用SVM和BiPLS单独建模的准确率更高，说明本文提出的算法具有更好的性能。3结语本文通过比较不同的预处理算法，确定采用二阶导数预处理后的光谱作为支持向量机的输入，所得到的龙井近红外光谱模型最好；引入区间伸缩因子和决策融合方法，

15、能够较好地优化分类模型的性能，使得模型的泛化能力得到有效提升。本研究针对的是二分类问题，该方法可以推广应用到多分类问题的研究中。本文使用支持向量机集合向后区间偏最小二乘法建立了龙井近红外光谱分类模型并确定了适当的模型参数，所建立模型对西湖龙井和普通龙井的训练集识别准确率和预测集识别准确率均达到了100%。与常规模型相比，本研究中建立的近红外光谱分类模型的识别精度更高。由此表明，本文提出的方法能够将西湖龙井与普通龙井较好地区分开来，在龙井的近红外光谱分类中具有良好应用。参考文献参考文献：1刘秋彬，杨振福.中国茶叶市场现状与品牌化探索J.蚕桑茶叶讯，2013（6）：22-23. 2WILLIAMS

16、P，NORRISK.Near-infraredtechnologyintheagriculturalandfoodindustriesM.SecondEdition.Minnesota：BeverageandFoodWorld，2001. 3袁洪福，陆婉珍.现代光谱分析中常用的化学计量学方法J.现代科学仪器，1998（5）：6-9. 4袁洪福，陆婉珍.近红外光谱分析技术正在快速进入石油化工领域J.石油炼制与化工，1998（9）：49-52. 5雷松泽，姚红革.近红外光谱分析技术在水果品质无损检测上的应用J.光谱实验室，2009（4）：775-779. 6李豪豪，李威，赵世民，等.近红外光谱分析技术在烟草领域的研究进展及应用J.安徽农业科学，2014（29）：10318-10321. 7周健，成浩，曾建明，等.基于近红外的多相偏最小二乘模型组合分析实现茶叶原料品种鉴定与溯源的研究J.光谱学与光谱分析，2010（10）：2650-2653. 8陈全胜，赵杰文，张海东，等.基于支持向量机的近红外光谱鉴别茶叶的真伪J.光学学报，2006（6）：933-937. 9赵杰文，陈全胜，张海东，等.近红外光谱分析技术在茶叶鉴别中的应用研究J.光谱学与光谱分析，2006（9）：1601-1604.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？