用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx

上传人:b****2 文档编号:14056347 上传时间:2022-10-17 格式:DOCX 页数:14 大小:472.64KB
下载 相关 举报
用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx_第1页
第1页 / 共14页
用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx_第2页
第2页 / 共14页
用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx_第3页
第3页 / 共14页
用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx_第4页
第4页 / 共14页
用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx_第5页
第5页 / 共14页
点击查看更多>>
下载资源
资源描述

用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx

《用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。

用模拟退火方法研究支持向量机的参数决定Word格式文档下载.docx

本研究提出了一种用于支持向量机中确定参数和特征选择的模拟退火方法,命名为SA-SVM。

为了衡量所提的SA–SVM方法,从UCI机器学习库中选用了一些数据集,用于计算分类准确率。

将所提方法与用于参数设置的传统格搜索方法及其他多种方法进行了比较。

实验结果表明,所提方法的分类准确率超过了格搜索方法和其他方法。

因此,SA-SVM在支持向量机的参数测定和特征选择中很有用。

关键词:

支持向量机;

模拟退火;

参数测定;

特征选择

1引言

对分类问题已经有了广泛研究。

对于一个给定的模型参数值的选择,像数据不完整等众多因素可能会影响分类的成果。

以前的分类问题通常是用统计方法,如物流,回归或判别分析等来处理。

技术进步导致了解决分类问题的新技术,包括决策树,BP神经网络,粗糙集理论和支持向量机(SVM)的产生。

支持向量机是首先被Vapnik[1]开发的一个新兴的数据分类技术,并已在最近的分类问题[2-9]广泛的应用于各个领域。

在支持向量机中,采用抽样成本在训练阶段产生分类模式。

然后,分类是基于训练模式的基础上完成的。

在建立支持向量机模型中最大的困难是选择核函数及其参数值。

如果参数值设置的不合适,那么分类的结果将不是最优的[10]。

利用分化与整合,低收入和高通过率和数据库的光谱数据,对原始数据及预处理的数据进行分类,得到轴承条件。

在复杂的分类领域,某些功能可能含有虚假相关性,它们阻碍数据的处理。

此外,一些功能可能是多余的,因为他们补充的信息包含在其他功能里。

冗余功能会延长计算时间,影响分类精度。

因此,在分类过程中必须用最少的功能且快速,准确,这时通过使用特征选择实现目标。

特征选择已用于提高分类性能,并减少数据噪声[11-13]。

如果没有特征选择而采用支持向量机,那么输入的空间维数大,且数据不干净,就会降低支持向量机的功能。

因此,需要一个支持向量机拥有高效,稳定的特征选择方法,它忽略嘈杂的,不相关和冗余数据,同时仍保留判别数据的权力。

特征提取采用原始数据,以在支持向量机分类器中输入。

本研究整合了模拟退火(SA)为基础支持向量机的方式来确定最优的分类结果,被称为模拟退火-支持向量机(SA-SVM),以上提出的的SA-SVM方法不仅仅可以得到更好的SVM参数值,也找到了特定问题的功能子集,从而最大限度地提高了SVM分类准确率。

这使两个分离的最优超平面既可采用线性,又可采用非线性分类。

本文的其余部分组织如下:

第二部分回顾关于支持向量机和特征选择的相关文献,第三部分对以上提出的模拟退火-支持向量机(SA-SVM)进行介绍,旨在改进有或者无特征选择的支持向量机参数。

第四部分是对该实验方法与现存的其他方法的结果进行的比较。

最后在第五部分得出结论,以及给出未来研究的建议。

2文献综述

2.1支持向量机

支持向量机可简述如下[14-16]。

设表示的训练数据集,其中X表示从该模式设置一些非空变量,表示目标变量。

支持向量机视图在一个多维空间找出一个超平面,这个超平面的功能是作为数据分类的一个分离平面。

考虑到超平面在某些点产生的空间H下,参数w和b被描述如下:

,where

(1)

如果一个超平面满足等式

(1),那么就可以得到线性分离。

这种情况下w和b就满足以下条件:

(2)

让点到超平面的距离是。

在分离超平面中包括一个最优分类超平面(OSH),在两边的支持向量点中它拥有最大的距离。

因为两个支持向量点的距离为,而距离以上超平面的最小距离可以从等式

(2)中求得。

超平面的边距可以理解为这个超平面的推广功能,这个超平面拥有在所有分离的超平面中最大的边距。

可以通过等式

(2)和拉格朗日多项式得到其最小值。

我们记,结合拉格朗日多项式和等式

(2)得到以下最大化的等式:

(3)

其中且对于所有的都成立,并有(4)

二次规划可用来解决这个最大化问题。

给定一个方程满足最大化方程(3),则超平面中可以写成以下形式:

其中支持向量点必须满足等式

(2)和。

当考虑到在约束等式(4)中的扩张,超平面的函数式可以写成如下:

(6)

大部分情况下,数据是不可线性分离的,因此被映射到更高维的特征空间中。

这就意味着如果数据不能在现有的维数空间中被严格的分离,那么支持向量机就要把数据映射到更高维的空间中进行分离。

通过绘制一条非线性曲线,将输入数据映射到高维空间。

然后在特征空间中建立这个超平面。

特征空间向量是建立在核K评价输入模式的,其中。

核函数之所以可以被应用是因为所有的特征向量仅仅产生于点产品中。

权重向量,成为功能空间的一个扩展,因此不再单独对应一个输入空间向量。

这个决定函数描述如下:

(7)

这个二次规划方程为:

(8)

其中且对于所有的都成立,并有(9)

在寻找最优方法中,几个核函数帮助了支持向量。

最常用的函数是多项式核,径向基核和基础放射核(RBF)[17–19]。

一般情况下,RBF最常用,因此它可以分类多维数据,而不像线性核函数那样。

此外,RBF比多项式核有更少的参数。

总体来说,RBF与其他核函数没有明显区别,因此,对于核函数,RBF是一个很好的选择。

所以,本研究是在支持向量机中采用径向基函数寻求最优解。

适应于径向基支持向量的两个参数C和必须设置合理,参数C是惩罚因子,该参数C的值影响分类结果。

如果C过大,则在训练阶段的分类准确率非常高,而在试验阶段的分类准确率则很低;

如果C过小,那么分类的准确率很低,使得模型没有用处。

相比参数C参数在分类结果上有更大的影响力,因为它的值影响在特征空间划分结果。

对于参数过多的值将会导致过度拟合,而不成比例的小值又会使得拟合结果偏小[20]。

网络搜索[13,21]是确定参数C和的最简单方法。

在搜索中通过对参数C和参数设置上限和下限,或是跳跃间隔都可以使得搜索的准确率达到很高。

然而,这种搜索只是本地搜索,很有可能产生一个局部最优。

此外,如何设置搜索间隔也是一个问题。

太大的搜索间隔会浪费计算能力,太小的搜索间隔可能得不到满意的结果。

为获得最佳的方法,在支持向量机中的参数目前还在研究之中。

除了普遍采用的网络搜索技术,其他的应用在支持向量机中的用于选择一个合适的参数的方法也在进一步提高被改进的可能性。

这种F-评分方法采用Ⅰ型和Ⅱ型的误差概念统计方法以及随机森林(RF)[22]。

PaiandHong[23]提出了一种结合遗传算法(GA)和支持向量机的方法,他们的模型模仿他们的染色体编码遗传算法产生的参数值设置为支持向量机。

PaiandHong[24,25]还提出了一个遗传算法用来得到支持向量机,并将其应用到了实际的数据。

然而他们的做法并不具有地址选择功能,因此可能会排除最好的结果。

2.2特征选择

支持向量机的分类准确率不仅仅由参数C和参数决定,其他的因素包括特征数据集的质量也会有影响。

例如,特征之间的相关性影响分类的结果;

意外的重要特征的消除可能影响分类的准确率。

此外,一些数据集的某些特征可能一点影响也没有,或者包含一个高级别的噪音。

祛除这些功能可能提高搜索的准确率。

特征选择方法可分为过滤器模型和包装模型[26],筛选模型[26]在调查其他间接表现的措施上利用统计技术,如主成分分析(PCA),因子分析(FA),独立成分分析(ICA)和判别分析(DA)等,这些技术大部分是基于距离和信息的措施。

ChenandHsieh[27]提出了潜在语义分析(LSA)和网页特征选择(WPFA),这是与支持向量机技术相结合的屏幕特征。

Goldet[28]等人发明了贝叶斯支持向量分类器,它为了确定不相关功能的参数标准采用超参数值。

Chapelleet[29]等人研发了一种自动调整多个参数,并应用到主成分获得支持向量机的功能。

支持向量机是应用在癌症基因选择分类中的一种特征选择方法,这是被Guyonet[30]等人称作的支持向量机特征消除(SVM-RFE)。

因此,他们提出了应用相关的方法来消除多余的功能,以提高支持向量机的特征消除RFE。

拟议的方法不仅减少了分类的数量,还保持了分类的精度。

尽管过滤模型的分类速度很快,但它可能不会产生最优特征子集[26]。

特征选择的最简单形式是包装模型,它按照表现的准确率进行分类。

一些研究者认为,如果最高的预测精度得到了最大限度的减少错误率和分类均衡的所有功能,包装模型最合适不过了。

分类器的最大目的是最大化的提高分类的准确性。

通过分类的特征应用选择最优的特征。

该包装模型通常使用元启发式办法帮助寻找最优特征子集。

虽然元启发式的方法是缓慢的,但是它能够找到附近最优的特征子集。

Neumaan[33]等人观察到特征选择是监督模式分类问题上的一个显著的组合优化问题。

并在不同的凸函数基础上提出了额外的正规化和嵌入式非线性选择方法,这是对于非凸不断优化问题的一个框架。

JackandNandi[34]andShon[35]在筛选数据集的特征中应用了遗传算法,这个选择数据集的特征被应用到了支持向量机中的分类测试。

Zhang[16]等人提出了一种基于遗传算法的方法来获得一个在支持向量机监测状态的有利子集。

然而,他们的方法没有解决支持向量机的参数设置问题,因此可能会排除最优的结果。

Samanta[36]等人研发了一种遗传算法用来改变支持向量机特征选择中的径向宽度基参数,不过,由于他们的方法只搜索支持向量机的径向基宽度,它也可能排除最佳参数的设定。

据我们所知,很少有人能够同时考虑到支持向量机中特征选择和最佳参数的设定。

3支持向量机-模拟退火方法

模拟退火算法(SA)是一个全局搜索算法,它首先是被Metropolis[37]等人提出的,稍后又被Kirkpatrick[38]等人推广。

模拟退火算法借助于最基本的冶金技术。

随着温度的逐渐减少,分子慢慢结晶成低能量状态。

只要金属能够加热到足够高的初始温度,而且它的冷却速度足够的慢,所有的晶粒就能够达到最低的温度。

由Metropolis[37]等人提出的模拟退火算法不仅能改善搜索的结果,而且能避免得到局部最优结果。

类似于金属的冷却,它的冷却过程使得模拟退火衔接搜索结果,进而达到最优解。

本研究提出的“隐藏和寻求-模拟退火”算法,首先是被Romeijn[39,40]等人研发的,主要用于搜寻支持向量

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1