卢阳的开题报告文档格式.docx
《卢阳的开题报告文档格式.docx》由会员分享,可在线阅读,更多相关《卢阳的开题报告文档格式.docx(8页珍藏版)》请在冰豆网上搜索。
针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病相关的重要基因。
特征选择中的搜索方法大致分为3种:
最优搜索方法,次优的搜索方法和启发式搜索方法。
其中启发式搜索时一个基于直观或者说经验构造的算法,可在指定的时间和空间下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度不一定事先可以预计。
启发式搜索包括遗传算法、蚁群算法和粒子群算法等。
遗传算法是由美国的J.Holland教授于1975年首先提出的,其主要特点是直接对结构对象进行操作,具有隐含的并行性和更好的全局优化能力,可自适应的调整搜索方向。
但是它在搜索最优子集是容易早熟而且运算较为复杂。
1992年MarcoDorigo在他的博士论文中提出了蚁群算法,其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。
其复杂性低于遗传算法并且涵括遗传算法的优点。
粒子群算法(ParticleSwarmOptimization,缩写为PSO)是1995年由Eberhart博士和Kennedy博士提出,源于对鸟群捕食的行为研究。
PSO算法中,每一个优化问题的解看做搜索空间中的一只鸟,即“粒子”。
每个粒子都在空间中运动,并且由运动速度决定其飞行方向和距离。
通常粒子将追随当前最优粒子在解空间中运动,在每一次运动中,粒子将跟踪两个“极值”来更新自己。
PSO算法与以上两种算法相通的优点是都具有鲁棒性、扩展性、充分分布性和优化过程无需依赖具体问题的数学特性。
并且在进化过程中同时记忆位置和速度信息,而遗传算法和蚁群算法通常只记忆位置信息。
其通信机制与上面两种算法有所不同。
遗传算法中染色体互相通过交叉等操作进行通信,蚁群算法中每只蚂蚁以蚁群全体构成的信息素轨迹作为通信机制,因此整个种群比较均匀的向最优区域移动。
在PSO算法中,只有全局最优粒子提供信息给其他的粒子,整个更新过程是跟随当前最优解的过程,因此所有的粒子更可能更快的收敛于最优解。
PSO算法最先被应用于函数优化领域,经研究发现其在解决一些复杂的约束优化和多目标优化问题时取得了良好的效果。
PSO是一种很有潜力的神经网络算法,如用于市区环境情况的分析和预测。
PSO同样可以应用于电力系统中的无功和电压控制等工程问题中。
此外,PSO算法还在电磁学、数据挖掘、博弈等很多领域取得了良好的效果,成为众多学者的研究热点。
基于特征选择在各个领域的应用取得的良好效果,以及目前科技发展在特征选择方面的迫切需求。
我们将研究基于粒子群优化算法的特征选择以获取较优的特征子集。
二、研究的基本内容,拟解决的主要问题
特征选择的基本任务是从含有大量特征的数据中选择很少的一部分与分类结果有关的特征,消冗余属性,降低问题规模。
一般特征选择算法必须确定搜索起点和方向、搜索策略、特征评估函数和停止标准4个要素。
在实际应用中,利用粒子群优化特征子集的关键在于编码和适应度函数的选择。
编码要根据问题的实质来确定,适应度函数则体现了实际问题和优化算法之间的联系。
1.本次毕业设计需要研究的基本内容
(1)大概了解模式识别的相关内容,重点掌握特征选择相关的知识。
特征选择的主要研究目的在于利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别的结果尽量于客观事物相符合。
图1为特征选择的流程图。
图1特征选择流程图
(2)学习掌握特征选择算法的两种模型,学会用他们解决实际问题
评价标准在特征选择过程中扮演着重要角色,它是特征选择的依据。
按特征选择评价策略划分,可将特征选择分为封装式(Wapper)和过滤式(Filter)。
在封装模式中,选择方法直接优化某一特定的预测器(算法),这可以是通过评价预测器对每一步选择的特征子集的泛化能力来实现的(例如通过交叉验证的方法),封装方法把特征选择看作所有可能的特征空间的搜索问题。
在过滤模式中,选择方法独立于归纳学习算法,作为数据挖掘中预处理部分预先完成特征子集选择,然后进行归纳学习,过滤方法是根据数据的普遍性做出独立估计。
(3)将粒子群优化和分类器结合搜索特征子集,在UCI数据库上验证。
UCI数据库是加州大学欧文分校(UniversityofCaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
其中有些数据可以用于评价学习算法。
本次毕业设计首先按一定的搜索策略搜索特征子集。
之后对特征子集的优劣进行评价并进行停止条件的判定。
2.拟解决的主要问题
特征选择不但要提高个体分类器的精度,而且要寻找使得个体分类器间差异度大的一组特征子集。
如何在集成学习中选择一组特征子集,提高个体分类器的精度并增强个体间差异性是我们应该用PSO算法解决的。
三、研究步骤、方法及措施
本次课程设计通过对特征选择和粒子群优化算法的研究,实现基于粒子群优化算法的特征选择方法,并在UCI学习数据库上进行验证。
因为特征选择算法可以分为封装式和过滤式两种模型。
我们将其进行分别研究,并分析其结果,加以比较分析。
1.粒子群算法的基本流程,框架。
如图
(2)
图
(2)粒子群算法流程图
粒子群算法可描述为:
设粒子群在一个n维空间中搜索,有m个粒子组成粒子群
,其中每个粒子的位置
都表示问题的一个解。
粒子通过不断调整自己的位置
来搜索新解。
每个粒子都记住自己搜索到的最好解,,记做
,以及整个粒子群经历过的最好的位置,及目前搜索到的最优解,记做
。
此外,每个粒子都有一个速度,记做
当两个最优解都找到后,每个粒子根据式
(1)来更新自己的速度,根据式
(2)来更新自己的位置。
(1)
(2)
其中,
表示第
个粒子在t+1次迭代中在第d维上的速度,
为惯性权重,
,
为加速常数,
为0~1之间的随机数。
此外,为使粒子速度不致过大,可设置速度上限
,即当式
(1)中
时,
;
2.基于粒子群算法实现的关键步骤
(1)确定目标函数
目标函数的确定很重要,首先它们反映了要解决的实际问题,通过将实际问题转化成数学模型得到目标函数;
其次,只有在目标函数确定过后才能确定个体的适应度并得到个体的优劣排序,然后进行相应的选择、淘汰操作。
特征选择的两个准则是:
最小化特征维数和最小化支持向量机分类器错误,即错分率最低。
因此这两个准则产生了两个目标函数。
这两个目标函数分别为:
代表特征维数的函数和衡量算法主要性能指标错分率的函数。
第一个函数很简单,计算起来容易。
第二个函数相对较难,错分率的衡量涉及到所用到的机器学习结果评估方法的采用。
(2)生成子集的评估和适应度的确定
评价标准是判断特征子集优劣的重要准则。
不同的评价标准可能会导致不同的“最优”子集。
在已有的特征选择方法中,根据不同的特征选择模式我们选择不同的评价标准。
当选择Filter式时,我将应用依赖性度量。
依赖性度量又称为相关性度量,利用统计学中的相关性概念。
统计学中的相关性刻画了两个变量之间的依赖程度。
Hall提出的Correlation评估给出了一种既考虑了特征和目标函数的相关度,也考虑特征之间相关度的特征子集评估标准。
其准则为:
好的特征子集含有的特征应该和目标函数有很高的相关度,但是和集合内其余特征不相关。
但出于计算量限制,只能考虑向量特征之间的相关度,更复杂的特征之间的相互作用则不考虑。
我们利用分类错误率作为Wapper式特征选择的度量准则。
很多学者推崇这种方法,他们的理由是经过了特征选择的数据集最终要用来设计一个分类器,不同的分类器的理论基础不同,会带来对特征的不同侧重,而Filter模型里的评价标准也许并不能真正反映出分类器对特征的这种不同侧重。
但是它也有一些缺点,比如通用性差、计算量大。
依赖性准则和分类错误率准则既是评估方法,也是确定个体适应度的方法。
适应度的确定是按目标函数值来的。
根据评估准则所得的分类精确度值越高,就越可能成为个体极值和全局极值。
(3)算法中重要参数的确定
参数选取对算法的性能和效率有很大的影响。
在粒子群算法中,粒子的移动方向由三部分决定:
自己原有的速度、与自己最佳经历距离、与群体最佳经历的距离,并由惯性权重
,速度调节参数
和
决定其相对重要性。
惯性权重
使粒子保持运动惯性,速度调节参数
,表示粒子的加速项权重。
如果
,则粒子速度没有记忆性,粒子群将收缩到全局最
图33种移动方向加权求和示意图
优位置,失去搜索最优解的能力。
,则粒子失去“认知”能力,只具有“社会”性,粒子群收缩速度会更快,但是容易陷入局部极值。
如果,
则粒子只具有“认知”能力,而不具有“社会”性,等价于多个粒子独自搜索,因此很难得到最优解。
一般情况下取
0~1之间的随机数,
分别取2。
3.进行停止条件的挑选和判断。
对特征子集评价完后要进行“停止条件”的判断,如果没有停止条件,搜索过程将一直进行下去。
通常的停止条件有:
(1)达到事先指定的特征数目;
(2)循环次数超过了预先给定的数值;
(3)增加或减少特征不能使子集的评价函数值有所提高;
(4)找到评价函数的最优解;
(5)评价函数数值超出了预先设定的阀值。
4.结果验证
验证通常用选定的特征子集对人工的实际的数据集进行训练和预测,将训练和预测的结果和没有进行特征选择的原始数据集上的结果进行比较,这种比较包括训练和预测所花费的时间,模型的复杂程度等。
四、研究工作进度
第1~3周收集资料,熟悉课题内容,查找参考书,确定设计思路
第4~7周DSP信号处理
第8~11周软硬件调试,结果分析
第12~14周编制设计文件,详细实验和结果分析
第15~17周论文书写,课题总结,准备答辩
五、主要参考文献
[1]杨淑莹,模式识别与只能计算——Matlab技术实现[M].北京:
电子工业出版社,2008:
18,337-340.
[2]纪震,廖惠连,吴青华。
粒子群算法及应用[M]。
北京科学出版社,2009.
[3]李昕.特征选择(FS)算法在生物信息学中的应用[J].生物医学工程学杂志,2011.
[4]王金甲.二次映射和遗传算法用于鉴别可视化特征提取[J]。
系统仿真学报,2009.
[5]倪霖,郑洪英.基于免疫粒子群算法的特征选择[J].计算机应用,1001-9081(2007)12-2922-03
[6]胡旺,李志蜀,一种更简化而高效的粒子群优化算法[J]。
软件学报,2007,18(4);
861-868
[7]郭文忠,陈国龙等。
基于粒子群优化算法和相关性分析的特征子集选择。
计算机科学。
2008Vol.35No.2
[8]姜百宁,机器学习中的特征选择算法的研究。
中国海洋大学,2009年6月1日
[9]王振晓,分类及设计中特征选择问题的研究,硕士论文,上海交通大学模式识别与智能系统,2003.
[10]RamiN.Khushaba.Featuresubsetselectionusingdifferentialevolutionandastatisticalrepairmechanism[J].ExpertSystemswithApplications,38(2011)11515–11526
[11]KemalPolat,SalihGunes,AhmetArslan。
Acasecadelearningsystemforclassificationofdiabetesdisease:
GeneralizedDiscriminantAnalysisandLeastSquareSupportVectorMachine[J].ExpertSystemswithApplications,34(2008)482-487
[12]LiuB.WangL,JinYH,etal.Improvedparticleswarmoptimizationcombinedwithchaos[J].Chaos,SolitonsandFractal,2005,25(5);
1261-1271
[13]YuLiu,ZhengQin.FeatureSelectionwithParticleSwarms[J].ComputationalandInformation
Science,2005,425-430
[14]MohdSaberMohamad,SigeruOmatu,SafaaiDeris.ParticleSwarmOptimizationForGeneSelectionInClassifyingCancerClasses[J].ArtifilialLifeAndRobotics.
[15]M.A.Esseghir,GillesGoncalvesAndYahyaSlimani.AdaptiveParticleSwarmOptimizerForFeatureSelection[J].IntelligentDataEnguneeringAndAutomatedLearning.2010,226-233.
6、指导教师意见
指导教师签字:
年月日
七、系级教学单位审核意见:
审查结果:
□通过□完善后通过□未通过
负责人签字: