集成学习(图像处理).ppt

资源描述

集成学习(图像处理).ppt

《集成学习(图像处理).ppt》由会员分享，可在线阅读，更多相关《集成学习(图像处理).ppt（60页珍藏版）》请在冰豆网上搜索。

集成学习(图像处理).ppt

集成学习,张士杰,集成学习简介弱可学习定理集成学习系统的构建算法简介：

Ada-Boosting&Bagging集成核匹配追踪学习机谱聚类集成,内容提要,集成学习简介,泛化：

generalization泛化能力（generalizationability）表征了学习系统对新事件的适用性泛化能力越强，处理新数据的能力越好泛化能力是机器学习关注的基本问题之一提高泛化能力是永远的追求,泛化能力,由于集成学习技术可以有效地提高学习系统的泛化能力，因此它成为国际机器学习界的研究热点，并被国际权威T.G.Dietterich称为当前机器学习四大研究方向之首T.G.Dietterich,AIMag97,集成学习的重要性,问题：

对20维超立方体空间中的区域分类左图中纵轴为错误率从上到下的四条线分别表示：

平均神经网络错误率最好神经网络错误率两种神经网络集成的错误率令人惊奇的是，集成的错误率比最好的个体还低,L.K.Hansen&P.Salamon,TPAMI90,三个臭皮匠赛过诸葛亮,集成学习（EnsembleLearning）是一种机器学习范式，它使用多个（通常是同质的）学习器来解决同一个问题,集成学习,集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时，称为“决策树集成”当个体学习器均为神经网络时，称为“神经网络集成”,集成学习的用处,集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用,只要能用到机器学习的地方，就能用到集成学习,神经科学基础,Ensemble（集群）一词，正是沿用了Hebb在神经科学中的术语。

Hebb倡导的多细胞集群学说，主张视觉客体是由相互关联的神经元集群来表象，并称其为集群。

待检样本,个体学习器,合并决策,数学描述,“基展开”与一般的基展开不同的是，这里的f（x）是“弱学习器”，F（x）是将它们按一定方式叠加的最终结果。

体现了“投票”的思想。

集成学习理论基础,弱可学习定理,定理：

一个概念是弱可学习的，当且仅当它是强可学习的。

1990年，Schapire在PAC（ProbablyApproximatelyCorrect,概率近似正确）学习框架下证明了这一重要定理，由此奠定了集群机器学习的理论基础。

弱可学习定理,PAC学习理论,由某个确定但未知的任意分布随机抽取样本，学习器通过这些样本来学习一个概念，其任务是学到一个假设或预言规则使得它和这个概念相一致。

这一假设不需要绝对正确，其错误率足够低（小于）只要以一定的概率

（1）成立即可。

同时要求学习算法是（关于1/，1/）多项式时间的。

Valiant，Atheoryoflearnability，1984,PAC学习理论,1994年，Kearns和Valiant在PAC学习基础上，进一步将PAC区分为强可学习与弱可学习。

所谓强可学习就是，如果存在一个多项式复杂性的学习算法来识别一组概念，并且识别错误率以概率1小于一个很小的常数，那么这组概念是强可学习的。

如果存在一个多项式复杂性的学习算法识别一组概念的正确率仅比随机猜测略好，那么这组概念是弱可学习的。

Boosting?

是否可以将弱学习算法“提升”（boosting）成强学习算法？

如果回答是肯定的，那么在学习概念时，只要找到比随机猜测略好的弱学习算法，就可以将其提升为强学习算法，而不必直接去寻找通常情况下很难获得的强学习算法。

-Kearns和Valiant弱学习算法与强学习算法的等价性猜想Schapire通过一个构造性方法对该猜想作出了肯定的证明。

证明思路,1，如何构造弱分类器；2，证明PAC的两个条件：

证明这样组合的弱分类器与强分类器一样，在概率1下，其错误率小于；证明构造过程的计算复杂性是多项式的。

证明思路,构造弱分类器：

（Y1,1；令D是原始样本集合）从D中选择子集D1，根据D1训练第一个分类器h1，只需其是一个弱分类器。

选择样本集合D2，使得其中有一半被h1错分，根据D2训练新的分类器h2。

选择样本集合D3，使得h1和h2对其中所有的样本分类不一致，根据D3训练分类器h3。

对新样本的分类结果由h1、h2和h3按多数表决h来决定。

学习算法,Learn（,EX）if（）returnWeakLearn（EX）=g-1（）h1=Learn（,/k,EX1=EX）h2=Learn（,/k,EX2）h3=Learn（,/k,EX3）returnh=sign（h1+h2+h3）,g（x）=3x22x3,学习算法,Learn（,EX）if（）returnWeakLearn（EX）=g-1（）h1=Learn（,/k,EX1=EX）h2=Learn（,/k,EX2）h3=Learn（,/k,EX3）returnh=sign（h1+h2+h3）,flipcoinifheadsreturnthefirstinstancevfromEXwhereh1（v）=c（v）elsereturnthefirstinstancevfromEXwhereh1（v）c（v）,学习算法,Learn（,EX）if（）returnWeakLearn（EX）=g-1（）h1=Learn（,/k,EX1=EX）h2=Learn（,/k,EX2）h3=Learn（,/k,EX3）returnh=sign（h1+h2+h3）,returnthefirstinstancevfromEXwhereh1（v）h2（v）,证明思路,如果这样得到的h的错误率比原来的弱分类器都低，则递归地使用这一过程可得到任意低的错误率。

h,h1,h2,h3,h11,h12,h13,Weak1,Weak2,Weak3,证明思路,根据三个分布D1、D2、D3的关系，可以证明：

如果h1,h2,h3在任意分布上的错误率小于等于1/2，则h=sign（h1+h2+h3）在任意分布上的错误率小于等于g（）3223。

由此，经过有限次递归，便得到任意给定精度的分类器。

证明思路,在上述构造过程中，弱分类器的误差置信度都是1/k，因此，最终分类器的置信度满足（1/k）k1。

由于算法每次递归时的性能增益与弱学习算法的最大错误率呈现多项式关系，可以证明递归层数是多项式复杂性的，由此证明了构造过程是多项式复杂性。

弱可学习定理,这个定理说明：

多个弱分类器可以集成为一个强分类器。

为集群机器学习奠定了理论基础，同时定理中给出了构造弱分类器的重要方法启示：

打破已有分类器在样本分布上的优势，重新采样使后面的分类器更多地关注难学习的样本。

集成学习系统的构建,集成学习系统的构建,WhatMakesaGoodEnsemble?

KroghandVedelsby,1995Canshowthattheaccuracyofanensembleismathematicallyrelated:

Effectiveensembleshaveaccurateanddiversecomponents,既然多个个体的集成比单个个体更好，那么是不是个体越多越好?

更多的个体意味着：

在预测时需要更大的计算开销，因为要计算更多的个体预测更大的存储开销，因为有更多的个体需要保存,个体的增加将使得个体间的差异越来越难以获得,个体越多越好吗？

ManyCouldbeBetterThanAll：

在有一组个体学习器可用时，从中选择一部分进行集成，可能比用所有个体学习器进行集成更好,Krogh等人通过研究发现，一个有效的集成系统不仅应该包含一组精度较高的分类器，而且这些分类器的差异要尽可能的大。

一个理想的集成系统包含一组精确的且尽可能不同的分类器而且分类器的数目也不是越多越好,集成学习系统的构建,结论,集成学习系统的构建,基于不同训练数据集的构造基于相同训练集采取不同重抽样技术，如Bagging，Boosting算法等将给定的学习对象分成若干个组基于不同特征集的构造如随机子空间法、特征选择、随机投影等基于不同性质的学习机器或分类器的构造如线性判别分类器、二次判别分类器以及符号逻辑分类器的集成（Kuncheva等人）基于相同学习机器的不同学习参数的构造，如SVM中核参数，K均值聚类的初始条件等其他方法，如综合采用多种构造方式,集成学习系统的构建,集成方法的系统结构并行结构，每个学习机都是独立构造的如Bagging算法序列结构，每个学习的构造都是前向依赖Boosting及CWP系统等树状结构，同层并行，不同层间序列结构扩展的Boosting系统,集成学习系统的构建,集成学习算法中的合并方法投票法平均法加权平均法其他方法,集成学习系统的构建,算法简介Ada-Boosting&Bagging,Boosting,Significantadvantageous:

SolidtheoreticalfoundationVeryaccuratepredictionVerysimple（“just10linesofcode”R.Schapire）WideandsuccessfulapplicationsOftendoesnotoverfit,R.SchapireandY.Freundwonthe2003GodelPrize（oneofthemostprestigiousawardsintheoreticalcomputerscience）Prizewinningpaper（whichintroducedAdaBoost）:

Adecisiontheoreticgeneralizationofon-linelearningandanapplicationtoBoosting,“JournalofComputerandSystemSciences,1997,55:

119-139.,HowwasAdaBoostborn?

（cont）,InR.SchapiresMLJ90paper,Robsaid“yes”andgaveaprooftothequestion.Theproofisaconstruction,whichisthefirstBoostingalgorithmThen,inY.FreundsPhdthesis（1993）,YoavgaveaschemeofcombiningweaklearnerbymajorityvotingBut,thesealgorithmsarenotverypracticalLater,atAT&TBellLabs,theypublishedthe1997paper（infacttheworkwasdonein1995）,whichproposedtheAdaBoostalgorithm,apracticalalgorithm,TheAdaBoostAlgorithm,FromR.Schapire,NE&C03,typicallywhere,AnEasyFlow,Dataset1,Dataset2,DatasetT,Learner1,Learner2,LearnerT,Originaltrainingset,TheoreticalProperties,Y.FreundandR.SchapireJCSS97haveprovedthatthetrainingerrorofAdaBoostisboundedby:

where,Bagging,IntroducedbyBreiman（1996,BaggingPredictor）“Bagging”standsfor“bootstrapaggregating”.其思想是对训练集有放回地抽取

展开阅读全文