集成学习(图像处理)PPT文档格式.ppt-资源下载

集成学习(图像处理)PPT文档格式.ppt

1、平均神经网络错误率最好神经网络错误率两种神经网络集成的错误率令人惊奇的是，集成的错误率比最好的个体还低,L.K.Hansen&P.Salamon,TPAMI90,三个臭皮匠赛过诸葛亮,集成学习（Ensemble Learning）是一种机器学习范式，它使用多个（通常是同质的）学习器来解决同一个问题,集成学习,集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时，称为“决策树集成”当个体学习器均为神经网络时，称为“神经网络集成”,集成学习的用处,集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用,只要能用到机器学习的地方

2、，就能用到集成学习,神经科学基础,Ensemble（集群）一词，正是沿用了Hebb在神经科学中的术语。Hebb倡导的多细胞集群学说，主张视觉客体是由相互关联的神经元集群来表象，并称其为集群。,待检样本,个体学习器,合并决策,数学描述,“基展开”与一般的基展开不同的是，这里的f（x）是“弱学习器”，F（x）是将它们按一定方式叠加的最终结果。体现了“投票”的思想。,集成学习理论基础,弱可学习定理,定理：一个概念是弱可学习的，当且仅当它是强可学习的。1990年，Schapire在PAC（Probably Approximately Correct,概率近似正确）学习框架下证明了这一重要定理，由此奠定

3、了集群机器学习的理论基础。,弱可学习定理,PAC学习理论,由某个确定但未知的任意分布随机抽取样本，学习器通过这些样本来学习一个概念，其任务是学到一个假设或预言规则使得它和这个概念相一致。这一假设不需要绝对正确，其错误率足够低（小于）只要以一定的概率（1）成立即可。同时要求学习算法是（关于1/，1/）多项式时间的。,Valiant，A theory of learnability，1984,PAC学习理论,1994年，Kearns和Valiant在PAC学习基础上，进一步将PAC区分为强可学习与弱可学习。所谓强可学习就是，如果存在一个多项式复杂性的学习算法来识别一组概念，并且识别错误率以概率1小

4、于一个很小的常数，那么这组概念是强可学习的。如果存在一个多项式复杂性的学习算法识别一组概念的正确率仅比随机猜测略好，那么这组概念是弱可学习的。,Boosting?,是否可以将弱学习算法“提升”（boosting）成强学习算法？如果回答是肯定的，那么在学习概念时，只要找到比随机猜测略好的弱学习算法，就可以将其提升为强学习算法，而不必直接去寻找通常情况下很难获得的强学习算法。-Kearns和Valiant 弱学习算法与强学习算法的等价性猜想Schapire通过一个构造性方法对该猜想作出了肯定的证明。,证明思路,1，如何构造弱分类器；2，证明PAC的两个条件：证明这样组合的弱分类器与强分类器一样，在

5、概率1下，其错误率小于；证明构造过程的计算复杂性是多项式的。,证明思路,构造弱分类器：（Y1,1；令D是原始样本集合）从D中选择子集D1，根据D1训练第一个分类器h1，只需其是一个弱分类器。选择样本集合D2，使得其中有一半被h1错分，根据D2训练新的分类器h2。选择样本集合D3，使得h1和h2对其中所有的样本分类不一致，根据D3训练分类器h3。对新样本的分类结果由h1、h2和h3按多数表决h来决定。,学习算法,Learn（,EX）if（）return WeakLearn（EX）=g-1（）h1=Learn（,/k,EX1=EX）h2=Learn（,/k,EX2）h3=Learn（,/k,EX3

6、）return h=sign（h1+h2+h3）,g（x）=3x2 2x3,学习算法,Learn（,EX）if（）return WeakLearn（EX）=g-1（）h1=Learn（,/k,EX1=EX）h2=Learn（,/k,EX2）h3=Learn（,/k,EX3）return h=sign（h1+h2+h3）,flip coin if heads return the first instance v from EX where h1（v）=c（v）else return the first instance v from EX where h1（v）c（v）,学习算法,Learn（

7、,EX）if（）return WeakLearn（EX）=g-1（）h1=Learn（,/k,EX1=EX）h2=Learn（,/k,EX2）h3=Learn（,/k,EX3）return h=sign（h1+h2+h3）,return the first instance v from EX where h1（v）h2（v）,证明思路,如果这样得到的h的错误率比原来的弱分类器都低，则递归地使用这一过程可得到任意低的错误率。,h,h1,h2,h3,h11,h12,h13,Weak1,Weak2,Weak3,证明思路,根据三个分布D1、D2、D3的关系，可以证明：如果h1,h2,h3在任意分布上

8、的错误率小于等于1/2，则h=sign（h1+h2+h3）在任意分布上的错误率小于等于g（）3223。由此，经过有限次递归，便得到任意给定精度的分类器。,证明思路,在上述构造过程中，弱分类器的误差置信度都是1/k，因此，最终分类器的置信度满足（1/k）k1。由于算法每次递归时的性能增益与弱学习算法的最大错误率呈现多项式关系，可以证明递归层数是多项式复杂性的，由此证明了构造过程是多项式复杂性。,弱可学习定理,这个定理说明：多个弱分类器可以集成为一个强分类器。为集群机器学习奠定了理论基础，同时定理中给出了构造弱分类器的重要方法启示：打破已有分类器在样本分布上的优势，重新采样使后面的分类器更多地关注

9、难学习的样本。,集成学习系统的构建,集成学习系统的构建,What Makes a Good Ensemble?,Krogh and Vedelsby,1995Can show that the accuracy of an ensemble is mathematically related:Effective ensembles have accurate and diverse components,既然多个个体的集成比单个个体更好，那么是不是个体越多越好?,更多的个体意味着：在预测时需要更大的计算开销，因为要计算更多的个体预测更大的存储开销，因为有更多的个体需要保存,个体的增加将使得个

10、体间的差异越来越难以获得,个体越多越好吗？,Many Could be Better Than All：在有一组个体学习器可用时，从中选择一部分进行集成，可能比用所有个体学习器进行集成更好,Krogh等人通过研究发现，一个有效的集成系统不仅应该包含一组精度较高的分类器，而且这些分类器的差异要尽可能的大。一个理想的集成系统包含一组精确的且尽可能不同的分类器而且分类器的数目也不是越多越好,集成学习系统的构建,结论,集成学习系统的构建,基于不同训练数据集的构造基于相同训练集采取不同重抽样技术，如Bagging，Boosting算法等将给定的学习对象分成若干个组基于不同特征集的构造如随机子空间法、特

11、征选择、随机投影等基于不同性质的学习机器或分类器的构造如线性判别分类器、二次判别分类器以及符号逻辑分类器的集成（Kuncheva等人）基于相同学习机器的不同学习参数的构造，如SVM中核参数，K均值聚类的初始条件等其他方法，如综合采用多种构造方式,集成学习系统的构建,集成方法的系统结构并行结构，每个学习机都是独立构造的如Bagging算法序列结构，每个学习的构造都是前向依赖Boosting及CWP系统等树状结构，同层并行，不同层间序列结构扩展的Boosting系统,集成学习系统的构建,集成学习算法中的合并方法投票法平均法加权平均法其他方法,集成学习系统的构建,算法简介Ada-Boosting&

12、Bagging,Boosting,Significant advantageous:Solid theoretical foundationVery accurate predictionVery simple（“just 10 lines of code”R.Schapire）Wide and successful applicationsOften does not overfit,R.Schapire and Y.Freund won the 2003 Godel Prize（one of the most prestigious awards in theoretical comput

13、er science）Prize winning paper（which introduced AdaBoost）:A decision theoretic generalization of on-line learning and an application to Boosting,“Journal of Computer and System Sciences,1997,55:119-139.,How was AdaBoost born?（cont）,In R.Schapires MLJ90 paper,Rob said“yes”and gave a proof to the ques

14、tion.The proof is a construction,which is the first Boosting algorithmThen,in Y.Freunds Phd thesis（1993）,Yoav gave a scheme of combining weak learner by majority voting But,these algorithms are not very practicalLater,at AT&T Bell Labs,they published the 1997 paper（in fact the work was done in 1995）

15、,which proposed the AdaBoost algorithm,a practical algorithm,The AdaBoost Algorithm,From R.Schapire,NE&C03,typicallywhere,An Easy Flow,Data set 1,Data set 2,Data set T,Learner1,Learner2,LearnerT,Original training set,Theoretical Properties,Y.Freund and R.Schapire JCSS97 have proved that the training error of AdaBoost is bounded by:,where,Bagging,Introduced by Breiman（1996,Bagging Predictor）“Bagging”stands for“bootstrap aggregating”.其思想是对训练集有放回地抽取

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？