研究生特色精品课程-机器学习-实验室PPT推荐.pptx
《研究生特色精品课程-机器学习-实验室PPT推荐.pptx》由会员分享,可在线阅读,更多相关《研究生特色精品课程-机器学习-实验室PPT推荐.pptx(147页珍藏版)》请在冰豆网上搜索。
识别准确率很高并能在多项式时间内完成的学习算法称为强学习算法。
同时,Valiant和Kearns首次提出了PAC学习模型中弱学习算法和强学习算法的等价性问题,即任意给定仅比随机猜测略好的弱学习算法,是否可以将其提升为强学习算法?
如果二者等价,那么只需找到一个比随机猜测略好的弱学习算法就可以将其提升为强学习算法,而不必寻找很难获得的强学习算法。
1990年,Schapire最先构造出一种多项式级的算法,对该问题做了肯定的证明,这就是最初的Boosting算法。
研究生特色精品课程-机器学习,1995年,Freund对Schapire的算法(最初的Boosting算法)进行了改进,提高了算法的效率。
但Schapire和Freund的算法在解决实际问题时有一个重大缺陷,即要求事先知道弱学习算法学习正确率的下界,这在实际问题中很难做到。
研究生特色精品课程-机器学习,1996年,Freund和Schapire提出了著名的AdaBoost(AdaptiveBoost)算法,该算法的效率与Freund算法很接近,却可以非常容易地应用到实际问题中,因此,该算法已成为目前最流行的Boosting算法。
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
研究生特色精品课程-机器学习,1996年,Breiman从可重复取样技术(BootstrapSampling)入手,提出了著名的Bagging方法。
在该方法中,各学习器的训练集由从原始训练集中随机选取若干示例组成,训练集的规模与原始训练集相当,训练样本允许重复选取。
这样,原始训练集中某些示例可能在新的训练集中出现多次,而另外一些示例则可能一次也不出现。
在预测新的示例时,所有学习器的结果通过投票的方式来决定新示例的最后预测结果。
Bagging方法通过重新选取训练集增加了个体学习器的差异,Breiman将此类算法称为P&
C(PerturbandCombine)族算法,他指出,稳定性是Bagging能否发挥作用的关键因素,Bagging能提高不稳定学习算法例如神经网络和决策树的预测精度,而对稳定的学习算法例如k近邻和简单贝叶斯算法效果则不明显,有时甚至使预测精度降低。
研究生特色精品课程-机器学习,国内,唐耀华等针对支持向量机(SVM)在应用于集成学习中会失效的问题,提出了一种选择性SVM集成学习算法(SE-SVM)。
贾华丁等提出了采用二重扰动机制的支持向量机的集成训练算法。
2002年周志华等人提出了二次学习的思想,将集成学习用作预处理,设计出了泛化能力强、可理解性好的新型规则学习方法C4.5Rule-PANE。
对二次学习进行了理论分析并设计出了新型决策树学习算法Nec4.5。
研究生特色精品课程-机器学习,在基本的Boosting和Bagging算法被提出以后,研究者们又陆续提出了大量的集成学习算法。
一般来说,这些算法的学习过程可以分为两步,即个体学习器的生成以及个体学习器的结合。
研究生特色精品课程-机器学习,根据个体学习器生成方式的不同,目前的算法大致可以分为两类:
一类以AdaBoost为代表,在这一类算法中,个体学习器是顺序生成的,属于这一类的还有Arc-x4、MultiBoost、fBoost、MiniBoost等算法。
另一类则以Bagging为代表,这类算法中个体学习器可以并行生成,属于这一类的集成算法还有SEQUEL、Wagging、P-Bagging和基于选择性集成的GASEN。
研究生特色精品课程-机器学习,对个体学习器进行结合时,也有很多不同的策略。
Perrone等人认为,采用加权平均可以得到比简单平均更好的泛化能力。
但是,也有一些研究者认为,对权值进行优化将会导致过配(overfiting),从而使得集成的泛化能力降低,因此,他们建议使用简单平均。
研究生特色精品课程-机器学习,在分类问题上,集成的输出往往由个体学习器投票决定,投票法是一种很早开始就获得广泛使用的方法,如quinlan和Breiman使用投票法对决策树算法进行集成等:
绝对多数投票法:
某分类成为最终结果当且仅当有超过半数的神经网络输出结果为该分类。
相对多数投票法:
某分类成为最终结果当且仅当输出结果为该分类的神经网络的数目最多。
理论分析和大量实验表明,后者通常优于前者。
因此,在对分类器进行集成时,目前大多采用相对多数投票法。
研究生特色精品课程-机器学习,在2001年周志华提出了“选择性集成算法”之后,许多研究倾向于综合各种差异性获得方法、度量方法和选择性集成的思想来进行算法的设计。
研究生特色精品课程-机器学习,ELRC(Byung等人提出):
基于一种决策树的结构对原始数据进行划分,然后在划分出的各个数据子集上基于不同的基本学习算法来生成基分类器,最后选取分类效果最好的作为此数据子集上的分类器。
当对一个新示例作决策时,学习器能够自动选择与其相关的基分类器参与决策。
研究生特色精品课程-机器学习,数据离散化的基分类器构造方法(蔡铁等人提出):
该方法采用粗糙集和布尔推理离散化算法处理训练样本集,能有效删除不相关和冗余的属性,提高基分类器的准确性和差异性。
研究生特色精品课程-机器学习,集成学习是一个在迅速发展中的研究领域,从其出现到目前为止,短短十几年的时间,它已经广泛应用于语音识别、文本过滤、遥感信息处理、疾病诊断等众多领域,未来,仍将是一个快速发展期。
研究生特色精品课程-机器学习,3,集成学习的产生背景和主要作用,研究生特色精品课程-机器学习,机器学习所关注的根本问题之一就是如何提高学习系统的泛化能力,也就是说,如何利用已有数据训练出学习器,使之能够尽可能好地处理新数据。
由于集成学习为这一根本问题提供了一种有效可行的解决途径,因此它受到了国际机器学习界的广泛重视。
研究生特色精品课程-机器学习,集成学习指的是为解决同一个问题训练出多个学习器。
在对新的数据进行处理时,各个学习器在新数据上的结论以某种方式进行结合,以获得最终的结果。
以往的学习算法在假设空间中进行搜索时,往往会出现以下问题:
1.统计问题:
如果有若干个假设在训练数据上的误差接近,学习算法就需要从中选择一个作为输出。
这时就可能出现由于假设空间相对于可用的训练数据太大,使得选择出的假设不能够在未知的数据上获得好的效果。
研究生特色精品课程-机器学习,计算问题:
学习算法并不能保证学习到的假设是假设空间中最好的假设。
例如,神经网络、决策树等技术为了寻找与训练数据吻合得好的假设,往往需要引入启发式的策略,然而启发式的策略(例如梯度下降)容易使学习算法陷入局部极小。
表示问题:
如果学习算法搜索的假设空间中并不包含与目标函数相似的假设,在这样的假设空间中进行搜索会造成学习结果与学习目标有很大的差距。
研究生特色精品课程-机器学习,集成学习能在一定程度上缓解上述的问题,这是因为:
在统计问题上,集成学习通过保留多个与训练数据拟合较好的假设,并对它们的结果进行结合,从而可以在一定程度上缓解假设空间太大而训练数据相对不足的问题。
在计算问题上,集成学习的多个假设由于各自具有不同的局部极小,结合起来后就能够在一定程度上相互抵消,从而减小了算法陷入某个局部极小的风险。
研究生特色精品课程-机器学习,3.在表示问题上,集成学习的多个假设的联合扩展了被表示的假设空间,从而使得搜索到的学习结果更加精确。
研究生特色精品课程-机器学习,集成学习技术具有很强的泛化能力,它的作用主要体现在以下四个方面:
1提高预测结果的准确性机器学习的一个重要目标就是对新的测试样本尽可能给出最精确的估计。
构造单个高精度的学习器是一件相当困难的事情,然而产生若干个只比随机猜想略好的学习器却很容易。
研究者们在应用研究中发现,将多个学习器进行集成后得到的预测精度明显高于单个学习器的精度,甚至比单个最好的学习器的精度更高。
因此,在难以直接获得高精度的学习算法的问题上,可以利用集成学习技术将一些精度不够高的弱学习算法提升为精度高的强学习算法。
研究生特色精品课程-机器学习,提高预测结果的稳定性有些学习算法单一的预测结果时好时坏,不具有稳定性,能一直保持高精度的预测。
通过模型的集成,可以以较高的概率普遍取得很好的结果。
改进参数选择对于一些算法而言,如BP神经网络、遗传算法,在解决实际问题的时候,需要选择操作参数。
但是这些操作参数的选取没有确定性的规则可以依据,只能凭借经验来选取,为了得到好的学习效果,往往需要反复调整学习参数。
大多数情况下,需要使用者具有充分的经验才能设定合适的参数值,而对于非专业的一般操作人员会有一定的难度。
而且参数选择不同,结果会有很大的差异。
集成学习技术可以利用一些参数设置得并不太好的学习器取得较好的学习效果。
研究生特色精品课程-机器学习,4,集成学习的主要内容,研究生特色精品课程-机器学习,4.1PAC(ProbablyApproximatelyCorrect)理论,在机器学习领域中,自从Valiant关于PAC可学习性的文章发表后,改变了以往以概率1作为评价模式识别性能的局面,并带来了后来基于PAC学习模型的机器学习研究的巨大发展。
研究生特色精品课程-机器学习,PAC(ProbablyApproximatelyCorrect)理论,PAC定义中有以下符号:
X:
实例空间,包含所有可能的样本c:
概念,是指一个X的子集,或者说是一个X中的元素到布尔值的0,1映射C:
X上一系列概念的集合D:
X的概率分布h:
要考察的算法输出的一个假设,我们希望它尽可能地接近c“尽可能地接近”的意思是,有比较大的概率(Probably)得到的结果在大部分情况下(Approximately)与c一致。
研究生特色精品课程-机器学习,更严格地定义PAC:
集合C为PAC可学习的是指对于其中的所有c,对于任意分布D,对于任意小的数01/2和01/2,我们要考察的算法有至少(1-)的概率输出一个h满足Ph(x)!
=c(x)=,并且算法花费时间与1/,1/成多项式关系。
研究生特色精品课程-机器学习,概率近似(PAC)学习首先要求学习器输出错误率限定在某常数范围内,其次要求对所有的随机抽取样本序列失败的概率限定在某常数范围内。
PAC理论强调机器学习的目的应该是以模型概论近似正确(1-)为指标,而不是以概率为1为指标。
PAC可学习性的一个隐含的条件:
每个目标概念c,假设空间H都包含一个以任意小误差接近c的假设