ImageVerifierCode 换一换
格式:PPT , 页数:33 ,大小:306.50KB ,
资源ID:14680420      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/14680420.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘课程课件第讲BaggingBoostingPPT课件下载推荐.ppt)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘课程课件第讲BaggingBoostingPPT课件下载推荐.ppt

1、For t=1,2,T Do 从数据集S中取样(放回选样)训练得到模型Ht 对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类也可通过得票的平均值用于连续值的预测,Bagging,Bagging,Bagging要求“不稳定”的分类方法;比如:决策树,神经网络算法不稳定:数据集的小的变动能够使得分类结果的显著的变动。“The vital element is the instability of the prediction method.If perturbing the learning set can cause significant changes in t

2、he predictor constructed,then bagging can improve accuracy.”(Breiman 1996),Boosting背景,来源于:PAC-Learning Model Valiant 1984-11提出问题:强学习算法:准确率很高的学习算法弱学习算法:准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法,Boosting背景,最初的boosting算法 Schapire 1989AdaBoost算法 Freund and Schapire 1995,Boosting,基本思想:每个样本都赋予一个权重T次迭代,每次迭代后,对分类错误的

3、样本加大权重,使得下一次的迭代更加关注这些样本。Boosting也要求“不稳定”的分类方法,Boosting,过程:在一定的权重条件下训练数据,得出分类法Ct根据Ct的错误率调整权重,Set of weightedinstances,Classifier Ct,train classifier,adjust weights,Boosting,AdaBoostAdaBoost.M1AdaBoost.M2,AdaBoost,输入:(X1,Y1),(X2,Y2),(Xn,Yn)XiX,YiY=+1,-1 初始化:D1(i)=1/nFor t=1,T在Dt下训练,得到弱的假设ht:X-1,+1,错误率

4、:t=Dt(i)ht(Xi)Yi 选择t=1/2 ln(1-t)/t),更改权值:if ht(Xi)Yi,Dt+1(i)=Dt(i)*e t/Zt if ht(Xi)=Yi,Dt+1(i)=Dt(i)*e-t/Zt输出:H(X)=sign(tht(X),AdaBoost.M1,初始赋予每个样本相等的权重1/N;For t=1,2,T Do 学习得到分类法Ct;计算该分类法的错误率Et Et=所有被错误分类的样本的权重和;t=Et/(1-Et)根据错误率更新样本的权重;正确分类的样本:Wnew=Wold*t 错误分类的样本:Wnew=Wold调整使得权重和为1;每个分类法Ct的投票价值为log

5、1/t,Boosting,AdaBoost training error,将t=1/2-Et;Freund and Schapire 证明:最大错误率为:即训练错误率随t的增大呈指数级的减小.,AdaBoost generalization error(1),最大总误差:m:样本个数d:VC维T:训练轮数Pr:对训练集的经验概率如果T值太大,Boosting会导致过适应(overfit),AdaBoost generalization error(2),许多的试验表明:Boosting不会导致overfit,AdaBoost generalization error(3),解释以上试验现象;样

6、本(X,Y)的margin:margin(x,y)=t=1/2 ln(1-t)/t)较大的正边界表示可信度高的正确的预测较大的负边界表示可信度高的错误的预测,AdaBoost generalization error(4),解释:当训练误差降低后,Boosting继续提高边界,从而增大了最小边界,使分类的可靠性增加,降低总误差.总误差的上界:该公式与T无关,Boosting其它应用,Boosting易受到噪音的影响;AdaBoost 可以用来鉴别异常;具有最高权重的样本即为异常.,Bagging 和boosting的区别,训练集:Bagging:随机选择,各轮训练集相互独立Boosting:各

7、轮训练集并不独立,它的选择与前轮的学习结果有关预测函数:没有权重;可以并行生成Boosting:有权重;只能顺序生成,Bagging,boosting,and C4.5,J.R.Quinlan,介绍,在大多数应用中,准确率比运算速度更为重要,因为计算机的性价比提高很快。bagging和boosting都可以有效地提高分类的准确性。在大多数数据集中,boosting的准确性比bagging高。在有些数据集中,boosting会引起退化。-OverfitBagging和boosting方法的要求:最基本的是分类方法的不稳定性。即:训练集的小变动能够使得分类模型显著变动。,Bagging试验:,效果

8、实验:CART,T=50,7个中等大小的数据集,使用bagging后的平均错误率为使用单个分类法的57%-94%.,dataset,Boosting试验:,平均T=4.9时,训练准确率可以达到T=10时的训练准确率.但T=4.9时,总的错误率却比T=10时的错误率高,改变boosting投票权重(1),AdaBoost.M1中的投票权重:log 1/t 替代:,age?,student?,credit rating?,no,yes,fair,excellent,=30,30,k,改变boosting投票权重(2),x1,x2,xn,S,bagging&boosting 应用前景,Internet上的文本过滤图像数据库中的图像识别手写体字符识别 语音识别,研究方向,Bagging和boosting非常相似,是否存在统一的理论框架.Boosting发生overfit的条件.,

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1