数据挖掘课程课件第讲BaggingBoostingPPT课件下载推荐.ppt-资源下载

数据挖掘课程课件第讲BaggingBoostingPPT课件下载推荐.ppt

1、For t=1,2,T Do 从数据集S中取样（放回选样）训练得到模型Ht 对未知样本X分类时,每个模型Ht都得出一个分类，得票最高的即为未知样本X的分类也可通过得票的平均值用于连续值的预测,Bagging,Bagging,Bagging要求“不稳定”的分类方法；比如：决策树，神经网络算法不稳定：数据集的小的变动能够使得分类结果的显著的变动。“The vital element is the instability of the prediction method.If perturbing the learning set can cause significant changes in t

2、he predictor constructed,then bagging can improve accuracy.”（Breiman 1996）,Boosting背景,来源于:PAC-Learning Model Valiant 1984-11提出问题:强学习算法:准确率很高的学习算法弱学习算法:准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法,Boosting背景,最初的boosting算法 Schapire 1989AdaBoost算法 Freund and Schapire 1995,Boosting,基本思想：每个样本都赋予一个权重T次迭代，每次迭代后，对分类错误的

3、样本加大权重，使得下一次的迭代更加关注这些样本。Boosting也要求“不稳定”的分类方法,Boosting,过程:在一定的权重条件下训练数据，得出分类法Ct根据Ct的错误率调整权重,Set of weightedinstances,Classifier Ct,train classifier,adjust weights,Boosting,AdaBoostAdaBoost.M1AdaBoost.M2,AdaBoost,输入:（X1,Y1）,（X2,Y2）,（Xn,Yn）XiX,YiY=+1,-1 初始化:D1（i）=1/nFor t=1,T在Dt下训练,得到弱的假设ht:X-1,+1,错误率

4、:t=Dt（i）ht（Xi）Yi 选择t=1/2 ln（1-t）/t）,更改权值:if ht（Xi）Yi,Dt+1（i）=Dt（i）*e t/Zt if ht（Xi）=Yi,Dt+1（i）=Dt（i）*e-t/Zt输出:H（X）=sign（tht（X）,AdaBoost.M1,初始赋予每个样本相等的权重1/N；For t=1,2,T Do 学习得到分类法Ct；计算该分类法的错误率Et Et=所有被错误分类的样本的权重和；t=Et/（1-Et）根据错误率更新样本的权重；正确分类的样本：Wnew=Wold*t 错误分类的样本：Wnew=Wold调整使得权重和为1；每个分类法Ct的投票价值为log

5、1/t,Boosting,AdaBoost training error,将t=1/2-Et;Freund and Schapire 证明:最大错误率为:即训练错误率随t的增大呈指数级的减小.,AdaBoost generalization error（1）,最大总误差:m:样本个数d:VC维T:训练轮数Pr:对训练集的经验概率如果T值太大,Boosting会导致过适应（overfit）,AdaBoost generalization error（2）,许多的试验表明:Boosting不会导致overfit,AdaBoost generalization error（3）,解释以上试验现象;样

6、本（X,Y）的margin:margin（x,y）=t=1/2 ln（1-t）/t）较大的正边界表示可信度高的正确的预测较大的负边界表示可信度高的错误的预测,AdaBoost generalization error（4）,解释:当训练误差降低后,Boosting继续提高边界,从而增大了最小边界,使分类的可靠性增加,降低总误差.总误差的上界:该公式与T无关,Boosting其它应用,Boosting易受到噪音的影响;AdaBoost 可以用来鉴别异常;具有最高权重的样本即为异常.,Bagging 和boosting的区别,训练集:Bagging:随机选择,各轮训练集相互独立Boosting:各

7、轮训练集并不独立,它的选择与前轮的学习结果有关预测函数:没有权重;可以并行生成Boosting:有权重;只能顺序生成,Bagging,boosting,and C4.5,J.R.Quinlan,介绍,在大多数应用中，准确率比运算速度更为重要，因为计算机的性价比提高很快。bagging和boosting都可以有效地提高分类的准确性。在大多数数据集中，boosting的准确性比bagging高。在有些数据集中，boosting会引起退化。-OverfitBagging和boosting方法的要求：最基本的是分类方法的不稳定性。即：训练集的小变动能够使得分类模型显著变动。,Bagging试验：,效果

8、实验：CART，T=50，7个中等大小的数据集，使用bagging后的平均错误率为使用单个分类法的57%-94%.,dataset,Boosting试验:,平均T=4.9时,训练准确率可以达到T=10时的训练准确率.但T=4.9时,总的错误率却比T=10时的错误率高,改变boosting投票权重（1）,AdaBoost.M1中的投票权重:log 1/t 替代:,age?,student?,credit rating?,no,yes,fair,excellent,=30,30,k,改变boosting投票权重（2）,x1,x2,xn,S,bagging&boosting 应用前景,Internet上的文本过滤图像数据库中的图像识别手写体字符识别语音识别,研究方向,Bagging和boosting非常相似,是否存在统一的理论框架.Boosting发生overfit的条件.,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？