其他分类方法.ppt
《其他分类方法.ppt》由会员分享,可在线阅读,更多相关《其他分类方法.ppt(92页珍藏版)》请在冰豆网上搜索。
![其他分类方法.ppt](https://file1.bdocx.com/fileroot1/2022-10/14/cfdf3f33-9e99-4320-ab73-b58aa4af26f7/cfdf3f33-9e99-4320-ab73-b58aa4af26f71.gif)
2022/11/1西安电子科技大学计算机学院1第六章第六章其他分类方法其他分类方法尚凡华尚凡华提纲提纲2022/11/1西安电子科技大学计算机学院2近邻法罗杰斯特回归决策树与随机森林Boosting方法讨论近邻法近邻法2022/11/1西安电子科技大学计算机学院3分段线性分类器:
把各类划分为若干子类,使各个子类间的分类用较简单的分类器完成,最后的决策面是由各个子类间的分类面连接而构成得。
近邻法近邻法2022/11/1西安电子科技大学计算机学院4最简单的分段线性分类器:
把各类划分为若干子类,以子类中心作为类别代表点,考查新样本到各代表点的距离并将它分到最近的代表点所代表的类。
最近邻法:
对于一个新样本,把它逐一与已知样本比较,找出距离新样本最近的已知样本,以该样本的类别作为新样本的类别。
近邻法近邻法2022/11/1西安电子科技大学计算机学院5最近邻法:
样本集其中,是样本;是类别标号,近邻法近邻法2022/11/1西安电子科技大学计算机学院6最近邻法:
样本集其中,是样本;是类别标号,近邻法近邻法2022/11/1西安电子科技大学计算机学院7最近邻法的错误率(渐近分析)近邻法近邻法2022/11/1西安电子科技大学计算机学院8最近邻法的错误率(渐近分析)近邻法近邻法2022/11/1西安电子科技大学计算机学院9k-近邻法(kNN)XindongWu,etal.Top10algorithmsindatamining.Knowl.Inf.Syst.,14:
1-37,2008.(3766)近邻法近邻法2022/11/1西安电子科技大学计算机学院10k-近邻法(kNN)近邻法近邻法2022/11/1西安电子科技大学计算机学院11渐近平均错误率的界近邻法近邻法2022/11/1西安电子科技大学计算机学院12存在问题存储量和计算量票数接近时风险较大,有噪声时风险加大有限样本下性能如何?
近邻法近邻法2022/11/1西安电子科技大学计算机学院13改进方法减少计算量和存储量引入拒绝机制根据实际问题修正投票方式如加权投票,否决票等如距离加权,考虑样本比例及先验概率等近邻法近邻法2022/11/1西安电子科技大学计算机学院14近邻法的快速算法近邻法在计算上的问题:
近邻法在计算上的问题:
近邻法近邻法2022/11/1西安电子科技大学计算机学院15近邻法的快速算法近邻法近邻法2022/11/1西安电子科技大学计算机学院16分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院17分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院18分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院19分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院20分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院21分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院22分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院23分支定界算法(Branch-BoundAlgorithm)近邻法近邻法2022/11/1西安电子科技大学计算机学院24剪辑近邻法基本理解:
处在两类交界处或分布重合区的样本可能误导近邻法决策。
应将它们从样本集中去掉。
近邻法近邻法2022/11/1西安电子科技大学计算机学院25剪辑近邻法基本思路:
考查样本是否为可能的误导样本,若是则从样本集中去掉剪辑考查方法是通过试分类,认为错分样本为误导样本。
近邻法近邻法2022/11/1西安电子科技大学计算机学院26剪辑近邻法近邻法近邻法2022/11/1西安电子科技大学计算机学院27剪辑近邻法近邻法近邻法2022/11/1西安电子科技大学计算机学院28错误率分析(渐近错误率)近邻法近邻法2022/11/1西安电子科技大学计算机学院29错误率分析(渐近错误率)近邻法近邻法2022/11/1西安电子科技大学计算机学院30剪辑近邻法2022/11/1西安电子科技大学计算机学院312022/11/1西安电子科技大学计算机学院32近邻法近邻法2022/11/1西安电子科技大学计算机学院33压缩近邻法-主要用以减少计算量2022/11/1西安电子科技大学计算机学院34近邻法近邻法2022/11/1西安电子科技大学计算机学院35可做拒绝决策的近邻法由于近邻法决策实际只取决于个别样本,因此有时风险较大,尤其是最近邻法和k近邻法当两类近邻数接近时,为此,可考虑引入拒绝决策。
近邻法近邻法2022/11/1西安电子科技大学计算机学院36可做拒绝决策的近邻法方法很简单:
拒绝决策同样可引入改进的近邻法中,如剪辑近邻法提纲提纲2022/11/1西安电子科技大学计算机学院37近邻法罗杰斯特回归决策树与随机森林Boosting方法讨论罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院38罗杰斯特回归线性回归罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院39罗杰斯特回归罗杰斯特(Logistic)函数罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院40罗杰斯特回归几率(odds)对数几率(logodds)罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院41罗杰斯特回归(LogisticRegression)罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院42罗杰斯特回归(LogisticRegression)决策规则:
罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院43罗杰斯特回归(LogisticRegression)最大似然法罗杰斯特回归罗杰斯特回归2022/11/1西安电子科技大学计算机学院44罗杰斯特回归(LogisticRegression)对数似然函数提纲提纲2022/11/1西安电子科技大学计算机学院45近邻法罗杰斯特回归决策树与随机森林Boosting方法讨论决策树与随机森林决策树与随机森林2022/11/1西安电子科技大学计算机学院46决策树与随机森林XindongWu,etal.Top10algorithmsindatamining.Knowl.Inf.Syst.,14:
1-37,2008.(3766)决策树与随机森林决策树与随机森林2022/11/1西安电子科技大学计算机学院47o非数值特征(Nonmetricfeatures)名义特征(Nominalfeatures)性别、民族、职业、字符串中的字符DNA序列中的核酸类型(A、C、G、T),即腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)序数特征(Ordinalfeatures)是一种数值,有顺序,但不能看作是欧式空间中的数值如序号、分级等决策树与随机森林决策树与随机森林2022/11/1西安电子科技大学计算机学院48o非数值特征(Nonmetricfeatures)与研究目标之间呈非线性关系的数值特征比如年龄、考试成绩等区间(Interval)数据取值是实数,可比较大小,但没有一个“自然的”零如地球的地表温度-88.3,55决策树与随机森林决策树与随机森林2022/11/1西安电子科技大学计算机学院49o信息熵n熵、联合熵、条件熵、互信息o决策树学习算法n信息增益nID3、C4.5、CARToBagging与随机森林的思想50熵将离散随机变量X的概率分布为P(X=xi),则定义熵为:
若P为连续随机变量,则概率分布变成概率密度函数,求和符号变成积分符号。
在不引起混淆的情况下,下面谈到的“概率分布函数”,其含义是:
1、若X为离散随机变量,则该名称为概率分布函数;2、若X为连续随机变量,则该名称为概率密度函数。
51对熵的理解熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0。
均匀分布是“最不确定”的分布熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。
P(x)H(函数数值)52联合熵和条件熵两个随机变量X,Y的联合分布,可形成联合熵JointEntropy,用H(X,Y)表示。
H(X,Y)H(Y)(X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵在Y发生的前提下,X发生“新”带来的信息熵。
该式子定义为Y发生前提下,X的熵:
条件熵H(X|Y)=H(X,Y)H(Y)53推导条件熵的定义式54相对熵相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是说明:
相对熵可以度量两个随机变量的“距离”一般的,D(p|q)D(q|p)55互信息两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(P(X,Y)|P(X)P(Y)56计算H(X)-I(X,Y)57整理得到的等式H(X|Y)=H(X,Y)-H(Y)条件熵定义H(X|Y)=H(X)-I(X,Y)根据互信息定义展开得到有些文献将I(X,Y)=H(Y)H(Y|X)作为互信息的定义式对偶式H(Y|X)=H(X,Y)-H(X)H(Y|X)=H(Y)-I(X,Y)I(X,Y)=H(X)+H(Y)-H(X,Y)有些文献将该式作为互信息的定义式58决策树(DecisionTree)决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。
决策树学习是以实例为基础的归纳学习。
决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。
59决策树学习算法的特点决策树学习算法的最大优点是,它可以自学习。
在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。
显然,属于有监督学习。
从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。
决策树与随机森林决策树与随机森林2022/11/1西安电子科技大学计算机学院60决策树一个简化的树状决策过程例子61信息增益概念:
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
g(D,A)=H(D)H(D|A)显然,这即为训练数据集D和特征A的互信息。
62信息增益的计算方法计算数据集D的经验熵计算特征A对数据集D的经验条件熵H(D|A)计算信息增益:
g(D,A)=H(D)H(D|A)63经验条件熵H(D|A)64其他目标信息增益率:
gr(D,A)=g(D,A)/H(A)基尼指数:
65三种决策树学习算法适应信息增益来进行特征选择的决策树学习过程,即为ID3决策。
所以如果是取值更多的属性,更容易使得数据更“纯”,其信息增益更大,决策树会首先挑选这个属性作为树的顶点。
结果训练出来的形状是一棵庞大且深度很浅的树,这样的划分是极为不合理的。
C4.5:
信息增益率gr(D,A)=g(D,A)/H(A)CART:
基尼指数总结:
一个属性的信息增益越大,表明属性对样本的熵减少的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。
决策树与随机森林决策树与随机森林2022/11/1西安电子科技大学计算机学院66决策树汽车销售店客户情况的例子2022/11/1西安电子科技大学计算机学院67顾客编号年龄性别月收入是否购买121男4000否23