决策树学习优质PPT.ppt

资源描述

决策树学习优质PPT.ppt

《决策树学习优质PPT.ppt》由会员分享，可在线阅读，更多相关《决策树学习优质PPT.ppt（43页珍藏版）》请在冰豆网上搜索。

决策树学习优质PPT.ppt

是，在税务局上班呢。

那好，我去见见。

2女孩心中的女孩心中的决策树决策树34什么是决策树？

什么是决策树？

l对数据进行分类的树型数据结构对数据进行分类的树型数据结构非叶节点非叶节点：

分类属性：

分类属性叶节点叶节点：

类别：

类别l决策树的学习决策树的学习根据训练数据形成相应的决策树根据训练数据形成相应的决策树归纳学习归纳学习监督学习监督学习积极学习积极学习l决策树的使用决策树的使用按照决策树上的分类属性逐层往下划分，直到叶节点，即按照决策树上的分类属性逐层往下划分，直到叶节点，即获得概念（决策、分类）结果。

获得概念（决策、分类）结果。

5决策树学习基本思想决策树学习基本思想根据训练数据选择分类属性，逐层构造决策树选择分类属性，逐层构造决策树学习核心：

分类属性的选择学习核心：

分类属性的选择决策树构造算法output训练数据集合决策树input6如何选择分类属性：

教室中谁是考研同学教室中谁是考研同学l学生属性（姓名、年龄、性别、衣服颜色、籍学生属性（姓名、年龄、性别、衣服颜色、籍贯、专业、图书类型）贯、专业、图书类型）书类型书类型考研书考研书Yes没带没带书书NoVC、JSP、java，ASPNo英语书英语书？

7决策树算法概述决策树算法概述l根据训练数据找一根据训练数据找一分类属性分类属性，尽可能将数据集，尽可能将数据集分成类别分成类别“纯净纯净”子集（单一类别）子集（单一类别）l若子集还不纯净，再找另一属性继续划分（递若子集还不纯净，再找另一属性继续划分（递归过程）归过程）l停止分类的条件停止分类的条件1.数据子集纯净：

节点上的数据均对应于同一类别数据子集纯净：

节点上的数据均对应于同一类别2.所有属性都已使用过所有属性都已使用过l分类属性的选择：

启发式或统计方法分类属性的选择：

启发式或统计方法8决策树的构造：

决策树的构造：

ID3算法算法lID3（Examples，Target_attribute，Attributes）lID3（实例，目标属性，参考属性实例，目标属性，参考属性）Examples即训练样例集。

即训练样例集。

Target_attribute是这棵树要预测的目标属性。

是这棵树要预测的目标属性。

Attributes是学习决策树所需参考属性列表。

是学习决策树所需参考属性列表。

ID3算法算法Step1.创建树的创建树的root节点节点Step2.如果如果Examples都为正都为正（反反）,返回返回label=正正（反反）的单节点树的单节点树rootStep3.如果如果Attributes为空，返回单节点树为空，返回单节点树root，label=Example中最普遍的目标概念值，否则递中最普遍的目标概念值，否则递归执行属性选择与数据划分操作（见下页）归执行属性选择与数据划分操作（见下页）910Step3Step3.1设设A为为Attributes中分类中分类样例样例能力最好的属性能力最好的属性Step3.2令令root的决策属性的决策属性为为AStep3.3对于对于A的每个可能值的每个可能值vil在在root下加一个新的分支，对应于下加一个新的分支，对应于A=vil令令Examplesvi为样例中满足为样例中满足A属性值为属性值为vi的子集的子集l如果如果Examplesvi为空，在这个新分支下加一个叶节为空，在这个新分支下加一个叶节点，节点的点，节点的label=Examples中最普遍的中最普遍的Target值值l否则（否则（Examplesvi不为空）在新分支下加一个子树：

不为空）在新分支下加一个子树：

ID3（Examplesvi,Target,Attributes-A）Step4.返回返回root11星期六上午是否适合打网球汤姆家附近有了网球场，他经常去那里看网球比赛汤姆家附近有了网球场，他经常去那里看网球比赛但网球比赛是否举行，要根据天气情况而定但网球比赛是否举行，要根据天气情况而定汤姆可不想白跑一趟汤姆可不想白跑一趟汤姆刚上学习了机器学习课程汤姆刚上学习了机器学习课程于是，他根据自己手工记录数据，设计了一个自动判断器。

于是，他根据自己手工记录数据，设计了一个自动判断器。

12“星期六上午是否适合打网球”目标属性13问题分析问题分析已知一组实例,求目标函数:

f（outlook,Temperature,humidity,wind）playTennis（yes/no）14分类分类属性选择属性选择l构造好的决策树的关键在于如何选择属性。

构造好的决策树的关键在于如何选择属性。

l最常用分类属性选择指标：

最常用分类属性选择指标：

信息增益信息增益（InformationGain）从候选属性中选择属性从候选属性中选择属性l信息增益大的属性，其划分子集的纯度高信息增益大的属性，其划分子集的纯度高（平均熵值小），分类能力强（平均熵值小），分类能力强l选择信息增益最大的属性作为分类属性选择信息增益最大的属性作为分类属性15熵熵l熵是描述事物无序性的参数，熵越大则无序熵是描述事物无序性的参数，熵越大则无序性越强。

性越强。

l事件越不确定，熵越大。

事件越不确定，熵越大。

l2014年世界杯冠军年世界杯冠军l事件是确定的，熵等于事件是确定的，熵等于0。

l2010年世界杯冠军年世界杯冠军l熵刻划了信息的不确定性熵刻划了信息的不确定性熵16信息熵与不确定性信息熵与不确定性l一条信息的信息熵大小和它的不确定性有直接一条信息的信息熵大小和它的不确定性有直接的关系。

比如说，我们要搞清楚一件非常非常的关系。

比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需不确定的事，或是我们一无所知的事情，就需要了解大量的信息。

要了解大量的信息。

l相反，如果我们对某件事已经有了较多的了解，相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。

所以，我们不需要太多的信息就能把它搞清楚。

所以，从这个角度，我们可以认为，信息熵的度量就从这个角度，我们可以认为，信息熵的度量就等于不确定性的多少等于不确定性的多少。

l信息熵越大，不确定性也越大。

信息熵越大，不确定性也越大。

“世界杯最终世界杯最终32强中哪支球队是冠强中哪支球队是冠军军”的信息熵的信息熵l假如由于某种缘故，我错过了看世界杯。

假如由于某种缘故，我错过了看世界杯。

l赛后我问一个知道比赛结果的同事。

赛后我问一个知道比赛结果的同事。

“哪支球队是冠军？

哪支球队是冠军？

”他不愿意直接告诉我，他不愿意直接告诉我，而要让我猜，并且我每猜一次，而要让我猜，并且我每猜一次，他要收一元钱才肯告诉我是否猜对了；

他要收一元钱才肯告诉我是否猜对了；

l那么我需要付给他多少钱才能知道谁是冠军呢那么我需要付给他多少钱才能知道谁是冠军呢?

我可以把我可以把球队编上号，从球队编上号，从0到到31，然后提问：

然后提问：

“冠军的球队在冠军的球队在0-15号中吗号中吗?

”假如他告诉我猜对了，假如他告诉我猜对了，我会接着问：

我会接着问：

“冠冠军在军在0-7号中吗号中吗?

”假如他告诉我猜错了，假如他告诉我猜错了，我自然知道冠我自然知道冠军队在军队在8-17中。

中。

这样只需要五次，这样只需要五次，我就能知道哪支球队我就能知道哪支球队是冠军；

谁是世界杯冠军这条消息的信息量只值五块钱；

是冠军；

17“谁是世界杯冠军谁是世界杯冠军”信息量信息量l香农用香农用“比特比特”（bit）这个概念来度量不）这个概念来度量不确定性。

确定性。

一个比特是一位二进制数，这条一个比特是一位二进制数，这条信息的熵是五比特。

信息的熵是五比特。

l25=32181111119从信息论角度熵是编码这条信息所需二进制位的个数从信息论角度熵是编码这条信息所需二进制位的个数样例分布越平均（混乱），熵越大样例分布越平均（混乱），熵越大样例分布不均衡（变纯），熵减小样例分布不均衡（变纯），熵减小yes/no问题的熵问题的熵20用熵度量样例的均一性（纯度）用熵度量样例的均一性（纯度）l二分类事件熵的定义l举例21w如果目标属性具有如果目标属性具有c个不同值（类别），那么个不同值（类别），那么S相对于相对于c个状态（个状态（c-wise）的分类的熵定义）的分类的熵定义为：

为：

pi是S中属于类别i的比例n分类事件的熵分类事件的熵“世界杯世界杯32强谁是冠军强谁是冠军”这条信息这条信息Entropy（S）=32（-1/32）log2（1/32）=522用信息增益度量期望熵最低用信息增益度量期望熵最低其中其中Values（A）是属性是属性A所有可能值的集合，是所有可能值的集合，是S中属性中属性A的值为的值为v的子的子集（也就是，集（也就是，=sS|A（s）=v）。

）。

第一项就是原来集合第一项就是原来集合S的熵的熵第二项是用第二项是用A分类分类S后熵的期望值。

这个第二项描述的期望熵就是每个后熵的期望值。

这个第二项描述的期望熵就是每个子集的熵的加权和，权值为属于子集的熵的加权和，权值为属于Sv的样例占原始样例的样例占原始样例S的比例。

的比例。

信息增益信息增益的作用：

度量引入该属性后使得信息量增加，熵减的作用：

度量引入该属性后使得信息量增加，熵减少能力。

信息增益较大的属性将具有更好的区分能力少能力。

信息增益较大的属性将具有更好的区分能力23熵与信息增益举例熵与信息增益举例1+-+-+-+-+-+-+-Entropy（S）=-（9/22）log2（9/22）（13/22）log2（13/22）=-0.409（-0.388）-0.59（-0.229）=0.158691*0.13511=0.021S=9+,13-24熵与信息增益举例熵与信息增益举例1Entropy（S）Entropy（Sred）Entropy（Syellow）colorGain（S，Color）=Entropy（S）-（9/22Entropy（Sred）+13/22Entropy（Syellow））+-+-+-+-+-+-+-25熵与信息增益举例熵与信息增益举例226PlayTennis例例l目标属性目标属性PlayTennis：

yes和和no两个值两个值l任务任务：

根据其他属性来预测这个目标属性值。

：

l先考虑这个算法的第一步，创建决策树的最顶先考虑这个算法的第一步，创建决策树的最顶端结点。

哪一个属性该在树上第一个被测试呢端结点。

哪一个属性该在树上第一个被测试呢？

l计算每一个候选属性（也就是计算每一个候选属性（也就是Outlook，Temperature，Humidity，和，和Wind）的信）的信息增益，然后选择信息增益最高的一个作为息增益，然后选择信息增益最高的一个作为分类属性。

分类属性。

27PlayTennis例例2829PlayTennis例例同理可得：

同理可得：

将以将以Outlook作为根节点的属性，该属性将把数据作为根节点的属性，该属性将把数据划分为三个子集划分为三个子集30Humidity对于非终端节点，递对于非终端节点，递归执行上述划分过程，归执行上述划分过程，直至：

直至：

1）达到目标概）达到目标概念；

念；

2）所有属性包含）所有属性包含在相应路径中，从而在相应路径中，从而得到得到最终结果最终结果31决策树例决策树例：

根据天气情况确定是否打网球：

根据天气情况确定是否打网球（PlayTennis=yesorno）32决策树的知识表达决策树的知识表达规则集形式：

规则集形式：

Rule1：

IFOutlook=SunnyANDHumidity=NormalTHENYesRule2：

IFOutlook=OvercastTHENYesRule3：

IFOutlook=

展开阅读全文