ImageVerifierCode 换一换
格式:PPT , 页数:43 ,大小:944.50KB ,
资源ID:15559115      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/15559115.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(决策树学习优质PPT.ppt)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

决策树学习优质PPT.ppt

1、是,在税务局上班呢。那好,我去见见。2女孩心中的女孩心中的决策树决策树34什么是决策树?什么是决策树?l对数据进行分类的树型数据结构对数据进行分类的树型数据结构 非叶节点非叶节点:分类属性:分类属性 叶节点叶节点:类别:类别l决策树的学习决策树的学习 根据训练数据形成相应的决策树根据训练数据形成相应的决策树 归纳学习归纳学习 监督学习监督学习 积极学习积极学习l决策树的使用决策树的使用 按照决策树上的分类属性逐层往下划分,直到叶节点,即按照决策树上的分类属性逐层往下划分,直到叶节点,即获得概念(决策、分类)结果。获得概念(决策、分类)结果。5决策树学习基本思想决策树学习基本思想根据训练数据选择

2、分类属性,逐层构造决策树选择分类属性,逐层构造决策树学习核心:分类属性的选择学习核心:分类属性的选择决策树构造算法output训练数据集合决策树input6如何选择分类属性:教室中谁是考研同学教室中谁是考研同学l学生属性(姓名、年龄、性别、衣服颜色、籍学生属性(姓名、年龄、性别、衣服颜色、籍贯、专业、图书类型)贯、专业、图书类型)书类型书类型考研书考研书Yes没带没带书书NoVC、JSP、java,ASPNo英语书英语书?7决策树算法概述决策树算法概述l根据训练数据找一根据训练数据找一分类属性分类属性,尽可能将数据集,尽可能将数据集分成类别分成类别“纯净纯净”子集(单一类别)子集(单一类别)l

3、若子集还不纯净,再找另一属性继续划分(递若子集还不纯净,再找另一属性继续划分(递归过程)归过程)l停止分类的条件停止分类的条件 1.数据子集纯净:节点上的数据均对应于同一类别数据子集纯净:节点上的数据均对应于同一类别 2.所有属性都已使用过所有属性都已使用过l分类属性的选择:启发式或统计方法分类属性的选择:启发式或统计方法8决策树的构造:决策树的构造:ID3算法算法lID3(Examples,Target_attribute,Attributes)lID3(实例,目标属性,参考属性实例,目标属性,参考属性)Examples即训练样例集。即训练样例集。Target_attribute是这棵树要预

4、测的目标属性。是这棵树要预测的目标属性。Attributes是学习决策树所需参考属性列表。是学习决策树所需参考属性列表。ID3算法算法Step1.创建树的创建树的root节点节点Step2.如果如果Examples都为正都为正(反反),返回返回label=正正(反反)的单节点树的单节点树rootStep3.如果如果Attributes为空,返回单节点树为空,返回单节点树root,label=Example中最普遍的目标概念值,否则递中最普遍的目标概念值,否则递归执行属性选择与数据划分操作(见下页)归执行属性选择与数据划分操作(见下页)910Step3Step3.1 设设A为为Attribute

5、s中分类中分类样例样例能力最好的属性能力最好的属性Step3.2 令令root的决策属性的决策属性为为AStep3.3 对于对于A的每个可能值的每个可能值vil在在root下加一个新的分支,对应于下加一个新的分支,对应于A=vil令令Examplesvi为样例中满足为样例中满足A属性值为属性值为vi的子集的子集l如果如果Examplesvi为空,在这个新分支下加一个叶节为空,在这个新分支下加一个叶节点,节点的点,节点的label=Examples中最普遍的中最普遍的Target值值l否则(否则(Examplesvi不为空)在新分支下加一个子树:不为空)在新分支下加一个子树:ID3(Exampl

6、esvi,Target,Attributes-A)Step4.返回返回 root11星期六上午是否适合打网球汤姆家附近有了网球场,他经常去那里看网球比赛汤姆家附近有了网球场,他经常去那里看网球比赛但网球比赛是否举行,要根据天气情况而定但网球比赛是否举行,要根据天气情况而定汤姆可不想白跑一趟汤姆可不想白跑一趟汤姆刚上学习了机器学习课程汤姆刚上学习了机器学习课程于是,他根据自己手工记录数据,设计了一个自动判断器。于是,他根据自己手工记录数据,设计了一个自动判断器。12“星期六上午是否适合打网球”目标属性13问题分析问题分析已知一组实例,求目标函数:f(outlook,Temperature,hum

7、idity,wind)playTennis(yes/no)14分类分类属性选择属性选择l构造好的决策树的关键在于如何选择属性。构造好的决策树的关键在于如何选择属性。l最常用分类属性选择指标:最常用分类属性选择指标:信息增益信息增益(Information Gain)从候选属性中选择属性从候选属性中选择属性l信息增益大的属性,其划分子集的纯度高信息增益大的属性,其划分子集的纯度高(平均熵值小),分类能力强(平均熵值小),分类能力强l选择信息增益最大的属性作为分类属性选择信息增益最大的属性作为分类属性 15熵熵l熵是描述事物无序性的参数,熵越大则无序熵是描述事物无序性的参数,熵越大则无序性越强。性

8、越强。l事件越不确定,熵越大。事件越不确定,熵越大。l2014年世界杯冠军年世界杯冠军l事件是确定的,熵等于事件是确定的,熵等于0。l2010年世界杯冠军年世界杯冠军l熵刻划了信息的不确定性熵刻划了信息的不确定性熵16信息熵与不确定性信息熵与不确定性l一条信息的信息熵大小和它的不确定性有直接一条信息的信息熵大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需不确定的事,或是我们一无所知的事情,就需要了解大量的信息。要了解大量的信息。l相反,如果我们对某件事已经有了较多的了解,相反,如果我们对某件事已经有

9、了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息熵的度量就从这个角度,我们可以认为,信息熵的度量就等于不确定性的多少等于不确定性的多少。l 信息熵越大,不确定性也越大。信息熵越大,不确定性也越大。“世界杯最终世界杯最终32强中哪支球队是冠强中哪支球队是冠军军”的信息熵的信息熵l假如由于某种缘故,我错过了看世界杯。假如由于某种缘故,我错过了看世界杯。l赛后我问一个知道比赛结果的同事。赛后我问一个知道比赛结果的同事。“哪支球队是冠军?哪支球队是冠军?”他不愿意直接告诉我,他不愿意直接告诉我,而要让我猜,并且我每猜一次,

10、而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了;他要收一元钱才肯告诉我是否猜对了;l那么我需要付给他多少钱才能知道谁是冠军呢那么我需要付给他多少钱才能知道谁是冠军呢?我可以把我可以把球队编上号,从球队编上号,从 0 到到 31,然后提问:然后提问:“冠军的球队在冠军的球队在 0-15 号中吗号中吗?”假如他告诉我猜对了,假如他告诉我猜对了,我会接着问:我会接着问:“冠冠军在军在 0-7 号中吗号中吗?”假如他告诉我猜错了,假如他告诉我猜错了,我自然知道冠我自然知道冠军队在军队在 8-17 中。中。这样只需要五次,这样只需要五次,我就能知道哪支球队我就能知道哪支球队是冠军;谁是世界

11、杯冠军这条消息的信息量只值五块钱;是冠军;17“谁是世界杯冠军谁是世界杯冠军”信息量信息量l香农用香农用“比特比特”(bit)这个概念来度量不)这个概念来度量不确定性。确定性。一个比特是一位二进制数,这条一个比特是一位二进制数,这条信息的熵是五比特。信息的熵是五比特。l25=32 181111119从信息论角度熵是编码这条信息所需二进制位的个数从信息论角度熵是编码这条信息所需二进制位的个数 样例分布越平均(混乱),熵越大样例分布越平均(混乱),熵越大样例分布不均衡(变纯),熵减小样例分布不均衡(变纯),熵减小yes/no问题的熵问题的熵20用熵度量样例的均一性(纯度)用熵度量样例的均一性(纯度

12、)l二分类事件熵的定义l举例21w如果目标属性具有如果目标属性具有c个不同值(类别),那么个不同值(类别),那么S相对于相对于c个状态(个状态(c-wise)的分类的熵定义)的分类的熵定义为:为:pi是S中属于类别i的比例 n分类事件的熵分类事件的熵“世界杯世界杯32强谁是冠军强谁是冠军”这条信息这条信息Entropy(S)=32(-1/32)log2(1/32)=522用信息增益度量期望熵最低用信息增益度量期望熵最低其中其中 Values(A)是属性是属性A所有可能值的集合,是所有可能值的集合,是S中属性中属性A的值为的值为v的子的子集(也就是,集(也就是,=s S|A(s)=v)。)。第一

13、项就是原来集合第一项就是原来集合S的熵的熵第二项是用第二项是用A分类分类S后熵的期望值。这个第二项描述的期望熵就是每个后熵的期望值。这个第二项描述的期望熵就是每个子集的熵的加权和,权值为属于子集的熵的加权和,权值为属于Sv的样例占原始样例的样例占原始样例S的比例。的比例。信息增益信息增益的作用:度量引入该属性后使得信息量增加,熵减的作用:度量引入该属性后使得信息量增加,熵减少能力。信息增益较大的属性将具有更好的区分能力少能力。信息增益较大的属性将具有更好的区分能力23熵与信息增益举例熵与信息增益举例1+-+-+-+-+-+-+-Entropy(S)=-(9/22)log2(9/22)(13/2

14、2)log2(13/22)=-0.409(-0.388)-0.59(-0.229)=0.158691*0.13511=0.021S=9+,13-24熵与信息增益举例熵与信息增益举例1Entropy(S)Entropy(Sred)Entropy(Syellow)colorGain(S,Color)=Entropy(S)-(9/22Entropy(Sred)+13/22Entropy(Syellow)+-+-+-+-+-+-+-25熵与信息增益举例熵与信息增益举例226PlayTennis例例l目标属性目标属性PlayTennis:yes和和no两个值两个值l任务任务:根据其他属性来预测这个目标属

15、性值。:l先考虑这个算法的第一步,创建决策树的最顶先考虑这个算法的第一步,创建决策树的最顶端结点。哪一个属性该在树上第一个被测试呢端结点。哪一个属性该在树上第一个被测试呢?l计算每一个候选属性(也就是计算每一个候选属性(也就是Outlook,Temperature,Humidity,和,和Wind)的信)的信息增益,然后选择信息增益最高的一个作为息增益,然后选择信息增益最高的一个作为分类属性。分类属性。27PlayTennis例例2829PlayTennis例例同理可得:同理可得:将以将以Outlook作为根节点的属性,该属性将把数据作为根节点的属性,该属性将把数据划分为三个子集划分为三个子集

16、30Humidity对于非终端节点,递对于非终端节点,递归执行上述划分过程,归执行上述划分过程,直至:直至:1)达到目标概)达到目标概念;念;2)所有属性包含)所有属性包含在相应路径中,从而在相应路径中,从而得到得到最终结果最终结果31决策树例决策树例:根据天气情况确定是否打网球:根据天气情况确定是否打网球(PlayTennis=yes or no)32决策树的知识表达决策树的知识表达规则集形式:规则集形式:Rule 1:IF Outlook=Sunny AND Humidity=Normal THEN Yes Rule 2:IF Outlook=Overcast THEN Yes Rule 3:IF Outlook=

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1