ImageVerifierCode 换一换
格式:DOCX , 页数:22 ,大小:348.29KB ,
资源ID:16399366      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/16399366.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘ID3算法决策树Word格式文档下载.docx)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

数据挖掘ID3算法决策树Word格式文档下载.docx

1、Info(D1)= -(6/6)*log2(6/6)=0.0;对于集合D2(较多)有不舒适一个类别,其概率分布为P= 3/3 ,Info(D2)= -(3/3)*log2(3/3) =0.0;对于集合D3(很多)有舒适和不舒适两个类别,其概率分布为P=3/11,8/11,Info(D3)= -(3/11)*log2(3/11)-(8/11)*log2(8/11)=0.772位(2)用公式计算属性的熵(三个子集的加权平均值)Info(穿衣指数) =6/20*Info(D1)+3/20*Info(D2)+11/20*Info(D3)=6/20*0.0+3/20*0.0+11/20*0.772 =0

2、.42462,温度的熵:按温度将D划分为D1(适中),D2(很高)两个集合D=D1D2,P的概率分布为:P=11/20,9/20表4对于集合D1(适中)有两个类别舒适,不舒适,其概率分布为P=4/11,7/11,Info(D1)= -(4/11)log2(4/11)-(7/11)log2(7/11)=0.9457;对于集合D2(很高)有两个类别舒适,不舒适,其概率分布为P=5/9,4/9,Info(D2)= -(5/9)log2(5/9)-(4/9)log2(4/9)=0.9911;(2)用公式计算属性的熵(两个子集的加权平均值)Info(D,温度)=11/20*Info(D1)+9/20*I

3、nfo(D2) =11/20*0.9457+9/20*0.9911 =0.9661位3.湿度的熵:按湿度将D划分为D1(正常),D2(很大)两个集合P=8/20,12/20表5对于集合D1(高)有两个类别舒适,不舒适,其概率分布为P=5/8,3/8,Info(D1)= -(5/8)log2(5/8)-(3/8)log2(3/8)=0.9544对于集合D2(正常)有两个类别舒适,不舒适,其概率分布为P=4/12,8/12,Info(D2)= -(4/12)log2(4/12)-(8/12)log2(8/12)=0.9183Info(D,湿度)=8/20*Info(D1)+12/20*Info(D

4、2)=8/20*0.9544+12/20*0.9183 =0.93274.3.风力的熵:按风力将D划分为D1(中等),D2(没有),D3(很大)三个集合D=D1D2D3,P的概率分布为:P=8/20,7/20,5/20表6对于集合D1(中等)有两个类别舒适,不舒适,其概率分布为P=4/8,4/8,Info(D1)=-(4/8)log2(4/8)-(4/8)log2(4/8)=1;对于集合D2(没有)有一个类别舒适,不舒适,其概率分布为P=3/7,4/7,Info(D2)=-(3/7)log2(3/7)-(4/7)log2(4/7)=0.9848;对于集合D3(很大)有一个类别舒适,不舒适,其概

5、率分布为P=2/5,3/5,Info(D3)=-(2/5)log2(2/5)-(3/5)log2(3/5)=0.9710;Info(D,风力)=8/20*Info(D1)+7/20*Info(D2) +5/20*Info(D3)=8/20*1+7/20*0.9848+5/20*0.9710 =0.9874第三步:计算条件属性的增益使用公式计算条件属性的增益为:Gain(穿衣指数)=Info(感觉舒适度)-Info(D,穿衣指数)= 0.993-0.4246=0.5684Gain(温度)=Info(感觉舒适度)-Info(D,温度)= 0.993-0.9661=0.0269Gain(湿度)=In

6、fo感觉舒适度)-Info(D,湿度)= 0.993-0.9327=0.0603Gain(风力)=Info感觉舒适度)-Info(D,风力)= 0.993-0.9874=0.0056结论:条件属性穿衣指数有最大的增益,所以它用于决策树的根节点穿衣指数 正常 很多 较多表7穿衣指数(正常)的分支根节点的选择:根据感觉舒适度类别属性划分D为相互独立的类,决策属性感觉舒适度有6个记录,全部为舒适.其概率分布为p=1,使用公式计算熵得:Info(感觉舒适度)= -(6/6)log2(6/6) =0样本集共有3个条件属性,分别为:温度,湿度,风力,使用公式计算各条件属性的熵。1,温度的熵:D=D1D2,

7、 P的概率分布为:P=2/6,4/6对于集合D1(适中)有一个类别舒适,其概率分布为P=1,Info(D1)= -(1)log2(1)=0;(纯洁了);对于集合D2(很高)有一个类别舒适,其概率分布为P=1,Info(D2)=-(1)log2(1)=0;(纯洁了)Info(D,温度)=2/6*Info(D1)+4/6*Info(D2)=02.湿度的熵:对于集合D1(正常)有一个类别舒适,其概率分布为P=1,Info(D1)=-(1)log2(1)=0;对于集合D2(l很大)有1个类别舒适,其概率分布为P=1,Info(D,湿度)=2/6*Info(D1)+4/6*Info(D2)=2/6*0+

8、46*0 =03.风力的熵:按湿度将D划分为D1(中等),D2(没有),D3(很大)三个集合P=3/6,2/6,1/6对于集合D1(中等)有一个类别舒适,其概率分布为P=1,对于集合D2(l没有)有1个类别舒适,其概率分布为P=1,对于集合D3(l很大)有1个类别舒适,其概率分布为P=1,Info(D3)=-(1)log2(1)=0;Info(D,风力)=3/6*Info(D1)+2/6*Info(D2) +16*Info(D3)=0Gain(温度)=Info(感觉舒适度)-Info(D,温度)=0-0=0;Gain(湿度)= Info(感觉舒适度)-Info(D,湿度)= 0-0=0;Gai

9、n(风力)= Info(感觉舒适度)-Info(D,风力)= 0-0=0;条件属性最大的增益相同穿衣指数(较多)的分支根节点的选择:根据感觉舒适度类别属性划分D为相互独立的类,决策属性感觉舒适度有3个记录,其中3个记录全是不舒适,其概率分布为p=1,使用公式计算熵得:Info(感觉舒适度)= -1log2(1)=0;按温度将D划分为D1(很高)一个集合D=D1,P的概率分布为:P=1对于集合D1很高)有一个类别不舒适,其概率分布为P=1,(2)用公式计算属性的熵Info(D,温度)=0*0 2,湿度的熵:按温度将D划分为D1(很大)对于集合D1(高)有一个类别不舒适,其概率分布为P=1,Inf

10、o(D,湿度) =0*0=0;2,风力的熵:按风力将D划分为D1(没有),D2(中等) ,D3(很大)三个集合P=1/3,1/3,1/3对于集合D1(没有)有一个类别不舒适,其概率分布为P=1,Info(D1=-(1)log2(1)=0;对于集合D2(没有)有一个类别不舒适,其概率分布为P=1,对于集合D3(很大)有一个类别不舒适,其概率分布为P=1/2,1/2,Info(D,风力)=1/3*Info(D1)+1/3*Info(D2) +1/3*Info(D3)=1/3*0+1/3*0+1/3*0Gain(温度)=Info(感觉舒适度)-Info(D,温度)= 0Gain(湿度)=Info感觉

11、舒适度)-Info(D,湿度)= 0Gain(风力)=Info(感觉舒适度)-Info(D,风力)= 0条件属性最大的增益相同。穿衣指数(很多)的分支根节点的选择:根据感觉舒适度类别属性划分D为相互独立的类,决策属性感觉舒适度有11个记录,其中3个记录是舒适,8个记录是不舒适分别为p1,p2.其概率分布为p=3/11,8/11,使用公式计算熵得:Info(感觉舒适度)= -(3/11log2(3/11)-(8/11)log2(8/11)=0.8454P=9/11,2/11对于集合D1(适中)有两个类别不舒适和舒适,其概率分布为P=7/9,2/9,Info(D1)=-(7/9)log2(7/9)

12、-(2/9)log2(2/9)=0.7642;对于集合D2(很高)有两个类别舒适和不舒适,其概率分布为P=1/2,1/2Info(D2)=-(1/2)log2(1/2)-(1/2)log2(1/2)=1Info(D,温度)=9/11*Info(D1)+2/11*Info(D2)=9/11*0.7642+2/11*1 =0.80712,湿度的熵:按温度将D划分为D1(正常),D2(很大)两个集合P=6/11,5/11对于集合D1(正常)有两个类别不舒适和舒适,其概率分布为P=3/6,3/6,Info(D1)= -(3/6)log2(3/6)-(3/6)log2(3/6)=1;对于集合D2(很大)

13、有一个类别不舒适,其概率分布为P=1Info(D2)= -(1)log2(1)=0; (2)用公式计算属性的熵(两个子集的加权平均值)Info(D,湿度)=6/11Info(D1)+5/11*Info(D2)=0.5455;按风力将D划分为D1(中等),D2(没有) ,D3(很大)三个集合P=4/11,4/11,3/11对于集合D1(中等)有两个类别舒适和不舒适,其概率分布为P=1/4,3/4,Info(D1)= -(1/4)log2(1/4)-(3/4)log2(3/4)=0.8113;对于集合D2(没有)有两个类别舒适和不舒适,其概率分布为P=1/4,3/4,Info(D2)= -(1/4

14、)log2(1/4)-(3/4)log2(3/4)=0.8113;对于集合D3(很大)有两个类别舒适和不舒适,其概率分布为P=1/3,2/3,Info(D3)= -(1/3)log2(1/3)-(2/3)log2(2/3)=0.9178;Info(风力)=4/11*Info(D1)+4/11*Info(D2) +3/11*Info(D3)=4/11*0.8113+4/11*0.8113+3/11*0.9178 =0.8403Gain(温度)=Info(感觉舒适度)-Info(D,温度)= 0.8454-0.8071=0.0383Gain(湿度)=Info感觉舒适度)-Info(D,湿度)= 0

15、.8454-0.5455=0.2999Gain(风力)=Info(感觉舒适度)-Info(D,风力)= 0.8454-0.8403=0.0051条件属性湿度有最大的增益,所以它用于穿衣指数(最多)分支的根节点湿度很大 湿度(正常)的分支根节点的选择:根据感觉舒适度类别属性划分D为相互独立的类,决策属性感觉舒适度有6个记录,其中3个记录是舒适,3个记录是不舒适分别为p1,p2.其概率分布为p=3/6,3/6,使用公式计算熵得:Info(感觉舒适度)= -(3/6log2(3/6)-(3/6)log2(3/6)=1样本集共有2个条件属性,分别为:温度,风力,使用公式计算各条件属性的熵。P=4/6,

16、2/6对于集合D1(适中)有两个类别不舒适和舒适,其概率分布为P=2/4,2/4,Info(D1)=-(2/4)log2(2/4)-(2/4log2(2/4)=1Info(D,温度)=4/6*Info(D1)+2/6*Info(D2)=4/6*1+2/6*1 =1P=2/6,2/6,2/6对于集合D1(中等)有两个类别不舒适和舒适,其概率分布为P=1/2,1/2,Info(D1)= -(1/2)log2(1/2)-(1/2)log2(1/2)=1;对于集合D2(没有)有两个类别不舒适和舒适,其概率分布为P=1/2,1/2,Info(D2)= -(1/2)log2(1/2)-(1/2)log2(

17、1/2)=1;对于集合D3(很大)有两个类别不舒适和舒适,其概率分布为P=1/2,1/2, (2)用公式计算属性的熵(三个子集的加权平均值)Info(D,湿度)=2/6Info(D1)+2/6*Info(D2) )+2/6*Info(D3)=1;Gain(温度)=Info(感觉舒适度)-Info(D,温度)= 1-1=0Gain(风力)=Info(感觉舒适度)-Info(D,风力)= 1-1=0条件属性最大的增益相同,所以温度和风力都可以作为湿度(正常)分支的根节点,选温度作为分支节点温度 适中很高 总结:所有的结点已经确定,最后的决策树为 正常 较多 很多 舒适 正常 很大不舒服 很高 不舒

18、适风力 中等 没有 很大用weka软件以ID3数据集进行分类:用软件实现ID3决策树的分类平台:WEKA平台步骤:1.把book1.xls文件转化成book1.csv:打开book1.xls文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。注:Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。 2.把得到的book1.csv转换为book1.arff :打开WAKE,进入“Exploer”模块,单击Open file按扭,打开book1.csv文件,然后单击按钮Save另存为book1.arff文件即可。3.在分类其中选择ID3算法:打开WAKE,进入“Classfiy”模块,单击choose按钮,treeID3.4.设置Test option相关的选项,这里选择Supplied test set,单击set按钮,打开刚才保存的book1.arff文件。图 4-1软件weka视图:图一 图二5.运行得出结果:单击Start按钮,运行出结果如下。(步骤是对了,但是不知为什么id3树生成时出现乱码)

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1