id3算法实验报告.docx
《id3算法实验报告.docx》由会员分享,可在线阅读,更多相关《id3算法实验报告.docx(7页珍藏版)》请在冰豆网上搜索。
id3算法实验报告
id3算法实验报告
篇一:
ID3算法实验报告
一、实验原理
决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。
树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能
值,例如下图。
构造好的决策树的关键在于如何选择好的逻辑判断或属性。
对于同样一组例子,可以有很多决策树能符合这组例子。
人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。
要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。
由于构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。
用信息增益度量期望熵最低,来选择分类属性。
公式为
ID3算法
创建树的Root结点
如果Examples都为正,那么返回label=+中的单结点Root如果Examples都为反,那么返回lable=-单结点树Root
如果Attributes为空,那么返回单节点树Root,lable=Examples中最普遍的目标属性值
否则开始
A 目标属性值lable=Examples中最普遍的
否则在这个新分支下加一个子树
ID3(example-vi,target-attribute,attributes-|A|)
结束
返回Root
二、算法实现
训练数据存放在Data.txt中
第一行为训练样本数量和每个样本中属性的数量
第二行为每个属性取值的数量
之后n行为所有样本
节点数据结构
structDTNode
{
intname;//用1,2,3...表示选择的属性,0表示不用分类,即叶节点
intdata[D_MAX+1];//表示此节点包含的数据,data[i]=1,表示包含二维数组data[][]中的第i条数据
intleaf;//leaf=1正例叶节点;leaf=2反例叶节点;leaf=0不是节点intc;//c=1正类;c=0反类
DTNode*child[P+1];//按属性值的个数建立子树
};
定义函数
voidRead_data()//从数据文件Data.txt中读入训练数据DT_pointerCreate_DT(DT_pointerTree,intname,intvalue)//创建决策树intchose(int*da)//选择分类属性
floatGain(int*da,intp)//计算以p属性分类的期望熵
floatEntropy(int*da)//计算数据的熵
inttest_leaf(int*da)//测试节点属性
voidOut_DT(DT_pointerTree)//用线性表形式输出建立的决策树
intClass(int*da)//对输入的测试样本分类
全局变量
FILE*fp;
intp_num;//属性的数量
intpi[P_MAX+1];//每个属性有几种取值
intd_num;//数据的数量
intdata[P_MAX+1][D_MAX+1];//存储训练数据
三、程序不足
1.、默认训练数据是正确的,对是否发生错误不予考虑
2、没有考虑训练数据可以包含缺少属性值的实例
3、只能分正反两类
四、程序源码
#include
#include
#include
#include
#include
#defineP_MAX10
#defineD_MAX50
#defineP5
//一条数据包括所有属性的取值(1,2,3...)和分类的值(0或1)FILE*fp;
intp_num;//属性的数量
intpi[P_MAX+1];//每个属性有几种取值
intd_num;//数据的数量
intdata[P_MAX+1][D_MAX+1];//存储训练数据
//定义结点类型
structDTNode
{
intname;//此节点分类属性的名称
intdata[D_MAX+1];//表示此节点包含的数据
intleaf;//leaf=1正例叶节点;leaf=2反例叶节点;叶节点
intc;//c=1正类;c=0反类
DTNode*child[P+1];//按属性值的个数建立子树
};
typedefstructDTNode*DT_pointer;
DT_pointerDT=NULL;
introot=0;
inttest_leaf(int*da)leaf=0不是
inti;
inta,b;
a=0;//a=0表示没有0类a=1表示有0类for(i=1;i {
if(*(da+i)==1&&data[i][0]==0)
{
a=1;
break;
}
}
b=0;//b=0表示没有1类b=1表示有1类for(i=1;i {
if(*(da+i)==1&&data[i][0]==1){
b=1;
break;
}
}
if(a==0&&b==1)
return1;//是1叶节点
elseif(a==1&&b==0)
return2;//是0叶节点
elseif(a==0&&b==0)
return2;//此节点无数据
else
return0;//不是叶节点
}
inttest_c(inta)//给叶节点附属性值
{
if(a==1)
return1;
else
return0;
}
floatEntropy(int*da)//计算数据的熵
{
inti;
篇二:
ID3算法实验报告
装订线
:
ID3算法分析与实现学院xxxxxxxxxxxxxxxxxxxx专业xxxxxxxxxxxxxxxx学号xxxxxxxxxxx姓名xxxx指导教师xxxx
XX年x月xx日
题目
ID3算法分析与实现
摘要:
决策树是对数据进行分类,以此达到预测的目的。
该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。
决策树代表着决策集的树形结构。
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。
如果给出新一天的气象指标数据:
sunny,cool,high,TRUE,判断一下会不会去打球。
这个问题当然可以用朴素贝叶斯法求解,分别计算在给定天气条件下打球和不打球的概率,选概率大者作为推测结果。
现在我们使用ID3归纳决策树的方法来求解该问题。
预备知识:
信息熵
熵是无序性(或不确定性)的度量指标。
假如事件A的全概率划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为:
通常以2为底数,所以信息熵的单位是bit。
补充两个对数去处公式:
ID3算法
构造树的基本想法是随着树深度的增加,节点的熵迅速地降低。
熵降低的速度越快越好,这样我们有望得到一棵高度最矮的决策树。
在没有给定任何天气信息时,根据历史数据,我们只知道新的一天打球的概率是9/14,不打的概率是5/14。
此时的熵为:
属性有4个:
outlook,temperature,humidity,windy。
我们首先要决定哪个属性作树的根节点。
对每项指标分别统计:
在不同的取值下打球和不打球的次数。
下面我们计算当已知变量outlook的值时,信息熵为多少。
outlook=sunny时,2/5的概率打球,3/5的概率不打球。
entropy=0.971outlook=overcast时,entropy=0outlook=rainy时,entropy=0.971
而根据历史统计数据,outlook取值为sunny、overcast、rainy的概率分别是5/14、4/14、5/14,所以当已知变量outlook的值时,信息熵为:
5/14×0.971+4/14×0+5/14×0.971=0.693
这样的话系统熵就从0.940下降到了0.693,信息增溢gain(outlook)为0.940-0.693=0.247
同样可以计算出gain(temperature)=0.029,gain(humidity)=0.152,gain(windy)=0.048。
gain(outlook)最大(即outlook在第一步使系统的信息熵下降得最快),所以决策树的根节点就取outlook。
接下来要确定N1取temperature、humidity还是windy?
在已知outlook=sunny的情况,根据历史数据,我们作出类似table2的一张表,分别计算gain(temperature)、gain(humidity)和gain(windy),选最大者为N1。
依此类推,构造决策树。
当系统的信息熵降为0时,就没有必要再往下构造决策树了,此时叶子节点都是纯的--这是理想情况。
最坏的情况下,决策树的高度为属性(决策变量)的个数,叶子节点不纯(这意味着我们要以一定的概率来作出决策)。
Java实现
最终的决策树保存在了XML中,使用了Dom4J,注意如果要让Dom4J支持按XPath选择节点,还得引入包jaxen.jar。
程序代码要求输入文件满足ARFF格式,并且属性都是标称变量。
实验用的数据文件:
@relationweather.symbolic
@attributeoutlook{sunny,overcast,rainy}@attributetemperature{hot,mild,cool}@attributehumidity{high,normal}
篇三:
ID3算法实验报告
ID3算法实验
08级第一小组
介绍:
ID3算法可分为主算法和建树算法两种。
(1)ID3主算法。
主算法流程如图所示。
其中PE、NE分别表示正例和反例集,它们共同组成训练集。
PE'、PE''和NE'、NE''分别表示正例集和反例集的子集。
ID3主算法流程
(2)建树算法。
采用建树算法建立决策树。
首先,对当前子例进行同类归集。
其次,计算各集合属性的互信息,选择互信息最大的属性Ak。
再次,将在Ak处取值相同的子例归于同一子集,Ak取几个值就几个子集。
最后,对既含正例又含反例的子集递归调用建树算法。
若子集仅含正例或反例,对应分支标上P或N,返回调用处。
ID3算法采用自顶向下不回溯的策略搜索全部属性空间并建立决策树,算法简单、深度小、分类速度快。
但是,ID3算法对于大的属性集执行效率下降快、准确性降低,并且学习能力低下。
考虑到本文所涉及到的数据量并很小,下文分类分析采用了该算法。
决策树学习是把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。
学习到的决策树能再被表示成多个if-then的规则。
ID3算法是一种决策树算法。
对下载的ID3算法程序进行阅读和调试后,做了相关实验,以下是相关记录。
1、试验数据
该算法的试验数据有两个:
data.dat和data.tag,分别存放训练样例和各个属性列表:
data.dat:
data.tag:
其中,训练样例集合的试验数据由课本第3.4。
2节给出,分别将其属性使用离散值数据表示,在data.tag文件中可以看到离散值其表示的属性分别对应。
2、运行结果
试验结果,是以if-then形式输出决策树,其运行界面如图:
可以将结果整理为:
if{humidity=2.00then
}
if{outlook=3.00thenif{windy=2.00thenONelseOFF}elseON}if{outlook=3.00thenif{windy=2.00thenONelseOFF}elseif{outlook=2.00thenelseON}elseOFF}
该结果与给定的训练样例是一致的。
可以看出,对于给定的这个训练样例集合,目标函数的取值与temperature这个属性没有太大关系,但是,对于未见实例,则不一定。
所以训练样例的分布是很重要的。