实验二决策树实验实验报告Word文档格式.doc
《实验二决策树实验实验报告Word文档格式.doc》由会员分享,可在线阅读,更多相关《实验二决策树实验实验报告Word文档格式.doc(5页珍藏版)》请在冰豆网上搜索。
决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。
一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。
每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。
采用信息增益来选择能够最好地将样本分类的属性。
信息增益基于信息论中熵的概念。
ID3总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。
该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。
二、算法伪代码
算法Decision_Tree(data,AttributeName)
输入由离散值属性描述的训练样本集data;
候选属性集合AttributeName。
输出一棵决策树。
(1)创建节点N;
(2)Ifsamples都在同一类C中then
(3)返回N作为叶节点,以类C标记;
(4)Ifattribute_list为空then
(5)返回N作为叶节点,以samples中最普遍的类标记;
//多数表决
(6)选择attribute_list中具有最高信息增益的属性test_attribute;
(7)以test_attribute标记节点N;
(8)Foreachtest_attribute的已知值v//划分samples
(9)由节点N分出一个对应test_attribute=v的分支;
(10令Sv为samples中test_attribute=v的样本集合;
//一个划分块
(11)IfSv为空then
(12)加上一个叶节点,以samples中最普遍的类标记;
(13)Else加入一个由Decision_Tree(Sv,attribute_list-test_attribute)返回节点值。
三、实验数据预处理
Age:
30岁以下标记为“1”;
30岁以上50岁以下标记为“2”;
50岁以上标记为“3”。
Sex:
FEMAL----“1”;
MALE----“2”
Region:
INNERCITY----“1”;
TOWN----“2”;
RURAL----“3”;
SUBURBAN----“4”
Income:
5000~2万----“1”;
2万~4万----“2”;
4万以上----“3”
Married
Children
Car
Mortgage
Pep:
以上五个条件,若为“是”标记为“1”,若为“否”标记为“2”。
Agesexregionincomemarriedchildrencarmortgagepep
121121122
121122221
214121221
211112222
121112222
121121211
212112112
211121121
213122121
212221222
221222211
212211211
221212212
111212221
321211122
111211121
113222121
312212221
323311121
322312112
313311221
321312122
321311111
311312112
313312222
324312211
313322112
四、实验主函数
functionmain
clc;
DataSet=[121121122
];
AttributName=[111213141516171819];
[TreeRulesMatrix]=DecisionTree(DataSet,AttributName)
End
五、实验结果
TheDecisionTree:
(TheRoot):
Attribut
|_____1______Attribut
||_____1______Attribut
|||_____1______Attribut
||||_____1______leaf1
||||_____2______leaf2
|||_____2______leaf2
|||_____3______Attribut
|||_____1______Attribut
||||_____1______leaf1
||||_____2______leaf2
||||_____3______leaf1
|||_____2______leaf2
||_____2______Attribut
||_____1______Attribut
|||_____1______leaf2
|||_____2______leaf1
||_____2______leaf1
|_____2______Attribut
||_____1______leaf2
||_____2______Attribut
|||_____1______leaf1
||_____3______leaf2
|_____3______Attribut