数据仓库与数据挖掘技术六决策树.docx

上传人：b****8 文档编号：28034259 上传时间：2023-07-07 格式：DOCX 页数：10 大小：521.85KB

下载相关举报

第1页 / 共10页

第2页 / 共10页

第3页 / 共10页

第4页 / 共10页

第5页 / 共10页

点击查看更多>>

下载资源

资源描述

数据仓库与数据挖掘技术六决策树.docx

《数据仓库与数据挖掘技术六决策树.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘技术六决策树.docx（10页珍藏版）》请在冰豆网上搜索。

数据仓库与数据挖掘技术六决策树.docx

数据仓库与数据挖掘技术六决策树

第6章决策树方法

6.1信息论的基本原理

6.1.1信息论原理

6.1.2互信息的计算

1.定义

2.出现概率

3.条件概率

4.子集概率

5.子集条件概率

6.信息熵

7.互信息

6.2常用决策树算法

6.2.1ID3算法

1.基本思想

图6-1ID3决策树

2.主算法

图6-2ID3算法流程

3.建树算法

4.实例计算

6.2.2C4.5算法

1.信息增益比例的概念

2.连续属性值的处理

3.未知属性值的处理

4.规则的产生

5.案例计算

图6-3天气结点及其分支

图6-4C4.5算法形成的决策树

6.3决策树剪枝

6.3.1先剪枝

6.3.2后剪枝

6.4由决策树提取分类规则

6.4.1获得简单规则

图6-5决策树

6.4.2精简规则属性

6.5利用SQLServer2005进行决策树挖掘

6.5.1数据准备

6.5.2挖掘模型设置

6.5.3挖掘流程

图6-6选择数据挖掘技术

图6-7选择数据源视图

图6-8指定表类型

图6-9指定定型数据

图6-10指定列的内容和数据类型

图6-11完成数据挖掘结构的创建

6.5.4挖掘结果分析

图6-12挖掘得到的“次级”决策树

图6-13挖掘得到的依赖关系图

图6-14“余额”结点的依赖关系图

图6-15与“余额”结点链接强度最强结点示意图

6.5.5挖掘性能分析

图6-16列映射图

图6-17属性“次级”的预测提升图

习题6

1.概率分布［0:

0625;0:

125;0:

5］的熵是多少？

2.汽车保险例子。

假定训练数据库具有两个属性:

年龄和汽车的类型。

年龄——序数分类。

汽车类型——分类属性。

类——L:

低（风险），H:

高（风险）。

使用ID3算法做出它的决策树。

3.简述ID3和C4.5算法之间的异同。

4.简述决策树剪枝的步骤。

5.练习SQLServer2005决策树挖掘模型的构建。

展开阅读全文