随机森林课件PPT推荐.ppt

资源描述

随机森林课件PPT推荐.ppt

《随机森林课件PPT推荐.ppt》由会员分享，可在线阅读，更多相关《随机森林课件PPT推荐.ppt（33页珍藏版）》请在冰豆网上搜索。

随机森林课件PPT推荐.ppt

同学A的决策树：

头发长、声音粗就是男生；

头发长、声音细就是女生；

头发短、声音粗是男生；

头发短、声音细是女生。

决策树,这时又蹦出个同学B，想先根据声音判断，然后再根据头发来判断，如是大手一挥也画了个决策树，如图3所示：

图3B同学的决策树,同学B的决策树：

首先判断声音，声音细，就是女生；

声音粗、头发长是男生；

声音粗、头发长是女生。

决策树,那么问题来了：

同学A和同学B谁的决策树好些？

计算机做决策树的时候，面对多个特征，该如何选哪个特征为最佳的划分特征？

划分数据集的大原则是：

将无序的数据变得更加有序。

我们可以使用多种方法划分数据集，但是每种方法都有各自的优缺点。

于是这么想，如果能测量数据的复杂度，对比按不同特征分类后的数据复杂度，若按某一特征分类后复杂度减少的更多，那么这个特征即为最佳分类特征。

决策树,ClaudeShannon定义了熵和信息增益。

用熵来表示信息的复杂度，熵越大，则信息越复杂。

公式如下：

信息增益，表示两个信息熵的差值。

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好。

决策树,首先计算未分类前的熵，总共有8位同学，男生3位，女生5位。

接着分别计算同学A和同学B分类后信息熵。

同学A首先按头发分类，分类后的结果为：

长头发中有1男3女。

短头发中有2男2女。

决策树,决策树,同理，按同学B的方法，首先按声音特征来分。

分类后的结果为：

声音粗中有3男3女。

声音细中有0男2女。

按同学B的方法，先按声音特征分类，信息增益更大，区分样本的能力更强，更具有代表性。

集成学习,集成学习通过建立几个模型组合的来解决单一预测问题。

它的工作原理是生成多个分类器，各自独立地学习和作出预测。

这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

随机森林是集成学习的一个子类，它依靠于决策树的投票选择来决定最后的分类结果。

图4集成学习结构图,集成学习,（a）集成提升性能,（b）集成不起作用,集成学习,（c）集成提升性能,从以上看出：

要获得好的集成效果，个体学习器应好而不同，即个体学习器要有一定的准确性，即学习器不能太坏，并且要有多样性，即学习器间具有差异。

什么是随机森林？

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支集成学习方法。

随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。

“森林”很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，其实这也是随机森林的主要思想-集成思想的体现。

“随机”的包括随机选取训练样本集和随机选取分裂属性集。

（具体含义在随机森林的生成部分会解释）,什么是随机森林？

其实从直观角度来解释，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。

而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出。

随机森林的特点：

优点：

1.两个随机性的引入，使得随机森林不容易陷入过拟合；

2.两个随机性的引入，使得随机森林具有很好的抗噪声能力；

3.对数据集的适应能力强：

既能处理离散型数据，也能处理连续型数据，数据集无需规范化且能够有效地运行在大数据集上；

4.能够处理具有高维特征的输入样本，而且不需要降维；

5.在生成过程中，能够获取到内部生成误差的一种无偏估计；

6.对于缺省值问题也能够获得很好得结果。

随机森林的特点,缺点：

1.在某些噪音较大的分类或回归问题上会过拟合；

2.对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

随机森林的特点,随机森林中有许多的分类树。

如果要将一个输入样本进行分类，需要将输入样本输入到每棵树中进行分类。

打个比喻：

森林中召开会议，讨论某个动物到底是老鼠还是松鼠，每棵树都要独立地发表自己对这个问题的看法，也就是每棵树都要投票。

该动物到底是老鼠还是松鼠，要依据投票情况来确定，获得票数最多的类别就是森林的分类结果。

森林中的每棵树都是独立的，99.9%不相关的树做出的预测结果涵盖所有的情况，这些预测结果将会彼此抵消。

少数优秀的树的预测结果将会超脱于芸芸“噪音”，做出一个好的预测。

将若干个弱分类器的分类结果进行投票选择，从而组成一个强分类器，这就是随机森林bagging的思想。

随机森林的生成,有了树我们就可以分类了，但是森林中的每棵树是怎么生成的呢？

每棵树的按照如下规则生成：

a.给定一个训练样本集，数量为N，使用有放回采样到N个样本，构成一个新的训练集。

注意这里是有放回的采样，所以会采样到重复的样本。

b.从总量为M的特征向量中，随机选择m个特征（mM），其中m可以等于，然后计算m个特征的信息增益，选择最优特征（属性）。

注意，这里的随机选择特征是无放回的选择。

（在整个森林的生长过程中，m的值一般维持不变）,随机森林的生成,c.有了上面随机产生的样本集，就可以使用一般决策树的构建方法，得到一棵分类（或者预测）的决策树。

需要注意的是，在计算节点最优分类特征的时候，要使用b中的随机选择特征方法。

d.通过以上三步，可以得到一棵决策树，重复这样的过程H次，就得到了H棵决策树。

然后来了一个测试样本，就可以用每一棵决策树都对它分类一遍，得到了H个分类结果。

这时，使用简单的投票机制，或者该测试样本的最终分类结果来判别该样本的所属类别。

随机森林的生成,一开始提到的随机森林中的“随机”就是指的a和b中的两个随机性。

两个随机性的引入对随机森林的分类性能至关重要。

由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好得抗噪能力（比如：

对缺省值不敏感）。

随机森林的生成,为什么要随机抽样训练集？

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的，这样的话完全没有集成的必要；

随机森林的生成,为什么要有放回地抽样？

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是有偏的，都是片面的，也就是说每棵树训练出来都是有很大的差异的；

而随机森林最后分类取决于多棵树（弱分类器）的投票表决，这种表决应该是求同，因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的。

随机森林的生成,随机森林分类效果（错误率）与两个因素有关：

1.森林中任意两棵树的相关性：