贝叶斯分类.docx
《贝叶斯分类.docx》由会员分享,可在线阅读,更多相关《贝叶斯分类.docx(13页珍藏版)》请在冰豆网上搜索。
贝叶斯分类
详解贝叶斯分类器
1.贝叶斯决策论
贝叶斯分类器是一类分类算法的总称,贝叶斯定理是这类算法的核心,因此统称为贝叶斯分类。
贝叶斯决策论通过相关概率已知的情况下利用误判损失来选择最优的类别分类。
“风险”(误判损失)=原本为cj的样本误分类成ci产生的期望损失,期望损失可通过下式计算:
为了最小化总体风险,只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记。
最小化分类错误率的贝叶斯最优分类器为:
即对每个样本x,选择能使后验概率P(c|x)最大的类别标记。
利用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c|x),机器学习要实现的是基于有限的训练样本集尽可能准确的估计出后验概率P(c|x)。
主要有两种模型:
一是“判别式模型”:
通过直接建模P(c|x)来预测,其中决策树,BP神经网络,支持向量机都属于判别式模型。
另外一种是“生成式模型”:
通过对联合概率模型P(x,c)进行建模,然后再获得P(c|x)。
对于生成模型来说:
基于贝叶斯定理,可写为下式
(1)
通俗的理解:
P(c)是类“先验”概率,P(x|c)是样本x相对于类标记c的类条件概率,或称似然。
p(x)是用于归一化的“证据”因子,对于给定样本x,证据因子p(x)与类标记无关。
于是,估计p(c|x)的问题变为基于训练数据来估计p(c)和p(x|c),对于条件概率p(x|c)来说,它涉及x所有属性的联合概率。
2.极大似然估计
假设p(x|c))具有确定的形式并且被参数向量唯一确定,则我们的任务是利用训练集估计参数θc,将P(x|c)记为P(x|θc)。
令Dc表示训练集D第c类样本的集合,假设样本独立同分布,则参数θc对于数据集Dc的似然是
对
进行极大似然估计,就是去寻找能最大化P(Dc|θc)的参数值
。
直观上看,极大似然估计是试图在θc所有可能的取值中,找到一个能使数据出现的“可能性”最大的值。
上式的连乘操作易造成下溢,通常使用对数似然:
此时参数θc的极大似然估计为
在连续属性情形下,假设概率密度函数,则参数和的极大似然估计为:
也就是说,通过极大似然法得到的正态分布均值就是样本均值,方差就是
的均值,在离散情况下,也可通过类似的方式估计类条件概率。
Note:
这种参数化方法,虽能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。
3.朴素贝叶斯分类器
基于贝叶斯的公式
(1)来估计后验概率p(c|x)的主要困难在于:
条件概率p(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。
朴素贝叶斯采用了“属性条件独立性假设”可以避开这个问题,意思是:
假设所有属性相互独立,换言之,假设每个属性独立地对分类结果发生影响。
基于属性条件独立性假设,式
(1)可重写为:
其中,d为属性数目,xi为x在第i个属性上的取值。
由于对于所有的类别p(x)相同,基于
(2)式的贝叶斯判定准则有
这就是朴素贝叶斯分类器的表达式。
显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率p(c),并为每个属性估计条件概率
。
若Dc表示训练集D中第c类样本组成的集合,若有充足的独立同分布样本,则可容易的估计出来类先验概率
对于离散属性而言,Dc,xi表示在第i个属性上取值为xi的样本组成的集合,则条件概率
估计为
对于连续属性可考虑为概率密度函数,假定
类样本在第i个属性上取值的均值和方差,则有:
4.朴素贝叶斯分类器的小栗子:
已知数据集如下表所示:
对下表示例进行预测:
5.半朴素贝叶斯分类器
为了降低贝叶斯公式2中后验概率p(c|x)的困难,朴素贝叶斯采用了属性条件独立性假设,但在现实中这个假设很难成立,由此产生了半朴素贝叶斯分类器的学习方法。
顾名思义,这种方法是适当考虑一部分属性间的相互依赖信息,不需要进行完全联合概率计算,也不至于彻底忽略比较强的属性依赖关系。
“独依赖估计”(One-DependentEstimator,简称ODE)是半朴素贝叶斯分类器最常用的一种策略,就是假设每个属性在类别之外最多依赖于一个其他属性,即
其中,
为属性xi所依赖的属性,称为xi的父属性。
此时,对每个属性xi,若其父属性
已知,可采用7式来估算概率值。
现在问题转换为如何确定每个属性的父属性。
(b)假设所有属性都依赖于同一个属性,称为“超父”(super-parent),然后通过交叉验证等模型选择方法来确定超父属性,由此形成SPODE方法,这里x1是超父属性。
(c)TAN(treeaugmentednaivebayes)是在最大带权生成树算法的基础上,通过以下步骤生成图c所示的树形结构:
l 计算任意属性之间的条件互信息(conditionalmutualinformation)
l 以属性为结点构建完全图,任意两个结点之间边的权重设为I(xi,xj|y);
l 构建此完全图的最大带权生成树,挑选根变量,将边置为有向;
l 加入类别结点y,增加从y到每个属性的有向边。
可以看出,条件互信息I(xi,xj|y)刻画了属性xi和xj在已知类别下的相关性,通过最大生成树算法,TAN实际保留了强相关属性之间的依赖性。
AODE(averagedone-dependentestimator)是一种基于集成学习机制、更为强大的度依赖分类器。
与SPODE通过模型选择超父属性不同,AODE尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支持的SPODE集成起来作为最终结果,即
与朴素贝叶斯分类器相似,AODE的训练过程也是“计数”,即在训练集上对符合条件的样本继续计数。
6.贝叶斯网(bayesiannetwork)
也称为信念网(beliefnetwork),它借助有向无环图(DirectedAcyclicGraph简称DAG)来刻画属性之间的依赖关系,并使用条件概率表(conditionalProbabilitytable简称CPT)来描述属性的联合概率分布。
下面用一个栗子说明:
从图中网络结构可看出,“色泽”直接依赖于“好瓜”和“甜度”,而“根蒂”则直接依赖于“甜度”;进一步从条件概率表能得到“根蒂”对“甜度”量化依赖关系,如P(根蒂=硬挺|甜度=高)=0.1
贝叶斯网结构有效地表达了属性空间的条件独立性。
给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,于是B=将属性x1,x2,...,xd的联合概率分布定义为:
以上面网络结构例子,联合概率分布定义为
在在给定的取值时独立,在给定的取值时独立。
上面的贝叶斯网中三个变量之间的典型依赖关系如下:
小结:
对于较为复杂的 DAG 图,我们可以给出一个普遍意义上的结论 ,也就是 D-Seperation。
如果A,B,C是三个集合(可以是单独的节点或者是节点的集合),为了判断 A 和 B 是否是 C 条件独立的P(A,B|C), 我们考虑所有 A 和 B 之间的 无向路径 。
对于其中的一条路径,如果满足以下两个条件中的任意一条,则称这条路径是 阻塞(block) 的,即A,B是独立的:
(a)如果在路径中,存在某个节点 X 是 head-to-tial 或者 tail-to-tail 节点,并且 X 是包含在 C集合 中;
(b)如果在路径中,存在某个节点 X 是 head-to-head 节点(ExampleThree),并且 X 或 X 的儿子结点是不包含在 C 集合中; ----所有的路径被阻塞,则A,B相互独立
如果 A,B 间所有的路径都是阻塞的,那么 A,B 就是关于 C 条件独立的;否则, A,B 不是关于 C 条件独立的。
小栗子:
由D-Sepration分隔定理,判断:
a与b在c条件下的独立性?
判断a与b在f条件下的独立性?
小练习:
判断是否成立?
C--->D的所有路径:
C-->E-->D,分析,结点E为head-to-head,结点E和E的子结点F中,结点F包含在F集合中,所以结点E不阻断,即在F条件下,C和D不相互独立。