第二章-朴素贝叶斯算法.ppt

上传人:zf 文档编号:11765870 上传时间:2023-04-01 格式:PPT 页数:46 大小:1.22MB
下载 相关 举报
第二章-朴素贝叶斯算法.ppt_第1页
第1页 / 共46页
第二章-朴素贝叶斯算法.ppt_第2页
第2页 / 共46页
第二章-朴素贝叶斯算法.ppt_第3页
第3页 / 共46页
第二章-朴素贝叶斯算法.ppt_第4页
第4页 / 共46页
第二章-朴素贝叶斯算法.ppt_第5页
第5页 / 共46页
点击查看更多>>
下载资源
资源描述

第二章-朴素贝叶斯算法.ppt

《第二章-朴素贝叶斯算法.ppt》由会员分享,可在线阅读,更多相关《第二章-朴素贝叶斯算法.ppt(46页珍藏版)》请在冰豆网上搜索。

第二章-朴素贝叶斯算法.ppt

朴素贝叶斯NaiveBayes,CompanyLogo,朴素贝叶斯,主要内容贝叶斯简介朴素贝叶斯分类基本决策规则基于最小错误率基于最小风险总结扩展(了解)贝叶斯与分类的简单应用,CompanyLogo,贝叶斯简介,贝叶斯(ThomasBayes,17011761)英国牧师、业余数学家。

在论机会学说中一个问题的求解中给出了贝叶斯定理。

具有讽刺意味的是,当初贝叶斯发明概率统计理论是为了证明上帝的存在,而至死这个愿望都没有实现,不过感谢伟大的贝叶斯,因为他的无心插柳,才有了今天的贝叶斯公式,并列于数据挖掘十大经典算法:

它解决了两个事件条件概率的转换问题,CompanyLogo,贝叶斯简介,先验概率:

由以往的数据分析得到的概率后验概率:

得到结果的信息后重新修正的概率简单地说,贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法在人工智能领域,贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法,CompanyLogo,贝叶斯简介,贝叶斯定理P(A)是A的先验概率或边沿概率,之所以称为先验,是因为它不考虑任何B方面的因素P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称为A的后验概率P(B|A)是已知A发生后B的条件概率,也由于得自B的取值而被称为B的后验概率P(B)是B的先验概率或边沿概率,之所以称为先验,是因为它不考虑任何A方面的因素,CompanyLogo,贝叶斯简介,贝叶斯定理条件概率:

P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。

其基本求解公式:

贝叶斯公式P(B|A)是根据A判断其属于类别B的概率,称为后验概率。

P(B)是直接判断某个样本属于B的概率,称为先验概率。

P(A|B)是在类别B中观测到A的概率,P(A)是在数据库中观测到A的概率,CompanyLogo,贝叶斯简介,百度百科上的例子:

学校里有60%男生和40%女生,女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子,一个人在远处看到了一个穿裤子的学生。

这个学生是女生的概率是多少?

使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。

我们所要计算的是P(A|B)P(A)是忽略其它因素,看到女生的概率,在这里是0.4P(A)是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是0.6P(B|A)是女生穿裤子的概率,在这里是0.5P(B|A)是男生穿裤子的概率,在这里是1P(B)是忽略其它因素,学生穿裤子的概率,P(B)=P(B|A)P(A)+P(B|A)P(A),在这里是0.50.4+10.6=0.8根据贝叶斯定理,我们计算出后验概率P(A|B):

P(A|B)=P(B|A)*P(A)/P(B)=0.25,CompanyLogo,贝叶斯分类,朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

结合样本输入输出的联合概率分布和输出的概率分布,对于给定的输入x,利用贝叶斯定理求解后验概率的过程。

朴素贝叶斯简单,学习与预测效率较高,比较常用。

其基本思想:

对于给定的待分类项x,求解在此样本出现的条件下各个类别出现的概率,计算出每一个类别的P(yi|x),i=1,2,.,k,根据一定的决策规则,决定此样本归属于哪个类别,CompanyLogo,基本决策规则,基于最小错误率的Bayes决策基于最小风险的Bayes决策Neyman-Pearson决策最小最大决策序贯分类方法,CompanyLogo,基本的决策规则,基于最小错误率的贝叶斯决策已知条件设输入空间XRn为n维向量集合,输出空间为类别标记集合=c1,c2,.,ck,输入为特征向量xX,输出为类标记y。

训练数据集T=(xi,yi),i=1,2,.,N,样本表示:

x=(x

(1),x

(2),.,x(n)求解计算,CompanyLogo,基于最小错误率的贝叶斯决策,转化根据贝叶斯公式,CompanyLogo,基于最小错误率的贝叶斯决策,对于所有的类别,我们发现分母都是相同的,所以我们只需要考虑分子:

先验概率通过领域专家知识得到,即通过经验数据(训练数据得到)条件概率:

基于条件独立性假设,CompanyLogo,基于最小错误率的贝叶斯决策,因此,基于最小错误率的朴素贝叶斯的公式可写为:

因此,我们需要学习得到先验概率分布和条件概率分布,CompanyLogo,基于最小错误率的贝叶斯决策,极大似然估计进行参数估计:

先验概率的极大似然估计:

离散特征变量的条件概率的极大似然估计,x(j)表示样本的第j个特征,其取值集合为aj1,aj2,aj3,.,ajSj,表示第i个样本的第j个特征的取值;ajl是第j个特征的第l个取值;I为指示函数,CompanyLogo,基于最小错误率的贝叶斯决策,连续特征变量的条件概率的极大似然估计:

假设特征是连续、独立于其他特征,概率密度函数符合正态分布:

则第k类样本在第j个特征上的方差和标准差的极大似然估计为,CompanyLogo,基于最小错误率的贝叶斯决策,连续特征变量的条件概率的极大似然估计:

则条件概率可写为:

计算上式时,我们直接代入第k类样本在第j个特征上的方差和标准差的极大似然估计值,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:

输入:

输出:

实例x的分类,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:

步骤:

计算先验概率和离散变量条件概率,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:

步骤:

计算连续变量的均值、标准差的极大似然估计代入并计算连续变量的条件概率,CompanyLogo,基于最小错误率的贝叶斯决策,朴素贝叶斯算法:

步骤:

对于给定的实例x=(x

(1),x

(2),.,x(n),计算确定x的分类,CompanyLogo,基于最小错误率的贝叶斯决策,简单的示例:

由下表的训练数据学习得到一个朴素贝叶斯分类器并确定x=(2,S)的类标记y,表中X

(1),X

(2)为特征,取值集合分别为A1=1,2,3,A2=S,M,L,Y为类标记,YC=1,-1,CompanyLogo,基于最小错误率的贝叶斯决策,计算先验概率和条件概率,CompanyLogo,基于最小错误率的贝叶斯决策,对于给定的x=(2,S)计算因此我们判别x属于-1,CompanyLogo,基于最小错误率的贝叶斯决策,表现形式观察上式,为了避免连乘操作导致出现下溢(值太小,无法进行判别分类),常采用对上式右边部分取对数:

CompanyLogo,基于最小错误率的贝叶斯决策,贝叶斯估计:

用极大似然估计可能出现先验概率或条件概率为0的情况,这会影响整个的分类结果,因此我们使用贝叶斯估计。

该方法被称为拉普拉斯平滑,=0时为极大似然估计,常取=1,CompanyLogo,基于最小错误率的贝叶斯决策,假设=1,尝试计算上面的例子?

CompanyLogo,基于最小风险的贝叶斯决策,在医学诊断上,有误诊(无病说有病)、漏诊。

在雷达防空中,有虚警、漏警(有飞机说成无飞机)。

这些错误判断会造成不同的后果和损失。

基于最小风险的Bayes决策是:

在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则,我们定义:

状态空间由K个自然状态(K个类)组成:

=c1,c2,.,ck决策空间由K个决策组成:

A=1,2,.,k,CompanyLogo,基于最小风险的贝叶斯决策,一般决策表,为损失函数,CompanyLogo,基于最小风险的贝叶斯决策,损失函数有KK个值:

(i,cj)或者简写为ij含义是:

当真实状态为i而所采取的决策为cj时所造成的损失大小最小错误率Bayes决策取后验概率的最大者在决策表中,每一个决策i对应存在K个损失。

对于x,定义在采取决策i时的条件期望损失(条件风险)为:

CompanyLogo,基于最小风险的贝叶斯决策,x是随机向量的观察值,对于其不同观察值,采取不同的决策i时,对应不同的条件风险。

所以,不同的x,将会采用不同的决策。

决策可以看成随机向量x的函数,记为(x)(随机变量),可以定义期望风险为:

CompanyLogo,基于最小风险的贝叶斯决策,条件风险和期望风险的差别条件风险R(i|x)只反映出,对某一个x取值,采取决策行动i所带来的风险期望风险R则反映,在整个特征空间中不同的x取值,采取相应的决策(x)所带来的平均风险目标:

采取的一系列决策行动应该使期望风险达到最小最手段:

如果在采取每一个决策时,都使其条件风险最小,则对所有的x作决策时,其期望风险也必然达到最小决策:

最小风险Bayes决策,CompanyLogo,基于最小风险的贝叶斯决策,最小风险Bayes决策规则:

CompanyLogo,基于最小风险的贝叶斯决策,算法的基本步骤计算类先验概率和类条件概率(上文已求)计算待识x的后验概率(Bayes公式)根据决策表,计算每一个决策的条件风险找出条件风险最小值所对应的决策k,对x采取该决策(归属到该类),CompanyLogo,基于最小风险的贝叶斯决策,例:

区分正常与异常细胞,正常细胞,异常细胞,后验概率,CompanyLogo,基于最小风险的贝叶斯决策,条件风险决策:

归属到异常细胞原因:

损失函数起主导作用,CompanyLogo,基于最小风险的贝叶斯决策,最小错误率与最小风险的贝叶斯决策之间的关系定义0-1损失函数意义:

正确决策没有损失,错误决策损失都为1附件条件:

K个类别对应K个决策(无拒绝类),CompanyLogo,基于最小风险的贝叶斯决策,结论:

在0-1损失函数的条件下,使风险最小的Bayes决策等价于使错误率最小的Bayes决策,后者是前者的特例,CompanyLogo,总结和扩展,贝叶斯算法流程图:

便于理解贝叶斯基本步骤,CompanyLogo,总结和扩展,贝叶斯算法算法优点:

算法简单,易于实现分类过程中时间空间开销小算法稳定,对于不同的数据特点器分类性能差别不大,健壮性比较好问题:

现实中很难做到条件相互独立半朴素贝叶斯算法(semi-naivebayesian)贝叶斯网络(BayesianBeliefNetwork)TAN(treeaugmentednaiveBayes),CompanyLogo,贝叶斯与分类的简单应用,NaiveBayes()函数位于klaR包中NaiveBayes(formula,data,.,subset,na.action=na.pass)常用参数formula:

确定待判别变量及其依赖变量data:

数据框输入输出参数apriori:

类别先验概率tables:

各个变量在各个类别下的条件概率NaiveBayes(x,grouping,prior,usekernel=FALSE,fL=0),CompanyLogo,贝叶斯与分类的简单应用,建立基于miete数据集的朴素贝叶斯模型安装并加载klaR包install.packages(“klaR”)library(klaR)加载数据集(上节课保存了工作空间的不用做,否则就要重新进行数据预处理)以nmkat为待判别变量,data_train生成贝叶斯判别规则fit_Bayes1=NaiveBayes(nmkat.,data_train)显示fit_Bayes1所包含的输出项名称names(fit_Bayes1),CompanyLogo,贝叶斯与分类的简单应用,建立基于miete数据集的朴素贝叶斯模型显示各类别的先验概率fit_Bayes1$apriori显示所有变量在各类别下的条件概率并分析fit_Bayes1$tables自己动手:

显示模型fit_Bayes1的其他内容,CompanyLogo,贝叶斯与分类的简单应用,各类别下的变量密度可视化,并进行分析占地面积wfl可视化plot(fit_Bayes1,vars=wfl,n=50,col=c(1,blue,3,green,5)租赁期mvdauerplot(fit_Bayes1,vars=mvdauer,n=50,col=c(1,blue,3,green,5)每平方米净租金nmqmplot(fit_Bayes1,vars=nmqm,n=50,col=c(1,blue,3,green,5),CompanyLogo,贝叶斯与分类的简单应用,对测试待判别变量取值进行预测根据fit_Bayes1判别规则进行预测pre_Bayes1=predict(fit_Bayes1,data_test)显示预测结果pre_Bayes1建立真实值和预测值混淆矩阵T_M=table(data_test$nmkat,pre_Bayes1$class)计算贝叶斯判别的错误率并显示error_Bayes1=sum(as.numeric(as.numeric(pre_Bayes1$class)!

=as.numeric(data_test$nmkat)/nrow(data_test)error_Bayes1,CompanyLogo,贝叶斯与分类的简单应用,分析和总结错误率约为49%,预测效果不佳,说明该数据变量不符合朴素贝叶斯的前提条件-各变量条件独立,建立规则的某些变量可能是相互关联的,这在很大程度上影响了分类正确率实际数据中,变量间多多少少有着相互关联性,因此,同样基于贝叶斯定理的贝叶斯网络是贝叶斯判别中更高级、应用范围更广的一种算法。

它放宽了变量独立的条件,将贝叶斯定理与图论相结合,建立起基于概率推理的数学模型,擅于解决变量相关和复杂的不确定性的问题同学们可自行研究贝叶斯网络及其应用,Thankyou!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 解决方案 > 解决方案

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1