贝叶斯公式的经验之谈.docx

上传人:b****6 文档编号:6852528 上传时间:2023-01-11 格式:DOCX 页数:8 大小:208.31KB
下载 相关 举报
贝叶斯公式的经验之谈.docx_第1页
第1页 / 共8页
贝叶斯公式的经验之谈.docx_第2页
第2页 / 共8页
贝叶斯公式的经验之谈.docx_第3页
第3页 / 共8页
贝叶斯公式的经验之谈.docx_第4页
第4页 / 共8页
贝叶斯公式的经验之谈.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

贝叶斯公式的经验之谈.docx

《贝叶斯公式的经验之谈.docx》由会员分享,可在线阅读,更多相关《贝叶斯公式的经验之谈.docx(8页珍藏版)》请在冰豆网上搜索。

贝叶斯公式的经验之谈.docx

贝叶斯公式的经验之谈

贝叶斯公式的经历之谈

一、综述

在日常生活中,我们会遇到许多由因求果的问题,也会遇到许多由果溯因的问题。

比方某种传染疾病已经出现.寻找传染源;机械发生了故障,寻找故障源就是典型的南果溯因问题等。

在一定条件下,这类由果溯因问题可通过贝叶斯公式来求解。

以下从几个的例子来说明贝叶斯公式的应用。

文【1】主要应用贝叶斯公式的简单情形,从“疾病诊断〞,“说谎了吗〞,“企业资质评判〞,“诉讼〞四个方面讨论其具体应用。

文【2】用市场预测的实例,介绍了贝叶斯公式在市场预测中的应用。

贝叶斯市场预测能对信息的价值是否需要采集新的信息做出科学的判断。

文【3】、文【4】介绍贝叶斯过滤技术的工作原理及技术原理,讨论了过滤模块,通过分析研究该模块中垃圾关键词的统计概率分布,提出了基于贝叶斯概率模型的过滤算法,并对该算法的合理性和复杂度进展了分析。

可以根据垃圾容的特征,建立贝叶斯概率模型,计算出一封是垃圾的概率,从而判断其是否为垃圾。

文【5】基于贝叶斯公式中概率统计的重要性与在日常生活中应用的广泛性,概述了贝叶斯统计的根本思想及其与其他统计学派的争论,并对作为贝叶斯统计基石的贝叶斯公式进展了归纳。

二.容

1.疾病诊断.

资料显示,某项艾滋病血液检测的灵敏度(即真有病的人检查为阳性)为95%,而对没有得病的人,种检测的准确率(即没有病的人检查为阴性)为99%.美国是一个艾滋病比拟流行的国家,估计大约有千分之一的人患有这种病.为了能有效地控制、减缓艾滋病的传播,几年前有人建议对申请新婚登记的新婚夫妇进展这种血液检查.该方案提出后,征询专家意见,遭到专家的强烈反对,方案没有被通过.

我们用贝叶斯公式分析专家为何反对通过这项方案.

设A={检查为阳性},B={一个人患有艾滋病}。

据文中表达可知:

由公式:

得:

由公式:

得:

也就是说,被检测患有艾滋病而此人确实患有该病的概率大约为0.087.这个结果使人难以承受,好似与实际不符.从资料显示来看,这种检测的准确性似乎很高.因此,一般人可能猜想,如果一个人检测为阳性,他患有艾滋病的可能性很大,估计应在90%左右,然而计算结果却仅为8.7%.如果通过这项计

划,势必给申请登记的新婚夫妇带来不必要的恐慌.因为约有91.3%的人并没有患艾滋病.为什么会出现与直觉如此相悖的结果呢?

这是因为人们忽略了一些根底信息,就是患有艾滋病的概率很低,仅为千分之一.因此,在检测出呈阳性的人局部是没有患艾滋病的.具体的说,假设从该地随机抽取1000个

居民,那么根据经历概率的含义,这1000居民约有1人患有艾滋病,999人未换艾滋病.检查后,大约有

个人检查为阳性,而在这个群体中真正患有艾滋病却仅有1人.因此有必要进展进一步的检测.

但是,我们也应该注意到,这项检测还是为我们提供了一些新的信息.计算结果说明,一个检测结果呈阳性的人患有艾滋病的概率从最初的0.001增加到了0.087,这是原来患有艾滋病概率的87倍.

进一步的计算,我们得到一个检查呈阴性而患有艾滋病的概率为:

因此,通过这项检测,检查呈阴性的人大可放宽心,他患有艾滋病的概率已从千分之一降低到十万分之六。

2.诉讼.

1981年3月30日,一个大学退学学生欣克利(JohnHinckleyJr.)企图对里根总统行刺.他打伤了里根、里根的新闻秘书以及两个保安.在1982年宣判他时,欣克利的辩护律师以精神病为理由作为其无罪的辩护。

作证的医师告诉法院当给被诊断为精神分裂症的人以CAT扫描时,扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描时,只有2%的扫描显示脑萎缩.欣克利的辩护律师试图拿欣克利的CAT扫描结果为证据,争辩说因为欣克利的扫描显示了脑萎缩,他极有可能患有精神病,从而应免受到法院的起诉。

我们尝试用贝叶斯方法对欣克利是否患有精神病做出判断.一般地,在美国精神分裂症的发病率大约为1.5%:

设A={CAT扫描显示脑萎缩};B={做扫描的人患有精神病}.根据上文的表达可知,

由公式:

得:

由公式:

得:

这意味着即使欣克利的扫描显示了脑萎缩,他也只有18.6%的可能患有精神病,因此CAT扫描无法作为其无罪的证据.

3.贝叶斯公式在市场预测中的应用(修正主观概率).

在定性预测方法中,有一种集合意见法,就是主管人员召集营销人员对预测对象进展座谈讨论,提出方案。

在集中意见时,常采用主观概率法加以合成,求出期望值。

如甲营销人员对某种商品销售量的估计最高为1000,最可能为800,最低为500,主持预测者将根据他平时对市场行情的了解程度和分析判断能力,给三种估计以可能实现的概率。

设过去十次预测中,这位营销人员的预测期望值为:

如果我们把每次预测成功置于一定的条件下来考察〔见表1〕,就是贝叶斯公式对原先所给的主观概率予以修正。

表1甲营销人员预测效果表

表中数字为预测成功的次数,成功的标准可以假定一个区间,如

,实际值落入这个区间即为成功。

在进展这一次新的预测时,该商品的货源偏紧,在此信息条件下计算验后概率,先确定检验前概率P(Bi)。

即原先给的主观概率:

从过去10次成功的预测中,最高销售量是3次,最可能销售量是5次,最低销售量是2次。

从而可推断P(Bi)分别为3/10、5/10、2/10最为确切。

再找条件概率P(A/Bi),这是指以三种预测结果为条件能获信息A的概率。

由表1可知预测最高销售量成功三次,其中货源偏紧的一次,即有:

,预测最可能销售量成功五次,其中货源偏紧二次,即有:

,预测最低销售量成功二次,其中货源偏紧一次,即有:

,最后计算检验后概率

即在货源偏紧的条件下,三种预测结果的可能性分为0.25,0.5,0.25,因此检验后概率计算期望值为:

4.贝叶斯过滤技术.

4.1、贝叶斯过滤技术的工作原理

根据贝叶斯理论,根据已经发生的时间可以预测未来事件发生的可能性。

将该理论运用到反垃圾上:

假设某些字词经常出现在垃圾中,却很少出现在合法中,当一封含有这些字词时,那么他是垃圾的可能性就很大。

⑴创立基于字词符号的贝叶斯数据库

用户首先需要对贝叶斯进展培训,即将分类为垃圾〔用户不想要的〕和正常〔用户想要的〕,贝叶斯将提取这些样本中主题和信体中的独立字串,包括字词〔word〕和符号〔token〕〔如$,IP地址,域名等〕,并建立相应的数据库。

⑵创立贝叶斯概率库

统计出每个字串在垃圾中出现的概率以及在正常中出现的概率,然后根据公式计算出中含某字串那么为垃圾的概率。

例如:

在3000封垃圾样本中"mortgage"〔抵押〕出现了400次,而在300封正常中这个词出现了5次,那么其对应的垃圾概率为0.8889〔[400/3000]/[5/300+400/3000]〕。

⑶创立个性化的贝叶斯库

由于每个单位对所收到的偏好是不同的,例如,某个金融类单位在正常中可能经常用到"mortgage"这个词,如果使用静态的关键词过滤,就可能产生很多误判。

如果采用贝叶斯过滤,在对贝叶斯进展培训的时候,将该单位的合法〔自然,很多都包含了"mortgage"这个词〕分类为正常。

这样,垃圾的识别率将更高,同时也使得误判率变得很低。

贝叶斯过滤算法的主要思想是在的大量垃圾中,中包含一些特征串〔token〕,这些特征串可以简单的理解为一个完整的单词,但实际上它不仅仅限于单词,它们一般出现在中的频率特别高,而在一些合法中,另一些特征串出现的频率也很高。

一般而言,对于同一个特征串出现在垃圾和合法中的概率是不同的。

因此,对于出现的每一个特征串,都会生成一个“垃圾指示性概率〞〔spamratio〕。

所以我们就可以判断文本消息的整体“垃圾概率〞。

在垃圾的处理中,对token的定义方法有很多种,如字母、数字、破折号、撇号、美元号等,还有在收件人,发件人和主题等这些栏中出现的token作为相应的标记。

根据一些划分方法从中提取标识时,得到标识的数量比拟大时,这样处理工作带来了较大的计算开销,使整个处理过程的效率下降。

另外,有些标识,例如a、the、of、for等,这些词出现的频率虽然很高,但它们在一封中频繁出现我们并不能说明这封是垃圾还是合法。

因此,必须对标识进展必要的细化处理,找出这些非用词放入一个表中,保存其他的标识为以后工作使用。

4.2、贝叶斯方法过滤垃圾的根本技术原理

⑴收集大量的垃圾和非垃圾,建立垃圾集和非垃圾集。

⑵提取主题和体中的独立字串作为TOKEN串,并统计提取它的TOKEN串出现的次数,即字频。

⑶每一个集对应一个哈希表,设hashtable_good对应非垃圾集而hashtable_good对应垃圾集。

表中存储TOKEN串到字频的映射关系。

⑷计算每个哈希表中TOKEN串出现的概率P=〔某TOKEN串的字频〕/〔对应哈希表的长度〕。

⑸综合考虑hashtable_good和hashtable_bad,推断出当新来的中出现某个TOKEN串时,该新为垃圾的概率。

数学表达式为:

A事件----为垃圾;

代表TOKEN串,那么

表示在中出现TOKEN串

时,该为垃圾的概率。

设:

那么

⑹建立新的哈希表hashtable_probability存储TOKEN串

的映射。

⑺此时垃圾集和非垃圾集的学习过程完毕。

根据建立的hashtable_probability估计一封新到的为垃圾的可能性。

当新到一封时,按照步骤2生成TOKEN串。

查询hashtable_probability得到该TOKEN串的键值。

假设由该共得到N个TOKEN串,

hashtable_probability中对应的值为

表示在中同时出现多个TOKEN串

时,该为垃圾的概率。

由复合概率公式得:

超过预定阈值时,就可以判断为垃圾。

4.3、贝叶斯过滤的优点

⑴贝叶斯过滤技术对的所有容进展分析,不仅仅是其中的某个关键词,而且他能判别是垃圾还是正常。

例如:

包含“free〞“cash〞“发票〞字样的不一定是垃圾,如果采用关键字过滤技术,显然难以到达理想的效果。

而贝叶斯呢,即考虑了这些词在垃圾中出现的概率又考虑了它在正常中的概率,综合考虑这些因素才做出判断。

可以说,贝叶斯具有一定的智能,它对中的关键词汇能综合的进展评判,可以把握“好〞与“坏〞之间的平衡。

显然,这种技术远远高于非1即0的静态过滤技术。

⑵贝叶斯过滤技术具备自适应功能――通过学习新的垃圾及正常样本,贝叶斯将能对抗最新的垃圾。

并且对变体字有奇效。

比方,垃圾发送者开场使用"f-r-e-e"来代替“free〞这样能够绕过关键字检查,除非"f-r-e-e"被加到新的关键字中。

对贝叶斯而言,当它发现中含有"f-r-e-e"时,由于正常中从来没有发现这个词,因此他是垃圾的可能性将急剧增加,"f-r-e-e"这个新词无疑成了垃圾的指示器。

在比方,垃圾中用5e代替se,贝叶斯也推算出他是垃圾的可能性也急剧增加。

⑶贝叶斯过滤技术更加个性化。

他能学习并理解用户对的偏好。

如前所述,‘mortgage’抵押一词对软件单位而言意味者垃圾,但对金融类单位那么意味着好。

贝叶斯能根据用户的这种偏好进展处理。

⑷贝叶斯过滤技术支持多语种或者说与编码无关。

对于贝叶斯而言,他分析的是字串,无论他是字、词、符号、还是别的什么,当然更与语言无关。

⑸贝叶斯过滤器很难被欺骗。

垃圾发送高手通常通过减少垃圾词汇〔如free、viagra、发票〕或者在信中多掺一些好的词汇〔如合同、文件〕来绕过检查一般的容检查,但由于贝叶斯具有的个性化色彩,要想成功的绕过贝叶斯的检查,他就不得不对每个收件人的偏好进展研究,这简直是“不可能完成的任务〞。

垃圾发送者无法容忍的。

假设采用变化字,那么如前所述贝叶斯判断其为垃圾的可能性反而增加。

5.贝叶斯统计及其争论.

目前,针对其他学派指责最多的“先验分布如何确定〞这个贝叶斯统计的难点。

已初步研究出了以下方法:

(1)无信息先验分布;

(2)共轭先验分布;(3)用经历贝叶斯方法确定先验分布;(4)用最大熵方法确定先验分布;(5)用专家经历确定先验分布;(6)用自助(Bootstrap)法和随机加权法确定先验分布。

贝叶斯方法在可靠性分析中有着重要的应用。

数据少是可靠性分析的特点。

由于可靠性分析的对象大多是精细、贵重的仪器设备.试验费用大,样本量小到甚至只有一、二次的试验结果。

在这种情况下去分析设备的可靠性指标。

须尽可能地搜集、综合各种验前经历,整理、推导出参数的先验分布。

而先验分布确实定不是凭空捏造的,是通过正常的逻辑思维获得的。

先验分布的使用,成为验后样本最缺乏的合理的补充。

贝叶斯统计和频率统计都服从1933年柯尔莫哥洛夫提出的概率公理体系,运用概率论知识进展其理论推导。

先验分布确实定表达了贝叶斯统计的特色,使贝叶斯统计成为处理实际问题的简明有效的方法。

面向实际,突出实效也是贝叶斯统计生命力之所在。

二、文献列表

【1】静,东,程小红.贝叶斯公式的几个应用.大学数学.第27卷第2期2011年4月.第166-169页。

【2】周丽华.市场预测中的贝叶斯公式应用.商场现代报.总第487期2006年12月〔上旬刊〕.第55,56页。

【3】明川,长生.基于贝叶斯概率模型的过滤算法探讨.邮电学院学报〔自然科学版〕.第17卷第5期2005年10月.第1-5页。

【4】易均,晖,王歆.基于贝叶斯技术的垃圾处理研究.省科学院,330029。

【5】王洪春.贝叶斯公式与贝叶斯统计.科技学院学报(自然科学版).第10卷第3期2010年6月.第203-205页。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1