贝叶斯法则分析.docx

资源描述

贝叶斯法则分析.docx

《贝叶斯法则分析.docx》由会员分享，可在线阅读，更多相关《贝叶斯法则分析.docx（10页珍藏版）》请在冰豆网上搜索。

贝叶斯法则分析.docx

贝叶斯法则分析

贝叶斯法则的应用分析

一、贝叶斯法则的含义

贝叶斯定理由英国数学家贝叶斯提出，用来描述两个时间概率之间的关系。

设A1、A2、A3......是两两互斥的事件，且P（Ai）>0，i=1、2、3......n。

另一事件B，总是与A1、A2、A3......之一同时发生，则在B发生条件下Ak发生的概率可以表示为：

将Ai看成是导致随机事件B发生的各种可能的原因，则P（Ai）可以理解为随机事件Ai发生的先验概率。

如果我们知道随机事件B发生这个新信息，则可以利用接收到的信息对事件Ai发生的先验概率进行重新的估计。

概率P（Ai/B）就是知道了新信息“事件B发生”后对于概率的重新认识，成为事件Ai的后验概率。

注：

（1）先验概率是指人们己有的对各种可能结果的出现可能性大小的判断；

（2）后验概率是人们利用接收到的信息进行修正后所形成的新的判断，而这个修正过程被假定是依照贝叶斯法则进行的。

二、贝叶斯法则的应用

（一）信用识别方面的应用

1、迟到与信用

诚信在人际交往过程中起着至关重要的作用，而诚实守信的印象来自于长期的交往和接触，这里我们用不断更新信息的贝叶斯法则对诚信的积累进行解释。

令B表示某人诚信，

表示其不诚信。

事件A为其迟到一次，

为不迟到。

小王对此人的先验认识为

1、此人迟到一次时，小王对此人的认识调整为：

，诚信概率下降到44%。

2、此人第二次仍然迟到时，小王对此人的认识调整为：

，诚信的概率下降到13.6%。

3、有趣的是，如果此人第一次迟到，第二次不迟到，

迟到一次与准时一次对人们的认识的影响完全不一。

2、烽火戏诸侯

信用在人际关系、信贷、商战中占有重要地位，如果持续的恶意欺骗，终将导致信用等级降低，对自身造成不良影响。

有个典故叫“烽火戏诸侯”，指西周时周幽王因宠爱褒姒，为褒姒一笑，多次点燃烽火台，戏弄诸侯，虽博褒姒一笑，但却失信于诸侯。

用概率的观点来解释可信度及诸侯决策的变化情况。

A事件表示“周幽王戏弄诸侯”，B事件表示“外敌确实入侵”。

假设根据以往经验，点燃烽火时，P（B）=0.99，P（A|B）=0.001，

。

诸侯的决策：

主动发兵救援。

第一次戏弄诸侯后，点燃烽火表示外敌入侵的可信度变化情况如下，根据贝叶斯公式：

第一次戏弄诸侯的前提下，点燃烽火表示外敌入侵的可信度由0.99降为0.9083，在周幽王第二次戏弄诸侯后，点燃烽火表示外敌入侵的可信度变化如下，根据贝叶斯公式：

此时诸侯将不再相信周幽王，到最后不再发兵。

同样运用到人际关系，如果连续进行欺骗，将对个人信誉造成严重影响。

3、狼来了：

村民对小孩的可信度是如何下降的

记事件A为“狼来了”，记事件B为“村民认为小孩可信”。

设村民过去对这个小孩的印象为P（B）＝。

另外假设：

可信的小孩呼救时，狼真的来了的概率为；不可信的小孩呼救时，狼真的来了的概率为；即P（A|B）=，P（A|）=。

当第一次村民上山打狼，发现狼没有来时，村民们对说谎小孩的认识集中体现在条件概率P（|）上，利用贝叶斯公式可计算得：

P（|）＝=0.625

这表明村民上了一次当后，认为这个小孩说谎话的概率由原来的0.333变为0.625，则此时P（B）＝0.375，村民对这个小孩的信任度降低。

同时，由于这个小孩说过一次谎，则第二次说谎的概率会有所降低，设P（A|B）=，P（A|）=。

在此基础上，村民们第二次上山打狼，仍没有看见狼，这时村民就再一次调整对这个小孩说谎的认识，即再一次利用贝叶斯公式计算条件概率：

P（|）=0909

这表明村民经过两次上当，认为这个小孩不可信的概率又从0.625变为0.909，即十句话中有九句在说谎，故听到第三次呼救时不会再上山打狼。

同理，当某人向银行贷款，连续两次未还，第三次能获得贷款的概率非常低。

（二）疾病监测

1、肝病检查

某地区肝癌的发病率为0.0004，先用甲胎蛋白法进行普查。

医学研究表明，化验是存在误差的。

患有该病的人化验结果99%呈阳性（有病），而没有患肝癌的人化验结果99.9%呈阴性（无病）。

如果一个人的检查结果呈阳性，其真正患肝癌的概率是多少？

记A为事件“被检查者患有肝病”，B为事件“检查结果为阳性”，则

这个结果令人吃惊，在检查结果呈阳性的人中，真正患肝癌的人不到30%!

仔细分析，由于肝癌的发病率很低，在10000人中约有4人，而约9996人不患肝癌。

对10000人进行甲胎蛋白法检查，按其错检的概率可知，9996个不患肝癌的人中约有9996*0.001=9.996人呈阳性。

另外四个真正患有肝癌的人中约有4*0.99=3.96个呈阳性。

从这13.956个呈阳性的人中，真正患有肝癌的人只占到28.4。

实际中，常采用复查的方法来减少错误率，或用一些简单易行的辅助方法进行初查，排出了大量明显不是肝癌的人后，再用甲胎蛋白对被怀疑的对象进行检查。

譬如，对首次检查呈阳性的人群在进行复查，此时P（A）=0.284，再次利用贝叶斯公式：

复查再次呈阳性的人真正患有肝癌的概率为99.7%，这样大大提高了肝病检查的准确率。

2、疾病诊断.

假设有一台癌症诊断仪，通过对它以往的诊断记录的分析，如果患者确实患有癌症它的确诊率为90%，若果患者没有癌症，被诊断成癌症的概率为10%。

问题：

如果一个人被这台诊断仪确诊成癌症，这个人患有癌症的概率是多少？

设 A：

癌症诊断仪给出癌症诊断。

B1：

病人是癌症患者。

B2 病人不是癌症患者。

P（A|B1） = 90%； P（A） = 90%*P（B1） + 10%*P（B2）；

则:

P（B1|A） = P（B1）*90% / （90%*P（B1） + 10%*P（B2））；

我们知道人群中癌症患者的比重是很小了，假设为1%，则 P（B1） = 1%；P（B2） = 99%；

可以算出：

P（B1|A） = 8%

看出什么问题了吗？

如果医生仅仅根据癌症诊断仪给出的确诊信息就认为病人有很大可能性患有癌症（医生经常这么做），那就太不付责任了！

因为即使这样，这个病人得癌症的概率还是只有8%!

对公式P（B1|A） = P（B1）*90% / （90%*P（B1） + 10%*P（B2））做一下简单的变形，得:

P（B1|A） =1 / （1 + （10%*P（B2））/（P（B1）*90%））

在结果中只有一个变量 P（B2））/（P（B1），这个比率也叫做基础比率。

基础比率越大，P（B1|A）的值越小。

在本例中P（B2））/（P（B1） = 99：

1。

在推理中基础比率起到的至关重要的作用。

可是大部分人在生活中做判断的时候却忽略了它,从而对于必然的小概率事件的发生深信不疑。

（三）日常生活的应用

1、“单身贵族”为何难以脱单

在这里，“单身”就是实践B，原因有很多，借用南开大学的两个学生对大学单身原因做的研究，发现决定单身的因素主要有：

学霸指数、支出、宅、长相和身材、心理成熟程度、开朗程度、未来规划、星座和血型。

通过卡方独立性检验对学霸指数、未来规划和血型进行检验，结果显示这三项都无关。

利用假设检验对支出和身高进行了检验，发现只有支出有关。

利用单因素方差分析检验了宅、心理成熟指数、开朗指数和星座，发现只有心里成熟指数有关。

最后利用双方差分析检验了长相和身材，发现这个是相关的。

所以，影响是否脱单的因素是：

支出、心理成熟指数、长相和身材。

假设我们能够得到这三个因素发生的概率P（Ai），如月开销在800元以下的大学生的概率为P（A1）=30%，通过问卷评分得到的心理不成熟的大学生概率P（A2）=30%，长相和身材评分在平均分以下的大学生概率P（A3）=40%。

并且在筛选得到由于这三种原因导致单身的概率分别为

。

利用贝叶斯公式，我们能够计算在已知单身的情况下，Ai发生的概率分别为：

由此可见，导致大学生单身最可能的原因是长相和身材不佳。

不过，现实生活中，我们不能保证这三个因素是互斥事件并且能够完全涵盖单身的原因。

如包含诸如年龄差异、家庭背景差异等，这三个因素就不能组成一个完整的集合，上述计算并不恰当。

另外，单身贵族可能同时具有以上几个因素，我们难以确定因为一个因素导致单身的概率到底是多少。

2、选课的博弈

假设情况如下：

金融学院共有学生90人，要从三门课程中选择一门作为选修，分别为行为金融学，投资银行学和公司金融，各门课容量为30人。

根据之前选修课程经验来看，学院规定的高分率为20%，低分率为80%，而在高分群体中，选了徐老师行为金融学的占到90%。

事件A1：

选修课获得高分，P（A1）=20%;事件A2：

选修课获得低分，P（A2）=80%；

事件B:

同学选修了行为金融学；P（B）=30/90=1/3

也就是说，如果选了徐老师的课，一半以上的同学能够得到高分，这就是后验概率。

于是，本学期，大家趋之如骛地选择徐老师的课，但只有三分之一的人能够选上。

可是，这学期期末显示，选择徐老师的课的同学成绩较低，贝叶斯估计就出现了误差。

对此分析如下：

之前的数据中，选择行为金融学的同学都是因为对行为金融本身比较感兴趣，因此学习氛围好，教学效果好，因此高分率比学院平均水平要高。

但随着统计结果的公布，本学期选择行为金融学的同学很多处于一个功利的心态试图获取高分，学习氛围欠佳。

因此，贝叶斯公式倾向于从过去的经验中得到结果，倾向一种主观性、经验主义。

但是随着时间推移，以前得到的结论可能不会可靠，于是从先验概率里推导的后验概率可能与实际不符，需要根据时间变化对信息进行更新。

（四）思维游戏

《三扇门理论》

有三扇门A、B、C，其中只有一扇门后有汽车，另外两扇门后面一无所有。

现在让一个人来选，如果他选的门后面有汽车，他将得到汽车；如果他选择的门后面一无所有，他将一无所得。

现假定你选了A门，而主持人知道另外两扇门后的情况，于是他打开了B、C两门中的一扇，设为C，门后没有汽车；这时主持人告诉你，现在还可以改变选择，即在B门和A门之间选择，问你是否应该改变你的选择？

答案是改变选择。

游戏开始，设P（X）为A、B、C三道门后面有车的概率，则P（A）=P（B）=P（C）=1/3如果车在A门后面，主持人有B、C两种选择，打开C门（空门）的概率为:

P（HostopensC|A）=1/2

如果车在B门后面，主持人没有选择，只能打开C门:

P（HostopensC|B）=1

如果车在C门后面，主持人一样没得选择，绝对不能开C门:

P（HostopensC|C）=0

所以，主持人打开C门的概率为:

P（HostopensC）=P（A）*P（H.o.C|A）+P（B）*P（H.o.C|B）+P（C）*P（H.o.C|C）

=1/6+1/3+0=1/2

人打开C门的条件下，A、B两门后面是车的概率分别为

这就是为什么要换B门的原因。

三、贝叶斯法则的特点和局限性

（一）贝叶斯法则的理解与启示

1、用客观的新信息更新我们最初关于某个事物的信念后，我们就会得到一个新的、改进了的信念。

2、贝叶斯法则告诉我们切不可盲从，凭主观感觉下决策，而要多分析，收集与利用信息，这样决策风险才会被降低，是理性人的表现。

3、用已发生的事实修正过去的认知，获取信息，提升自己。

4、贝叶斯法强调了现象与原因之间的关联性，则有助于解释群体不理智事件。

如抢盐风波。

5、想要在一件事上成功，就要找出其中最关键的原因，一举击破，成功率就会大幅提高。

6、人生像贝叶斯，一个人的过往、出生、背景就是先验，先验永远会对后验产生影响，现在是过去的延续，所以每一步都十分重要。

（二）贝叶斯法则的局限性

1、难以寻求完备的划分。

全概率公式要求找到导致事件发生的所有原因，并且这些原因构成一个唯一的完备的划分。

再根据各原因发生的概率为权重调整求和，最后求得时间发生的概率。

因此，得到时间发生原因的正确划分是贝叶斯公式成立的必要条件。

然而，由于现实世界中的不确定性，导致同一事件发生的原因有千万种，我们很难对事件原因进行完整的梳理。

并且各个原因之间可能存在重合或者关联度较高，寻求完备并且互不重叠的事件原因困难重重。

2、信息赋予的权重不同。

此外，由于每个人处理信息的方式不同，对各种原因赋予的权重也不同，从而影响整个公式的准确性。

以许多人在当前择业过程中的困惑为例。

面临择业压力时，我们对“今我”分析的过程中，往往着重分析近几年发生的事件和信息，特别是消极的信息。

比如，我们会认为当初选择会计而非金融专业，择业压力会有所不同，会认为在大四就业而非读研机会更多。

其实我们都错了，在当时做决策的时点，我们考虑了很久，所以那些决策是基于当时时点之前得到的信息所能做出的最好的决策。

而如今，我们依据当前充满压力的形势给那些决策赋予了太高的权重，忽略了整个23年的样本中认真挑选重要样本来分析“今我”。

因此，我们才会陷入一种懊悔的悲观情绪当中。

现实中，人们在决策过程中往往给予最近发生的事件和最新的经验以更多的权重。

面对复杂而笼统的问题，依据可能性而非概率进行决策，这种对经典模型的系统性偏离称为“偏差”。

由于偏差的存在，投资者在决策判断时并非绝对理性，进而影响资本市场上的价格变动。

3、贝叶斯法则认为，当样本大到接近总数时，样本中事件发生的概率将接近于总体中事件的概率，人们可以在不能准确知道事物的本质时，用与事物特定本质相关的事件出现的概率来判断本质出现的概率。

但是，人们更易夸大小样本的代表性，误作整体的概率分布。

要认识黑天鹅事件，全面获取信息。

4、对“第一个吃螃蟹的人”，贝叶斯法则不适用。

5、贝叶斯法则在金融市场中的局限性：

一是信息存在短期反应不足问题，二是行为人对于金钱配置的偏好不同。

这会导致行为人的决策行为不同。

6、行为金融学家发现，人们在决策过程中往往并不遵循贝叶斯规律，而是给予发生的事件和最新的经验以更多的权值。

面对复杂而笼统的问题，人们往往走捷径，依据可能性而非依据概率来做决策。

这种对经典模型的系统性偏离称为“偏差”。

同时，在金融市场中还存在一些其他非理性行为：

行为人在面对不确定的情况做预期的时候，会夸大小样本的代表性；行为人会采用启发式的推理方法，即利用非常简单的方法简化复杂的问题，形成一种单一的决策过程等等。

但长期以来，由于缺乏有力的替代工具，经济学家不得不在分析中坚持贝叶斯法则。

其他应用举例：

1.企业资质评估

在市场经济条件下,一些大的建筑工程都实行招投标制.在发包过程中,对参加招标的施工企业的资质（含施工质量,信誉等）进行调查和评定是非常重要的.B={被调查的施工企业资质不好},A={被调查的施工企业资质评定为不好}.由过去的资料知P（A/B）=0.97,

=0.95.现已知,在被调查的施工企业当中有6%确实资质不好,我们来看一下评定为资质不好的施工企业确实资质不好的概率:

由此可知,被评为资质不好的施工企业中,真正不好的约占55%,也就是说,误评的可能性相当大.所以不能对评为不好的企业轻易下不发包的结论.为了使发包工作公正合理地进行,一般应从其他方面对这些企业进行深入了解,再作决定。

2.诉讼判决

1981年3月30日,一个大学退学学生欣克利（JohnHinckleyJr.）企图对里根总统行刺.他打伤了里根、里根的新闻秘书以及两个保安.在1982年宣判他时,欣克利的辩护律师以精神病为理由作为其无罪的辩护.作证的医师告诉法院当给被诊断为精神分裂症的人以CAT扫描时,扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描时,只有2%的扫描显示脑萎缩.欣克利的辩护律师试图拿欣克利的CAT扫描结果为证据,争辩说因为欣克利的扫描显示了脑萎缩,他极有可能患有精神病,从而应免受到法院的起诉.

一般地,在美国精神分裂症的发病率大约为1.5%.

让我们尝试用贝叶斯方法对欣克利是否患有精神病作出判断.

设A={CAT扫描显示脑萎缩};B={做扫描的人患有精神病}.根据上文的叙述可知,P（B）=0.015,P（A/B）=0.3,P（

）=1-0.015=0.985,P（

）=0.02,得:

=0.186

这意味着即使欣克利的扫描显示了脑萎缩,他也只有18.6%的可能患有精神病,因此CAT扫描无法作为其无罪的证据.

3.侦查破案

在一个有雾的傍晚发生了一起交通事故，肇事车是本市一辆出租车，该车已逃逸，有一目击者认定是一辆绿色出租车，假定经调查该市有红、绿两种颜色

的出租车，其中绿色占15%，红色占85%，我们假定通过测试可知，目击者将红色看成红色的概率为0.7，将红色看成绿色的概率为0.3，将绿色看成绿色的概率为0.8，将绿色的看成红色的概率为0.2。

若你是交警，你确信目

击者的证言吗？

设A=“该出租车确实是绿色的”，

B=“该出租车确实是红色的”

C=“目击者看到的是绿色的”，

D=“目击者看到的是红色的”

根据计算，在这种情形下目击者尽管说真话，但他判断正确的概率为0.32，即只有大约32%的可能性是正确的，所以交警还要收集其它方面的证据，确定侦察方向。

4、不完全信息动态博弈

全垄断市场，只有一家企业甲提供产品和服务。

企业乙是否进入。

当然，甲企业不会坐视乙进入而无动于衷。

乙企业也清楚地知道，是否能够进入，完全取决于甲企业为阻止其进入而所花费的成本大小。

挑战者乙不知道原垄断者甲是属于高阻挠成本类型还是低阻挠成本类型，但乙知道，如果甲属于高阻挠成本类型，乙进入市场时甲进行阻挠的概率是20%（此时甲为了保持垄断带来的高利润，不计成本地拼命阻挠）；如果甲属于低阻挠成本类型，乙进入市场时甲进行阻挠的概率是100%。

事件A：

乙进入市场时受到甲阻挠

事件B：

甲属于高阻挠成本类型

博弈开始时，乙认为甲属于高阻挠成本企业的概率为70%，因此，乙估计自己在进入市场时，受到甲阻挠的概率为：

P（A）=0.7×0.2+0.3×1=0.44

当乙进入市场时，甲确实进行阻挠。

使用贝叶斯法则，乙认为甲属于高阻挠成本企业的：

根据这一新的概率，乙估计自己在进入市场时，受到甲阻挠的概率为：

0.32×0.2+0.68×1=0.744

如果乙再一次进入市场时，甲又进行了阻挠。

使用贝叶斯法则，根据再次阻挠这一可观察到的，乙认为甲属于高阻挠成本企业的概率变成

这样，根据甲一次又一次的阻挠，乙对甲所属类型的判断逐步发生变化，越来越倾向于将甲判断为低阻挠成本企业了。

以上例子表明，在不完全信息动态博弈中，参与人所采取的具有传递信息的作用。

尽管甲企业有可能是高成本企业，但甲企业连续进行的市场进入阻挠，给乙企业以甲企业是低阻挠成本企业的印象，从而使得乙企业停止了进入地市场的行动。

应该指出的是，传递信息的是需要成本的。

假如这种没有成本，谁都可以效仿，那么，这种行为就达不到传递信息的目的。

只有在需要相当大的成本，因而别人不敢轻易效仿时，这种行为才能起到传递信息的作用。

5、在舆论方面的应用

分析“指鹿为马”典故中决策者受周边信息影响而产生的决策变化情况。

用A表示“此动物是鹿”Bi表示“第i个人说是马”。

假设决策者在初始情况下认为此动物是鹿的概率P（A）=0.9，各Bi相互独立，设

P（Bi/A）=0.1，

，i=1,2,3........

当听到第一个人说动物是马时，决策者认为此动物是鹿的概率为：

当听到第二个人说动物是马时，决策者认为此动物是鹿的概率为：

若当听到第三个人说动物是鹿时，决策者认为此动物是鹿的概率为

可以看出当收到正确的信息影响时，决策者判断正确的概率同时也会增大，同理，当再连续听到2个人说是马时，决策者认为此动物是鹿的概率仅为0.0142。

由此可见核实信息准确性的重要性。

展开阅读全文