第四讲 确定性因子理论.docx
《第四讲 确定性因子理论.docx》由会员分享,可在线阅读,更多相关《第四讲 确定性因子理论.docx(12页珍藏版)》请在冰豆网上搜索。
第四讲确定性因子理论
第四讲确定性因子理论
(theTheoryofCertaintyFactors)
研究背景
确定性因子理论,也被称为确定性因子,确定性因子方法。
使用确定性因子处理不确定性的方法,最初是为专家系统MYCIN提出的。
贝叶斯定理在医疗诊断中的准确使用取决于要知道许多概率值。
例如,在给定某些证据的前提下,贝叶斯定理可用于确定某病人Pa患某种疾病的可能性:
(2.1.1)
其中,关于j的求和遍及所有的疾病,Di表示第i种疾病,E是与Di有关的证据,P(Di)是在未获得任何证据之前病人Pa患疾病Di的先验概率,P(E|Di)是在假设疾病Di存在的前提下病人Pa显现出证据E的条件概率。
要想确定出所有这些概率值,并且所有这些被确定出的概率值又都是相互一致的,通常是极其困难的,甚至是不可能的。
实际上,证据是趋向于一件件积累的。
表达增量证据的一个贝叶斯定理的方便形式是
(2.1.2)
其中,E2是添加到现存证据体E1的新证据,由于E2的添加产生了新证据,
.
尽管公式(2.1.2)是精确的,但是,式中的所有概率值通常是不知道的。
并且,随着证据积聚的数量的增多,所需的概率值的数量会增加得更多,就是说情况会变得更糟。
§1信任和不信任(BeliefandDisbelief)
伴随医学专家出现的另一个问题是信任与不信任之间的关系。
乍看起来,因为不信任显然简单的是信任的反面,由此得出似乎这一问题并不重要。
但事实上,概率论要求
即
.
对于依赖于证据E的后验假说H,有
(2.1.3)
然而,当建造MYCIN的知识工程们开始访问医学专家时,知识工程们发现内科医生极其不愿意用公式(2.1.3)的形式去陈述他们(或她们)的知识。
例如,让我们考虑下述的一条MYCIN规则(Shortliffe,85)
IF1)生物的染色体是革兰氏阳性,并且
2)生物的结构是球菌,并且
3)生物的生长形态是链状的
THEN有一个强度为0.7的参考性证据说明该生物的类别是链球菌
这条规则可写成后验概率形式
0.7(2.1.4)
其中,Ei(i=1,2,3)对应前件的三个模式。
建造MYCIN的知识工程们又发现即使当一个内科医学专家同意了公式(2.1.4),但他们对下述的概率结果却予以拒绝
(2.1.5)
内科专家不同意式(2.1.5)说明数字0.7和0.3是信任的似然性度量,而不是信任的概率值。
这个基本问题是:
P(H|E)蕴涵了E和H之间的原因和结果关系,但E和H之间也许没有或者不一定有原因与结果关系。
如果E和H之间有原因和结果关系,并且公式P(H|E)=1-P(H|E)是正确的,那么就蕴涵着:
E和H之间也有原因和结果关系。
由于概率论的这些问题导致肖特里夫(Shortliffe,1975年)研究表达不确定性的其它方式。
用于MYCIN的方法是以从卡纳普(Carnap,1950年)的确认理论导出的确定因子为基础的。
§2信任和不信任的度量
确定性因子的定义
在MYCIN中,确认度最初被定义为确定因子,它是信任和不信任之间的差。
CF(H,E)=MB(H,E)-MD(H,E)其中,
CF是在证据E存在前提下关于H的确定因子,MB是由于E之存在所引起的关于H的信任增长的度量,MD是由于E之存在所引起的关于H的不信任增长的度量。
信任和不信任之度量通过概率被定义的
(2.1.6)
(2.1.7)
把1和0分别写成max[1,0]和min[1,0]是为了公式(2.1.6)和(2.1.7)之间具有对称性。
要想把MB之公式变成MD之公式,只须将MB之公式中的max换成min.
由公式(2.1.6)和(2.1.7)可得到表1中所列的结论:
表1
结论
MB,MD,CF的取值
假说肯定为真,即P(H|E)=1
MB=1,MD=0,CF=1
假说肯定为假,即P(H|E)=1
MB=0,MD=1,CF=1
缺乏证据,P(H|E)=P(H)
MB=0,MD=0,CF=0
下图1给出了
和
之间的关系:
0
MB与MD之间的关系
MB与MD满足互斥律,即:
当MB[H,E]>0时,必有MD[H,E]=0;
当MD[H,E]>0时,必有MB[H,E]=0;
含义:
同一个证据E不可能同时既增长了对假设H的信任,又增长了对假设H的不信任。
注意,由MB和MD之定义,有
.由互斥律可导出CF与MB和MD之间的关系:
CF值的意义
确定性因子CF指出了对基于某(或某些)证据的一个假说的纯的信任。
CF取正值意味着证据支持假说,因为MB>MD.CF等于1意味着证据肯定地证明了假说。
CF等于零意的情况是:
由CF=MB-MD=0(zero),推知MB=MD=0,就是说没有任何证据存在。
//*由CF=MB-MD=0能否推出:
MB=MD>0?
*//
CF取负值意味着证据赞同否定假说,因为MB不信任一个假说的理由多于信任它的理由。
例如,CF=-0.7意味着不信任比信任大0.7(MB=0,MD=0.7).CF=0.7(MB=0.7,MD=0)意味着信任比不信任大0.7.
确定性因子与概率论的比较
确定性因子(certaintyfactor)允许专家在没有提交关于一个假说的不信任(一个数值)的时候,去表达一个信任值,正如
CF(H,E)+CF(H,E)=0(2.18)
这意味着:
当证据E用程度CF(H|E)确认了一个假说H时,关于假说H的确认程度却不是1CF(H|E),就是说这不是概率论所期待的。
概率论所期待的恰恰是
CF(H,E)+CF(H,E)=1
公式(2.1.8)说明了证据以量Q支持一个假说H的同时,又以相同的量Q减少了对假说H的支持,以致于CF(H,E)与CF(H,E)之和为零。
以当某学生的最后一门课程的成绩为‘A’时,他能否获得学位为例。
H表示能获得学位,E表示最后一门课程的成绩为‘A’
CF(H,E)=0.70CF(H,E)=0.70(2.1.9)
公式(2.1.9)意味着:
如果他的最后一门课程的成绩为‘A’,他有70%的把握获得学位;
如果他的最后一门课程的成绩为‘A’,他有70%的把握得不到学位。
注意70%的发生是因为确定性因子被定义在区间[-1,+1]上,即-1CF(H,E)+1,其中0(zero)意味着证据不存在。
§3不确定性因子的计算
不确定性因子的值也称为不确定性值。
研究三个问题:
(1)证据的不确定性值如何表示?
(2)规则的不确定性值如何表示?
(3)不确定性如何传播?
证据的不确定性的描述
令e代表与E有关的所有证据,把e和E分别看成一条虚拟规则的前提和结论,即
,注意:
这里CF(E,e)是E当前的不确定性值,而不是规则强度。
这正是称其为虚拟规则的原因。
当E肯定为真时,有CF(E,e)=1;
当E肯定为假时,有CF(E,e)=1;
当初始对E一无所知时,或用户还未获得与E有关的任何证据e时,有CF(E,e)=0;
当E以某种程度为真时,有0当E以某种程度为假时,有1更新命题(或证据)的不确定性值的算法
规则前件中诸证据的组合方法
表2中给出了规则前件中诸证据的组合方法。
规则前件
规则前件的不确定性值
E2ANDE1
min{CF(E1,e),CF(E2,e)}
E2ORE1
max{CF(E1,e),CF(E2,e)}
NOTE
-CF(E,e)
表2e表示与前件中的证据相关的所有证据,
分别表示
的当前不确定性值
例,给出一个规则之前件E,e是与E相关的所有证据,前件E中诸Ei的当前不确定性值为:
CF(E1,e)=0.9,CF(E2,e)=0.8,CF(E3,e)=0.3,CF(E4,e)=0.5,CF(E5,e)=0.4.
E=(E1ANDE2ANDE3)OR(E4ANDNOTE5)
E之不确定性值的计算如下
E=max{min(CF(E1,e),CF(E2,e),CF(E3,e)),min(CF(E4,e),-CF(E5,e))}
=max{min(0.9,0.8,0.3),min(-0.5,-(-0.4))}
=max{0.3,-0.5}=0.3
一条规则中的不确定性值的传播
MYCIN中的规则,IFETHENHCF(H,E),其中E,H,CF(H,E)分别是规则的前件,规则之后件(或曰结论),规则强度。
规则强度表示:
当E为真(或者说,规则前件为真)时,H为真的程度。
规则也可表成:
.
(2.1.11)
例子,有规则R1:
IFE1ANDE2ANDE3THENHCF(H,E1ANDE2ANDE3)
e表示与E1,E2,E3有关的所有证据,E=E1ANDE2ANDE3=E1E2E3,已知CF(H,E)=0.7,CF(E1,e)=0.5,CF(E2,e)=0.6,CF(E3,e)=0.3.
规则R1前件的不确定性:
CF(E,e)=CF(E1E2E3,e)=min{CF(E1,e),CF(E2,e),CF(E3,e)}=min{0.5,0.6,0.3}=0.3>0.2
可见规则R1满足触发条件,这里的0.2表示规则触发阈值。
规则R1后件(获结论)的不确定性:
CF(H,e)=CF(E,e)×CF(H,E)=0.3×0.7=0.21
两条后件相同之规则的结论的不确定性值的综合
E1HCF(H,e1)
E2HCF(H,e2)
(2.1.12)
如果另有一条满足触发条件的规则R2,其后件也是H,并且e*表示与规则R2之前件中的证据相关的所有证据,CF(H,e*)=0.5,那么可用公式(2.1.12)计算CF(H,e)=0.21和CF(H,e*)=0.5的综合结果:
CF(H,e&e*)=CF(H,e)+CF(H,e*)-CF(H,e)×CF(H,e*)=0.71-0.105=0.605
显然,公式(2.1.12)具有可交换性,即CF(H,e1&e2)=CF(H,e2&e1),在被综合(或组合)的结论相同的一组规则中,两两综合次序与综合结果无关。
.
§4MYCIN的不确定性值(或不确定性因子)计算的封闭性
CF[-1,+1],显然只须对公式(2.1.12)证明封闭性。
证明:
假设有两条规则IFE1THENHCF(H,E1)和IFE2THENHCF(H,E2),e1和e2分别表示与E1和E2相关的所有证据。
a.CF(H,e1)0且CF(H,e2)0
CF(H,e1&e2)=CF(H,e1)+CF(H,e2)-CF(H,e1)×CF(H,e2)
=CF(H,e1)×(1-CF(H,e2))+CF(H,e2)
1-CF(H,e2)+CF(H,e2)=1
因为CF(H,e1)×CF(H,e2)CF(H,e2),
所以CF(H,e1)+CF(H,e2)-CF(H,e1)×CF(H,e2)CF(H,e1)+CF(H,e2)-CF(H,e2)0
有0CF(H,e1&e2)1
b.CF(H,e1)0且CF(H,e2)0
CF(H,e1&e2)=CF(H,e1)+CF(H,e2)+CF(H,e1)×CF(H,e2)
=-(|CF(H,e1)|+|CF(H,e2)|-|CF(H,e1)|×|CF(H,e2)|)
故由a.可知1CF(H,e1&e2)0
c.CF(H,e1)×CF(H,e2)=1
由公式(2.1.12),可知CF(H,e1&e2)=0
d.CF(H,e1)×CF(H,e2)<0并且|CF(H,e1)×CF(H,e2)|1
不妨令CF(H,e1)<0,CF(H,e2)>0
d1.假定|CF(H,e1)||CF(H,e2)|
d2.假定|CF(H,e1)||CF(H,e2)|
当|CF(H,e1)|=|CF(H,e2)|时,X=0;当|CF(H,e1)|=1时,X=1;
故有1X0.证毕
RULE1:
IFE1THENH1(0.9)
RULE2:
IFE2THENH1(0.8)
RULE3:
IFE3THENH1(0.9)
RULE4:
IFE4ANDE5THENE1(0.9)
RULE5:
IFE6AND(E7ORE8)THENE3(1.0)
RULE6:
IFE9THENH(0.9)
RULE7:
IFH1THENH(0.9)
部分规则集组成的与或树
●输入数据:
●按正确顺序手工计算的结果
§5确定性因子的困难
虽然MYCIN在疾病诊断方面取得了很大的成功,但是在确定性因子的理论方面却存在着一些困难。
它的主要优点是
●不确定性的计算简单
●信任和不信任清晰地被分开
●能表达无知
●CF也很直观、容易被理解。
确定性因子存在的主要困难:
●有时确定性因子方法得到的CF值和条件概率值相反。
例,如果P(H1)=0.8P(H2)=0.2
P(H1|E)=0.9P(H2|E)=0.8
那么,我们有CF(H1,E)=0.5和CF(H2,E)=0.75.
具有较高条件概率的假说却有较低的CF值,这是明显是一个矛盾。
●规则强度的概率独立问题,在MYCIN中,未要求(从而不能保证)任一个推理链中的任意两条规则的确定性因子(规则强度)间是概率独立的。
某一个推理链中的任意两条规则是:
,
转化为一条规则时有:
在MYCIN中就认为有下式成立:
P(H|e)=P(H|I)×P(I|e)
但一般情况下P(H|e)P(H|I)×P(I|e)。
●在上述问题存在的情况下,MYCIN还能取得如此的成功,主要是因为比较短的推理链和比较简单的假设(或假说)缘故。
值得庆幸的是,在实际应用中相当数量的问题是能满足“比较短的推理链和比较简单的假设”的要求的。
●亚当斯(Adams,1985年)具体说明了确定性因子理论实际上是标准概率论的近似。
●实际应用问题常常具有较短的推理链,决不是说实际问题的解决只需一步推理,一般说来,不是很复杂的问题推理链大约不超过5步(推理树大约在5层)。