马尔科夫逻辑网译文.docx

资源描述

马尔科夫逻辑网译文.docx

《马尔科夫逻辑网译文.docx》由会员分享，可在线阅读，更多相关《马尔科夫逻辑网译文.docx（27页珍藏版）》请在冰豆网上搜索。

马尔科夫逻辑网译文.docx

马尔科夫逻辑网译文

马尔科夫逻辑网（译文）

马修理查德森（mattr@cs.washington.edu）和佩德罗多明戈斯（pedrod@cs.washington.edu）

美国西雅图华盛顿大学计算机科学工程系WA98195-250

摘要：

我们提出一个简单的方法将一阶逻辑和概率图解模型组合成一种表示形式。

马尔科夫逻辑网就是一个每个准则或语句都有权重的一阶逻辑知识库，其中常数代表库中对象，还约定了一个基本马尔科夫网知识库中一个一阶逻辑准则的每个可能的基元都带有相应的权重。

马尔科夫逻辑网推理是通过在回答问题所需的最小基元子集上运用马尔科夫链蒙特卡罗方法实现的。

权重是从关系数据库通过拟似然度量的优化迭代高效学习获得，可选择地，额外的子句可运用归纳逻辑程序技术学得。

使用一所大学内的一个真实世界数据库和知识库的实验表明这种方法大有前途。

关键词：

统计关联学习，马尔科夫网，马尔科夫随机场，对数线性模型，图模型，一阶逻辑，可满足性，归纳逻辑程序设计，基于知识的模式构建，马尔科夫链蒙特卡罗方法，拟似然，连接预测

介绍

将概率和一阶逻辑一起表达一直是人工智能界的目标。

概率图模型使我们能有效地应对不确定性，一阶逻辑让我们能简洁地表达广博的知识，而往往许多应用中两者都需要。

近年来，这个问题由于和统计关系学习（Getoor&Jensen,2000;Getoor&Jensen,2003;Dietterich等,2003）,或者多关系数据挖掘（Dzeroski&DeRaedt,2003;Dzeroski等,2002;Dzeroski等,2003;Dzeroski&Blockeel,2004）的相关性引起了广泛兴趣。

当前的提议一般都集中在将概率和一阶逻辑的有限子集组合在一起，如霍恩子句（e.g.,Wellman等（1992）;Poole（1993）;Muggleton（1996）;NgoandHaddawy（1997）;SatoandKameya（1997）;Cussens（1999）;KerstingandDeRaedt（2001）;SantosCosta等（2003）），基于框架的系统（e.g.,Friedman等（1999）;PasulaandRussell（2001）;CumbyandRoth（2003）），或者数据查询语言（e.g.,Taskar等（2002）;PopesculandUngar（2003）），它们都很复杂。

在本论文中，我们介绍了马尔科夫逻辑网，这是一个除了有穷集要求外没有其它限制的能将概率和一阶逻辑结合的非常简单的表示办法。

我们为马尔科夫逻辑网的学习和推理开发了高效的算法，并在某个现实世界场景中进行了评估。

一个马尔科夫逻辑网就是一个每个准则都有权重的一阶逻辑知识库，可看成是构建马尔科夫逻辑网络的模板。

从概率的视角看，马尔科夫逻辑网提供一种简洁的语言来定义大型马尔科夫网，能灵活地、模块化地与大量知识合并；从一阶逻辑的视角看，马尔科夫逻辑网能健全地处理不确定性、容许有瑕疵甚至矛盾的知识库，降低脆弱性。

有许多统计关系学习领域的重要任务，如集合分类、链接预测、链接聚合、社会网络建模和对象识别，都自然而然地成为运用马尔科夫逻辑网推理和学习的实例。

现实世界数据库和知识库的试验显现了马尔卡夫逻辑网相对于纯逻辑方法或纯概率方法的优势。

本论文的开头简要介绍马尔科夫网（第二章）和一阶逻辑（第三章）的基础，核心部分介绍了马尔科夫逻辑网及其推理和学习的算法（第四-六章），接下来是试验结果的报告（第七章），最后，我们介绍了怎样利用马尔科夫逻辑网来完成各种统计关联学习任务（第八章），还讨论了马尔科夫逻辑网与以前一些方法的关系（第九章），最后列出了一些下一步工作的方向（第十章）。

马尔科夫网络

马尔科夫网（也叫马尔科夫随机场）是随机变量集x=x1,x2,…,xn的联合分布模型（Pearl,1988），它由一个无向图G和一个势函数Фk集合组成，每个随机变量是图上的节点，图的每个团在模型中都有一个势函数，势函数是一个非负实函数，它代表了相应的团的状态。

马尔科夫网的联合分布如下

（1）

其中x{k}是团中随机变量的状态，Z也叫配分函数（态和），定义为

。

将马尔科夫网络中每个团的势用状态的所有特征值加权后求和再取幂，就可方便地表示成对数线性模式

（2）

特征函数可以是表示状态的任何实函数，本论文将只讨论二元特征值。

公式一是势最直接的表示，其中每个团每个可能的状态都有一个对应的特征值fj（x），它的权重是wj，这种表示方法与团数量的幂相关。

可是，我们可以自由地运用一些方法比如状态的逻辑函数等减少特征值数量，特别在团数量很大时能相比势函数方式提供一种更简洁的表示形式。

马尔可夫逻辑网络就是利用了这一方式。

马尔可夫网的推理是NP完备问题（Roth,1996）。

最被广泛使用的近似推理方法是马尔可夫链蒙特卡罗法（MCMC）（Gilks等,1996），特别是吉布斯采样法，它依次对每个随机变量在它们各自的马尔可夫毛毯中进行采样处理（一个节点的马尔可夫毛毯是一个节点能与剩余网络互相独立的最小节点集合，简单地说在一个马尔可夫网中，就是节点在图中的邻居）。

边缘概率可通过对采样值的计数得到，而条件概率可将作为条件的随机变量值设定后运用吉布斯采样得到。

另外一种流行的马尔可夫网推理方法是置信传播法（Yedidia等，2001）。

求马尔可夫网权重的最大概似法或者最大后验概率法都不是封闭解，但是由于对数概似函数是权重的凹函数，可运用标准积分或优化的拟牛顿法高效求解（Nocedal&Wright,1999）。

另一种选择是迭代法（DellaPietra等,1997）。

特征值可从数据中学得，比如通过贪婪地构建原子特征合取式（DellaPietra等，1997）。

一阶逻辑

一个一阶知识库是一个由一阶逻辑句子或规则组成的集合。

组成规则的有四种类型的符号：

常数、变量、函数和谓语，常数符号代表所涉及领域的对象（例如,人:

安娜,鲍勃,克里斯,等等），变量符号可在涉及领域的对象范围内变化，函数符号（例如，MotherOf）表示了对象组之间的映射关系，谓语符号代表了对象间的关系（如，Friends）或者对象的属性（如，Smokes），还需要说明哪些符号代表了域中的哪些对象、函数和关系。

变量和常数可以有类型，那样的话常数只能代表同类型的对象，变量只能在同类型的对象范围中取值，例如，变量x可以代表人（如，安娜，鲍勃等），常数C可以表示一个城市（如，西雅图）。

一个词是代表域中对象的任意表达式，它可以是常数，变量或应用到一组词上的函数，比如，安娜、X、GreatestCommonDivisor（x，y）都是词。

一个原子规则或原子是应用到一组词上的谓语（Friends（x，MotherOf（Anna）））。

而规则是使用数量词和逻辑连接符从原子规则递归构建的。

如果F1和F2是规则，那么下列的也是规则：

¬F1（否定），当且仅当F1为假时取真值；F1∩F2（合取），当且仅当F1和F2都为真时取真值；F1∪F2（析取），当且仅当F1或F2为真时取真值；F1⇒F2（蕴涵），当且仅当F1为假或F2为真时取真值；F1⇔F2（等价），当且仅当F1和F2取值一样时取真值；∀xF1（全称量词），当且仅当F1对域中每个对象X为真时取真值；∃xF1（存在量词），当且仅当F1对域中至少一个对象X为真时取真值。

圆括号可用来确保优先级。

知识库中的规则之间隐含合取关系，因此可以说一个知识库就是一条巨大的规则。

一个基词是一个不含变量的词，一个基本原子或基本谓语是一个参数都是基词的原子规则。

一个可能世界或者海尔勃朗解释为每个可能的基词赋真值。

一个规则如果是可满足的，那么当且仅当至少在一个世界中是真的。

一阶逻辑中基本的推理问题一般是确定一个知识库KB是否包含某个规则F，也就是在KB所有真的世界里F也真。

这个常常用反证法证明：

KB包含F当且仅当KB包含¬F无法满足。

（于是，如果一个知识库含有矛盾，所有的规则也就矛盾了，因此，知识库需要非常尽心维护）。

为了方便自动推理，规则常常被转换成一种正则形式，一种句子形式（也叫做合取范式（CNF））。

一个范式的知识库是由一些合取的句子组成，而每个句子又由析取的文字组成。

每个一阶逻辑的知识库都可通过机械的步骤转换成范式。

在一阶逻辑中范式用于问题求解，这是一个健全的、无法反驳的推理方法。

基于一阶逻辑的推理仅是半可解的，因此，知识库往往使用一阶逻辑的有更多特性的限定子集来表示。

霍恩子句是一种最被广泛使用的子集，它的句子只允许最多一个肯定的文字。

Prolog程序语言就是基于霍恩子句逻辑（Lloyd,1987），Prolog程序可以从库中搜索含有近似数据的霍恩子句，这在归纳逻辑程序研究过（Lavrac&Dzeroski,1994）。

表Ⅰ是一个简单的知识库和它的范式转换形式。

请注意，这些规则在现实世界中通常是真的，但不总是真的。

在大多数场景一些重要的规则往往很难表达为一直为真，这些规则仅捕捉到了相关知识的一部分。

尽管善于表达，但是纯粹的一阶逻辑在人工智能实践中应用能力有限。

许多特别的扩展办法被提出来解决这个问题，这个问题在更有限的命题逻辑范围内已被概率图模型很好地解决了。

下一节将介绍将这些模型推广到一阶逻辑的办法。

表Ⅰ是一阶逻辑知识库和马尔可夫逻辑网的例子，Fr、Sm、Ca分别是Friends、Smokes和Cancer的缩写

英文

一阶逻辑

范式

权重

Friendsoffriendsarefriends.

∀x∀y∀zFr（x,y）∧Fr（y,z）⇒Fr（x,z）

¬Fr（x,y）∨¬Fr（y,z）∨Fr（x,z）

0.7

Friendlesspeoplesmoke.

∀x（¬（∃yFr（x,y））⇒Sm（x））

Sm（x）∨Fr（x,g（x））

2.3

Smokingcausescancer.

∀xSm（x）⇒Ca（x）

¬Sm（x）∨Ca（x）

1.5

Iftwopeoplearefriends,eitherbothsmokeorneitherdoes.

∀x∀yFr（x,y）⇒（Sm（x）⇔Sm（y））

¬Fr（x,y）∨Sm（x）∨¬Sm（y）

¬Fr（x,y）∨¬Sm（x）∨Sm（y）

1.1

马尔科夫逻辑网

一个一阶逻辑知识库可以看作是在一系列可能的世界上加上了一套硬约束：

哪怕只与一条规则冲突也不行。

马尔科夫逻辑网的基本想法就是要软化这些约束：

一个可能世界如果与知识库规则冲突，不会不可能存在，而是可能性下降，冲突的规则数越少，可能性越大。

每个规则都和一个反映其约束强度的权重关联：

在其它情况一样的前提下，权重越高的，满足和不满足此规则的事件的对数概率差就越大。

定义4.1 马尔科夫逻辑网L是（Fi，wi）对的集合，其中Fi代表一阶逻辑规则，wi是一个实数；有限的常数集为C={c1,c2,}，马尔科夫网ML,C如下1、2来定义：

1、L中每个谓词的每个可能基元在ML,C中有一个二元节点，如果原子公式为真，节点的值就等于1，否则为0。

2、L中每个规则的每个基本可能在ML,C中有一个特征值，当这个规则为真时等于1，否则等于0，特征值的权重为Fi对应的wi。

马尔科夫网MLN中规则的语法是一阶逻辑的标准语法（Genesereth&Nilsson,1987），自由（未限定）变量被认为是规则最外层的全称变量。

这个定义可以看作构建马尔科夫网络的模板。

如果常数集不同，它会产生大小不同的网络，但是所有关于结构和参数的规则都是确定的（比如一个规则的所有可能都有相同的权重）。

我们把它称作基本马尔科夫网，以示与一阶逻辑MLN的区别。

从定义4.1、等式1和2可以得出，基本马尔科夫逻辑网概率分布如下

（3）

ni（x）是Fi在X中所有取真值的基本规则的数量，而x{i}是Fi中为真的原子，又有ϕi（xi）=ewi。

请注意，虽然我们将马尔科夫逻辑网定义成对数线性模式，它们还可以定义成势函数积的样子，就如上面第二个等式。

当硬约束和软约束并存时，这是最简便的方法（比如，当一些规则很确定时，不满足将导致事件不可能）。

按照定义4.1构建的ML,C的图结构是这样的：

当且仅当两个节点相应的基本原子同时出现在L中的一个规则的至少一个基本形式时，这两个节点之间就有一条边。

这样，ML,C的每个基本公式中的原子构成一个（未必最大的）集团。

图1展示了一个基本的马尔科夫网，它是由表1的最后两个规则和常数Anna和Bob定义的。

图中的每个节点都是基本原子（比如，Friends（Anna，Bob））。

当一对原子同时出现在某个基本规则时，它们之间就有一条弧。

这个ML,C可以用来推测当知道Anna和Bob的吸烟习惯时他们朋友的可能性，或者当他们是朋友同时Anna有癌症时Bob得癌症的概率，等等。

ML,C的每个状态代表了一个可能的世界，一个可能的世界就是一个对象集合、一个函数集合（映射对象组）和一组对象之间的关系；它们一起来确定每个基本原子都取真值。

下面的几个假设保证了代表（L,C）的可能世界集是个有限集，又很好的独特定义了这些可能世界的概率分布，同时还与所涉领域和表达形式无关。

这些假设在绝大多数实践应用中是合理的，大大简化了马尔科夫逻辑网的应用难度。

有赖于此，我们可以轻松地讨论后面的几个例子。

假设1：

命名唯一性。

不同的常数代表不同的对象（Genesereth&Nilsson，1987）。

假设2：

范围封闭性。

只存在能用（L，C）中常数和函数符号表示的对象（Genesereth&Nilsson，1987）。

假设3：

函数确定性。

L中每个函数每个可能的值都确定在常数集C中。

最后这个假设可以让我们在基本化规则时将函数替换成它们的值，就只需考虑以常数作为参数的基本原子，这样就可以忽略（L,C）中所有的函数和常数（海尔勃朗全域）构建无限原子集的情况，因为每个词都是C中确定的常数，包含它们的原子也就表示为包含对应的常数。

按定义4.1每个谓词的可能基形可以这样简单得到，将变量用C中常数替换，将函数也用相应的常数替换。

表Ⅱ是在假设1、2、3基础上求基本原子规则的步骤。

如果一个规则多于一条子句，那么它的权重在各个子句上平分；而一个句子的权重会被赋予它的每个基本形式。

表II基本原子的构建

functionGround（F,C）

inputs:

F,aformulainfirst-orderlogic

C,asetofconstants

output:

GF,asetofgroundformulas

calls:

CNF（F,C）,whichconvertsFtoconjunctivenormalform,replacingexistentiallyquantifiedformulasbydisjunctionsoftheirgroundingsoverC

F←CNF（F,C）

GF=Φ

foreachclauseFj∈F

Gj={Fj}

foreachvariablexinFj

foreachclauseFk（x）∈Gj

Gj←（Gj\Fk（x））∪{Fk（c1）,Fk（c2）,.....Fk（cj）g}，whereFk（ci）isFk（x）withxreplacedbyci∈C

GF←GF∪Gj

foreachgroundclauseFj∈GF

repeat

foreachfunctionf（a1,a2,.....）allofwhoseargumentsareconstants

Fj←Fjwithf（a1,a2,......）replacedbyc,wherec=f（a1,a2,......）

untilFjcontainsnofunctions

returnGF

假设1（命名唯一性）可以去掉，如果引入等于谓词（Equals（x,y）或x=y）并将等于的自反、对称和传递性，以及对于任意二元谓词P，

，其余高阶的谓词和函数也一样，这些公理加入马尔科夫逻辑网的话（Genesereth&Nilsson，1987）。

每对常数在最终形成的马尔科夫逻辑网中都有一个节点，1代表这对常数是同一对象，否则为0；这些节点之间以及和网络的其它部分的连接弧代表了上述的公理。

这让我们有能力对两个常数的等同性进行概率推理，并成功地以此法为基础进行了对象识别（请参阅8.5节）。

如果知道未知对象的数量u，我们可以简单地引入u个任意新常数，这样假设2（范围封闭性）就可以去掉了。

如果u不确定但是有限的，假设2也可以不用，办法是引入u的概率分布，用每个未知对象的数量对马尔科夫逻辑网基本化，规则F的概率可计算为

，MuL，C是有u个未知对象的基本马尔科夫逻辑网。

而u如果无限的话，就需要将马尔科夫逻辑网扩展至无限常数集条件下。

让HL,C代表由L中的符号、（L，C海尔勃朗全域）中的常数构建的所有基词。

如果将HL,C的每个对象看作常数，采取去掉假设1相同的步骤的话，假设3也可以去掉。

例如，函数G（x）、常数A和B，这个马尔科夫逻辑网将有节点G（A）=A、G（B）=B等。

这有可能引入无限多的新常数，需要相应扩展马尔科夫逻辑网。

但无论如何，如果我们限定最大嵌套层数的话，得到的马尔科夫逻辑网还是有限的。

总之，只要范围是有限的，那么假设1-3都可以不要。

我们相信马尔科夫逻辑网能扩展到无限领域（Jaeger（1998）），不过那主要是理论研究领域的事，我们以后再考虑。

除非另外注明，本论文的接下来部分都基于假设1-3。

简单地将一个一阶逻辑知识库的每个规则赋予权重，这个库就变成一个马尔科夫逻辑网。

例如，利用表Ⅰ最后两行的句子和权重构建的马尔科夫逻辑网，当其它条件相同时，根据这个马尔科夫逻辑网可以得出，n个没有朋友的人不吸烟的概率要比所有没有朋友的人都抽烟的概率小e（2.3）n倍。

值得注意的是，表Ⅰ的那些带全称量词的规则在现实世界都是错的，但是作为马尔科夫逻辑网的特征来看的话，却抓住了朋友友谊和吸烟习惯间的有用信息。

比如，青少年朋友倾向于有相同的吸烟习惯（Lloyd-Richardson等，2002）。

事实上，像表Ⅰ这样一个马尔科夫逻辑网简洁地表示了一个社会关系分析中的一个主要模型（Wasserman&Faust，1994）。

显而易见，马尔科夫逻辑网包含了命题逻辑概率模型的所有要素，下面详细说明。

命题4.2：

任意离散或有限精度的数字随机变量的概率分布都能用马尔可夫逻辑网表达。

证明：

首先考虑布尔型的随机变量（X1，X2，......，Xn）；我们为每个变量Xh定义一个不含参数的谓词Rh，再将表示（X1，X2，......，Xn）每个状态的规则加入到L中；这个规则是n个字的合取，当Xh为真时这个字取Rh（），否则取¬Rh（），这个规则的权重为logP（X1，X2，......，Xn）（如果某些状态概率为0，我们就采用乘积形式，见等式3，用ϕi（）表示i状态的概率）；因为L中所以谓词都没有参数，L所定义的马尔科夫逻辑网每个变量Xi就是一个节点，而且这个ML,C与常数C无关；对于任一状态，相应规则为真，其它规则为假，这样等式3就代表了初始分布（注意Z=1）。

只要为每个变量定义一个没有参数的谓词，将上述方法推广到任意离散变量就很简单直接；有限精度数字随机变量也一样，只要用布尔矢量表示这些变量就可以了。

（证毕）

当然，只要为相应的要因定义规则（马尔科夫网的任意特征、节点状态以及贝叶斯网络中的父节点），象马尔科夫网、贝叶斯网这样的紧凑要因模型仍然能用马尔科夫逻辑网简洁地表示。

一阶逻辑（在假设1-3下）是马尔科夫逻辑网的一个特例，下面将接着讨论，这个特例的所有权重都相等且趋向无限大。

命题4.3设KB是一个可满足的知识库，L是一个所有规则都带有权重的代表KB的马尔科夫逻辑网，C代表KB中出现的常数集，Pw（x）是由ML,C得出的事件集x的概率，XKB是满足KB的事件集，F为一阶逻辑的任意规则，那么有：

1、∀x∈XKBlimw→∞Pw（x）=|XKB|-1

∀x∉XKBlimw→∞Pw（x）=0

2、∀FKB蕴含F当且仅当limw→∞Pw（F）=1

证明：

设k为ML,C中基本规则的数量，利用等式3，若x∈XKB则Pw（x）=ekw/Z，若x∉XKB则Pw（x）≤e（k-1）w/Z；所有x∈XKB等概率，又limw→∞P（x\XKB）/P（XKB）≤limw→∞P（|x\XKB|）/P（|XKB|）e-w=0（第一点证毕）。

由蕴含的定义，所有满足KB的事件也满足F，设XF为满足F的事件集，那么有XKB⊆XF，而Pw（F）=Pw（XF）≥Pw（XKB），由第一点limw→∞Pw（XKB）=1，所以，limw→∞Pw（XF）=1；反过来，如果limw→∞Pw（XF）=1，那么每个非零概率的事件极限上必须满足F，这就包含了XKB中所有的事件。

（证毕）

换句话说，在所有相等的无穷大权重的极限中，马尔科夫逻辑网表示了满足知识库的所有事件的一个均匀分布，所有蕴含问题可以通过计算问题规则的概率是否为1来判断。

即使在权重是有限值的情况下，从下面的观念来看，一阶逻辑已被植入到了马尔科夫逻辑网中。

不是一般性，我们假设权重都是非负的（若一个规则的权重w为负值，我们就用它的否定形式来替换，这时权重为-w），如果一个由马尔科夫逻辑网L中规则构成的知识库是可满足的，那么，对于任意常数集C来说，满足情况的模式分配就是马尔科夫逻辑网所代表的概率分布，这是因为这些模式都是有最大值∑iwini（x）（见等式3）的事件，这个表达式在所有规则的所有可能为真时取最大值（比如，满足知识库）。

但不管怎样，马尔科夫逻辑网和通常的一阶逻辑知识库不一样，当包含矛盾的规则时，它也能产生有用的结果。

一个马尔科夫逻辑网也可以通过一些知识库的合并来获得，即使这些知识库有部分不相容。

这个特性在某些领域非常有潜力，如语义网（Berners-Leeetal.，2001）和大规模协作（Richardson&Domingos，2003）。

有一个马尔科夫逻辑网一般化一阶逻辑的简单而有趣的例子，设一个马尔科夫逻辑网只有一条规则：

∀xR（x）⇒S（x）、权重为w，常数集C={A}；这里只有4个事件：

{¬R（A），¬S（A）}、{¬R（A），S（A）}、{R（A），¬S（A）}、{¬R（A），S（A）}，从等式3可以得出：

P（{R（A），¬S（A）}）=1/（3ew+1）、其它三个事件的概率是ew/（3ew+1）（除数是配分函数Z，见第二章）；这样，如果w>0，这个马尔可夫网使得与∀xR（x）⇒S（x）不一致的事件比其它的三个可能性更低一些；从上我们得到P（S（A）|R（A））=1/（1+e-1），limw→∞P（S（A）|R（A））=1，又回到

展开阅读全文