pathrankingalgorithm调研报告.docx

资源描述

pathrankingalgorithm调研报告.docx

《pathrankingalgorithm调研报告.docx》由会员分享，可在线阅读，更多相关《pathrankingalgorithm调研报告.docx（16页珍藏版）》请在冰豆网上搜索。

pathrankingalgorithm调研报告.docx

pathrankingalgorithm调研报告

1.引言

近两年来，随着LinkingOpenData等项目的全面展开，语义Web数据源的数量激增，大量RDF数据被发布。

互联网正从仅包含网页和网页之间超链接的文档万维网（DocumentWeb）转变成包含大量描述各种实体和实体之间丰富关系的数据万维网（DataWeb）。

在这个背景下，Google、XX和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱，如KnowledgeGraph、知心和知立方等，用以改进搜索质量，从而拉开了语义搜索的序幕。

正如Google的辛格博士在介绍知识图谱时提到的：

“Theworldisnotmadeofstrings,butismadeofthings.”，知识图谱旨在描述真实世界中存在的各种实体或概念。

其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符（identifier）。

每个属性-值对（attribute-valuepair，又称AVP）用来刻画实体的内在特性，而关系（relation）用来连接两个实体，刻画它们之间的关联。

知识图谱亦可被看作是由一张巨大的图组成，图中的节点表示实体或概念，而图中的边则由属性或关系构成，我们需要构建并使用这张图。

大规模知识图谱的构建与应用需要多种智能信息处理技术的支持，其中主要包括：

实体链指（EntityLinking）、关系抽取（RelationExtraction）、知识表示（KnowledgeRepresentation）、知识推理（KnowledgeReasoning）等。

在知识推理方面，利用推理规则实现关系抽取的经典方法之一就是PathRankingAlgorithm算法，由Lao&Cohen与2010年提出。

该方法将每种不同的关系路径作为一维特征，通过在知识图谱/KnowledgeBase中统计大量的关系路径构建关系分类的特征向量，建立关系分类器进行关系抽取，取得不错的抽取效果，成为近年来的关系抽取的代表方法之一。

但目前这种基于关系的统计的方法，只能在连通图上使用，对于那些出现频率低的关系有严重的数据稀疏问题，且代价高昂。

针对这样的问题，现今也出现了许多针对该算法的改进研究。

2.PathRankingAlgorithm

2.1RandomWalkandRestart

Randomwalkwithrestart（RWR）是最初提出的图像分割算法，也叫PersonalizedPageRank。

它迭代地探讨了网络的全局结构，估计两个节点之间的接近（亲和度得分）。

在一个节点上，在每个步骤中，面临两个选择：

要么移动到一个随机选择的邻居，或跳回到起始节点。

该算法仅包含一个固定参数R称为“重启的概率（1−R移动到一个邻居的概率）。

迭代后达到稳定，稳定的概率向量包含了网络中的所有节点对于起始节点的得分。

这种稳定的概率向量可以被看作是“有影响力的影响”，在网络上所施加的起始节点。

游走的分布满足式

（1）:

R=（1-d）u+dWr

（1）

其中，d是继续游走概率，（1-d）为重启概率，u是启动节点，Wr是网络过渡矩阵。

随机游走（RWR）实际是一个简单的迭代过程：

Rt=（1-d）u+dWrt-1

（2）

式

（2）表示了这样一个迭代的过程：

算法从图中顶点u出发，沿图中的边随机游走。

在任意点上，算法以一定的概率d随机地选择与该顶点相邻的边，沿这条边移动到下一个顶点，或以（1-d）概率直接回到出发点u，这是这个重启概率可有效的防止由于随机游走的不确定性而进入一条权值很小的路径。

在第t-1步时移动带下一个顶点时，就开始了以这个点新出发点的第t步随机游走，其中Wrt-1表示的是在t-1步游走时从一个节点游走到另一个节点概率。

经过若干次随机游走过程，可以到达图中每一个顶点的概率值达到平稳分布，即再次迭代也不改变图中的概率分布值时，就可以得到的R值来对所求任务进行排序。

比如讲RWR运用在下图做图像分割时：

图1

假设图像最核心的部分是红色，次核心为黄色，需排除的部分为蓝色。

开始游走时路径沿着最左面的蓝色路径走，每一次游走都进入了不需要的部分，直到某次重新启动成功，返回最最上角的开始节点重新游走，第二次沿着绿色的路径游走，识别到了部分次核心区域，在某一步是再次重启，沿着黑色的路径识别到了核心区域。

由

（2）公式就可以迭代的计算出每条路径覆盖范围的概率大小，在N次游走达到稳定后，上图的每一部分子图都会有一个确定不变的概率，结合核心、次核心与需排除部分的权重，就可以计算出每个子图的评分，从而找出评分最高的核心区域。

目前已有许多关于RWR的研究，包括使用RWR进行分类，关系学习与一般化的图上的相似性度量等。

2.2RelationalLearning

要实现关系抽取，其中对关系的推导学习是很重要的一部分。

在大数据的背景下，预测一个关系是否成立具有极大的研究潜力。

我们可以用下图描述一个关系学习问题：

图2

如果想要判定Charlotte是否是一个作家。

最简单的情况如图1所示，我们需要两个点与一条边来描述这个问题，我们可以通过判定这两个点之间是否存在这样的一条边，来判定这两个点是否存在关系。

而这条边存在的概率有多大，如何定量计算，就是PathRankingAlgorithm可以解决的问题。

而现实的情况必然不由简单的图2可以描述清楚的，如果我们在判断Charlotte是否是一个作家时，考虑到了他的朋友与家庭等关系时，（这可以为我们的判断提供更多的依据），那么情况可能会是这样：

图3

我们仍以Charlotte为出发点，Writer为终点来判断Charlotte是否是一个作家，但这次我们多了一条这样的判断路径：

Charlotte---》PatrickBronte---》Writer。

若这三个点间的两条边存在，我们同样可以得到Charlotte是一个作家的结论。

值得注意的是在判定Charlotte是否是一个作家时，Charlotte的行为无疑对判定也是有帮助的，那么我们的判定图可以表述为：

图4

如果在考虑到出版社等问题，我们还要加上这样的关系：

图5

至此我们需要考虑的关系图变了这样：

图5

可以看到这已经是一个很复杂的图了，而实际上我们在做判断的时候，可能考虑的远比这还要复杂，其计算复杂度主要体现在它有指数级增长的路径类型和指数级增长的路径实例。

图中每两个点之间存在的边，对应着我们需要学习到的关系，可以发现不同的点之间关系的种类并不相同，如Charlotte与JaneEyre之间，是wrote的关系，而JaneEyre与Novel之间，是IsA的关系。

而RWR并不能有效的区分这样的区别，前面的类型信息会被后面的类型信息覆盖，而下面提到的PathRankingAlgorithm可以很好的解决这样的问题。

2.3PathRankingAlgorithm

有一些相关研究，如Minkov,Cohen等在基于RWR的模型上使用了更加丰富的特征集合，用边上的标签对排序结果再次排序。

并且他们还提出了一种加权的RWR-paths方法，提高了查询到相关实体的准确率。

而Pathrankingalgorithm算法与之类似，可以看做是其一种改进版本，相当于沿着一组带有特定类型信息的边的序列集合上的随机游走，即限制了游走路径的RWR算法。

相比于RWR无法区分边的类型，它更容易加入额外所需的类型信息，如它的query-independentexperts与popularentityexperts。

类似的技术还有Embedding-basedtechniques与Probabilisticgraphicalmodels，Pathrankingalgorithm相比较前两者，具有容易推测与不需要关于网络结构先验知识的优点。

其算法核心思想是利用连接着两个实体的路径去预测他们之间是否有潜在的关系。

举个例子，如图7所示，我们要判定Charlotte是不是作家，可以判定这样一组特定的关系序列是否成立：

Prob（Charlotte-》Writer|InSentence,InSentence-1,IsA）

图7

Pathrankingalgorithm可以通过不同的边类型序列来判定一个关系是否存在，在比较复杂的图6上，我们可以看到至少有一下三种不同的边类型序列可以做出判定：

或者可以举个其他的例子，如果我需要查找一些参考文献，其中一个关键字是年份y，那么可能有这样的两种方式：

一、找出所有y年出版的论文。

二、出版于y年经常被引用的论文。

显然第二种方法更加合理，为了更加准确的描述所需信息，定义R是一个二值关系，如果e与e’有关系R成立，则记作R（e，e’），并定义。

dom（R）用来表示知识领域R，range（R）表示领域R的范围。

P是一条关系路径，由一组关系R1，R2,...,RL组成，其中对于任意的i，都满足1

并且有定义,且有。

如果希望强调路径上每一步的类型信息，可以将

P=R1,R2....RL表示为:

其中T0=dom（R1）=dom（P）,T1=range（R1）=dom（R2）。

据此定义，上述以关键字年份搜索参考文件任务的两种方法可以表示成下面这样：

其中-1表示相反的主客体关系。

可以看到每条关系路径都是paper，正是查找参考文献想要的信息类型。

对于任意的P=R1,R2,...RL和查询实体集合。

如果P是空路径，我们定义其满足如下分布：

（3）

公式（3）主要用于在RPA开始时，计算第一步连接出发节点与第二个节点的概率计算。

假设我需要购买一台PC，想知道具体买什么好。

这样的任务在图8所示具体问题上可表述为：

首先只有查询起点PC，没有任何一条连接到其他节点的路径，此时考虑关系R1=HaveBrand-1，假设有相关的Eq={中国，美国，老挝}，对于任意此时会以相同的概率随即游走到a1,b1,c1上来，对于牛奶Eq，则对应的h为0，即不会随机游走到d1上来。

图8

若P=R1...RL非空，则令P’=R1...RL-1,则：

（4）

其中I（R（e’,e））/|R1（e’）|表示沿着边Ɩ从节点e一步随机游走到e’的概率，I（R（e’,e））表示在e与e’到底有没有关系R存在。

在e'与e满足关系R时取值1，否则取值0。

以路径长度Ɩ=2举例，即P’为关系边R1，R2构成的路径。

图9

若R1为HaveBrand-1关系，R2为inWhichCountry-1关系。

具体PC推荐任务图9上可表示为：

首先P为空，以式2所述概率随机游走，假设选择a1，此时会进行第二步游走，引入新的查询实体，rang（R2）={联想},如果此时有联想，香蕉两个新实体e’与P相连接，首先指示器函数判定e’于e是否存在关系R2，即这样两个三元组（中国，inWhichCountry-1，联想）与（中国，inWhichCountry-1，香蕉）是否成立。

显然（中国，inWhichCountry-1，香蕉）不成立，则I（R（e’,e））=0，使得路径P1=这条路径的中的第二步游走分布的h值为0，即关系inWhichCountry-1的h值为0，从而整条路径的h值变小。

而其中当三元组关系（中国,inWhichCountry-1，联想）存在时，I（R（e’,e））=1时，再递归的以中国为出发节点，利用公式（3）计算一个h值，这个h乘上一个不为0的从e到e'一步随机游走的概率，最终整体路径P2=的h值肯定会明显大于P1。

至此就可以对查询所需的结果进行排名：

（5）

如图10，假设有一条路径P=，路径长度为n，最终结果为型号为Y450-tis的P

展开阅读全文