人工智能知识工程发展调研报告.docx
《人工智能知识工程发展调研报告.docx》由会员分享,可在线阅读,更多相关《人工智能知识工程发展调研报告.docx(26页珍藏版)》请在冰豆网上搜索。
人工智能知识工程发展调研报告
[公司名称]
人工智能知识工程发展调研报告
[文档副标题]
AMiner
[日期]
4知识工程
4.1知识工程概念
1994年图灵奖获得者、知识工程的建立者费根鲍姆给出知识工程定义—将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。
在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。
大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。
我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(SmartData),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。
知识图谱在以下应用中已经凸显出越来越重要的应用价值:
•知识融合:
当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
•语义搜索和推荐:
知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;
•问答和对话系统:
基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
•大数据分析与决策:
知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。
我们根据知识工程生命周期各个阶段的关键技术,利用AMiner中近年来知识图谱领域的高水平学术论文,挖掘出了包括知识表示(knowledge
representation)、知识获取(knowledgeacquisition)、知识推理(knowledgereasoning)、知识集成(knowledgeintegration)和知识存储(knowledgestorage)等相关关键词近年来全球活跃的学术研究。
此外,结合知识图谱技术,本报告将以上研究领域表示为三级图谱结构,具体分析和处理的方法如下:
1.使用自然语言处理技术,提取每篇论文文献的关键词,据此,结合学科领域知识图谱,将文章分配到相应领域;
2.依据学科领域对论文进行聚类,并统计论文数量作为领域的研究热度;
3.领域专家按照领域层级对学科领域划分等级,设计了三级图谱结构,最后根据概念热度定义当前研究热点。
知识工程三级知识图谱的详细数据可以参见本报告附录,或到
中直接下载原始数据。
鉴于自动分析技术和论文采集的局限性,图谱还可以进一步完善,欢迎读者批评指正,我们会根据根据读者的反馈定期更新。
4.2知识工程发展历史
回顾知识工程四十年多来发展历程,总结知识工程的演进过程和技术进展,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网1.0时期,群体智能时期以及知识图谱时期,如下图所示。
图4-1知识工程发展历程
●1950-1970时期:
图灵测试—知识工程诞生前期
人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。
这一阶段主要有两个方法:
符号主义和连结主义。
符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。
这一阶段具有代表性的工作是通用问题求解程序(GPS):
将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。
其中最成功应用是博弈论和机器定理证明等。
这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。
这一时代人工智能和知识工程的
先驱Minsky,Mccarthy和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。
●1970-1990时期:
专家系统—知识工程蓬勃发展期
通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。
70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能,这一时期涌现出很多成功的限定领域专家系统,如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。
斯坦福人工智能实验室的奠基人Feigenbaum教授在1980年的一个项目报告《KnowledgeEngineering:
TheAppliedSideofArtificialIntelligence》中提出知识工程的概念,从此确立了知识工程在人工智能中的核心地位。
这一时期知识表示方法有新的演进,包括框架和脚本等。
80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。
●1990-2000时期:
万维网
在1990年到2000年,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的
HowNet。
Web1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。
W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。
这一时期在知识表示研究中还提出了本体的知识表示方法。
●2000-2006时期:
群体智能
在2001年,万维网发明人、2016年图灵奖获得者TimBerners-Lee在科学美国人杂志中发表的论文《TheSemanticWeb》正式提出语义Web的概念,旨在对互联网内容进行结构化语义表示,利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。
W3C进一步提出万维网上语义标识语言RDF(资源描
述框架)和OWL(万维网本体表述语言)等描述万维网内容语义的知识描述规范。
万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。
原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。
这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。
●2006年至今:
知识图谱—知识工程新发展时期
从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。
与Cyc、WordNet和HowNet等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在网络规模下运行。
当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。
典型的例子是谷歌收购Freebase后在2012年推出的知识图谱(Knowledge
Graph),Facebook的图谱搜索,MicrosoftSatori以及商业、金融、生命科学等领域特定的知识库。
最具代表性大规模网络知识获取的工作包括DBpedia、
Freebase、KnowItAll、WikiTaxonomy和YAGO,以及BabelNet、ConceptNet、
DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。
这些知识图谱遵循RDF数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义体现的客观世界的概念结构中。
目前知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。
在我国知识工程领域研究中,中科院系统所陆汝钤院士、计算所史忠植研究员等老一代知识工程研究学者为中国的知识工程研究和人才培养做出了突出贡献,例如,陆汝钤院士因在知识工程和基于知识的软件工程方面作出的系统和创
造性工作,以及在大知识领域的开创性贡献,荣获首届“吴文俊人工智能最高成就奖”[6]。
4.3人才概况
●全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为知识工程领域全球学者分布情况:
图4-2知识工程全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。
从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧洲及亚洲东部也有较多的人才分布;其他诸如非洲、南美洲等地区的学者非常稀少;知识工程领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,知识工程领域中男性学者占比89.7%,女性学者占比10.6%,男性学者占比远高于女性学者。
知识工程领域学者的h-index分布如下图所示,大部分学者的h-index分布在中低区域,其中h-index在20-30区间的人数最多,有783人,占比38.9%,小于20区间的人数最少,有90人。
900
800
700
600
500
400
300
200
100
0
>6050-6040-5030-4020-30<20
h-index
图4-3知识工程学者h-index分布
●中国人才分布
我国专家学者在知识工程领域的分布如下图所示。
通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。
同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在知识工程领域学者数量较多。
图4-4知识工程中国学者分布
中国与其他国家在知识工程领域的合作情况可以根据AMiner数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。
表4-1知识工程领域中国与各国合作论文情况
合作国家
论文数
引用数
平均引用数
学者数
中国-美国
541
17306
32
1092
中国-新加坡
116
4107
35
244
中国-澳大利亚
111
3634
33
237
中国-英国
27
352
13
52
中国-加拿大
24
632
26
58
中国-日本
21
572
27
56
中国-丹麦
14
328
23
23
中国-德国
10
344
34
20
中国-印度
10
76
8
22
中国-希腊
10
197
20
20
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在知识工程领域合作之密切;此外,中国与欧洲的合作非常广泛,前10
名合作关系里中欧合作共占4席;中国与新加坡合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中国与新加坡合作达到了较高的水平。
4.4论文解读
本节对本领域的高水平学术会议及期刊论文进行挖掘,解读这些会议和期刊在2018-2019年的部分代表性工作。
这些会议和期刊包括:
IEEETransactionsonKnowledgeandDataEngineering
InternationalConferenceonInformationandKnowledgeManagement
我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图,如下图所示。
其中,知识图谱(knowledgegraph)、数据模型(Datamodels)、社交网络(socialnetworks)是本领域中最热的关键词。
论文题目:
Convolutional2DKnowledgeGraphEmbeddings
中文题目:
基于二维卷积的知识图谱嵌入表示学习
论文作者:
TimDettmers,PasqualeMinervini,PontusStenetorp,SebastianRiedel
论文出处:
TheThirty-SecondAAAIConferenceonArtificialIntelligence(AAAI2018)
论文地址:
https:
//www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/17366/15884研究问题:
知识图谱的链接预测任务是预测节点之间潜在的关系。
传统的链接预测方法专注于浅的、快速的模型,因为这样可以扩展到大规模的KG中。
但是浅层模型学习到的特征比深沉模型少很多,大大限制了模型的性能。
解决该问题的方法之一是增加embedding的维度,但是会增加模型参数量,不方便扩展到大规模KG中。
此外,部分现有数据集中有测试集泄露问题:
训练集中的三元组稍微翻转一下就可以得到测试集三元组,然后使用基于规则的模型就能达到最佳性能。
文章通过构造一个简单的翻转来衡量这个问题严重性,并清洗了部分数据来解决该问题。
研究方法:
文章提出一种多层卷积神经网络模型用于知识图谱的链接预测任务。
与自然
语言处理中常用的一维卷积不同,文章通过把多个向量堆叠成矩阵,就可以像图形一样用二维卷积核来抽取embedding之间的关系。
如上图所示,评分函数如下公式
模型的流程总结为:
-经过look-upembedding得到实体和关系的向量表示,然后通过变形和堆叠转化为2D版本。
-用多个卷积核对堆叠后的矩阵进行卷积操作,得到一个特征图γ。
-把γ向量化,然后通过一个全连接层映射到k维空间中。
-最后与目标实体的embedding相乘获得相应的得分。
-将得分进行sigmoid操作得到概率p,从而最小化交叉熵来训练模型。
值得一提的是,与传统模型对三元组关系(s,r,o)打分的1-1scoring模式
不同,ConvE以实体关系对(s,r)作为输入,同时对所有实体o进行打分,即1-Nscoring。
这种方式极大加快了计算速度。
实验结果表明,即使实体个数扩大10
倍,计算时间也只是增加了25%.
研究结果:
作者在4个数据集WN18、FB15K、YAGO3-10、Countries上进行实验,与
DisMult、R-GCN等模型进行了对比。
实验结果表明:
0.23M个参数的ConvE就与1.89M个参数的DistMult有相近的性能表现,总的来说ConvE的参数效率是R-GCN的17倍以上,是DistMult的8倍以上。
此外,作者还发现ConvE在
YAGO3-10和FB15k-237上的表现比在WN18RR上好,因为前两者包含入度很大的结点,比如结点UnitedStates在"wasbornin"上的入度超过10000,这种复杂的KG需要deeper模型,而浅层模型比如DistMult则在较简单的KG上有优势。
论文题目:
ExplainableReasoningoverKnowledgeGraphsforRecommendation
中文题目:
基于知识图谱路径推理的可解释推荐
论文作者:
XiangWang,DingxianWang,CanranXu,XiangnanHe,YixinCao,Tat-
SengChua1
论文出处:
ProceedingsoftheAAAIConferenceonArtificialIntelligence.2019
(AAAI'19).
论文地址:
https:
//www.aaai.org/ojs/index.php/AAAI/article/view/4470/4348研究问题:
近年来如何将知识图谱融入推荐系统得到越来越多的关注,通过探索知识图谱中的用户到商品的路径,可以为用户与商品的交互行为提供丰富的补充信息。
这些路径不仅揭示了实体和关系的语义,还能帮助理解用户的兴趣。
然而现有的模型没能充分利用路径来推断用户偏好,尤其是在建模的顺序依赖关系和路径的整体语义方面。
文章构建了知识感知路径递归网络模型(KnowledgeawarePathRecurrentNetwork,KPRN),通过组合实体和关系的语义来生成路径表示。
利用路径中的顺序依赖关系,可以基于路径进行有效推理,从而推断出用户-项目交互场景中的基本原理。
此外,文章设计了一种新的权重池化操作,以区分用户与项目连接的不同路径的优势,赋予我们的模型一定的可解释性。
下图为基于知识图谱的音乐推荐场景实例,虚线为关系,实线为用户-商品交互路径。
研究方法:
知识图谱和路径:
知识图谱由一组三元组(h,r,t)组成,代表实体h和实体
t构成关系r。
文章中知识图谱还融合了用户-商品的交互信息,即包含了三元组
(用户,交互方式,商品),其中交互方式为预定义的关系。
路径的定义是一个由实体或关系组成的序列,并且以用户作为起始点,以商品作为终点。
给定一个用户,商品,以及连接该用户和商品的路径的集合,我们希望模型能够计算该用户和商品之间存在交互的可能性,即是否存在三元组(用户,交互方式,商品)。
模型一共分为三层:
在Embedding层对路径的每一个行为做embedding的计算。
对于给定三元组,分别计算实体名称、实体类型和关系(或交互方式)的
embedding后再拼接得到最终特征表示。
LSTM层将路径上的每个单元的特征表示按照时间顺序输入并且将最后时刻的隐藏层状态作为该路径的特征表示。
在
pooling层,将所有路径的特征表示集合输入两层前馈神经网络,再对输出做带权重的池化操作得到最后的预测结果。
研究结果:
文章在公开电影数据集MI和音乐数据集KKBox上进行了实验,验证了所提出的模型的有效性,并且相对于仅将实体映射为一个向量表示的方法,KPRN还能够从路径中挖掘用户和商品之间的交互关系,这提高了模型的可解释性。
如上图所示,在MovieLens-1M中随机选择的一个用户u4825,并从她的交互记录中选择电影“恋爱中的莎士比亚”。
然后,我们提取连接用户-项对的所有限定路径,得到每个路径的分数s1=0.355,s2=0.289,s3=0.356,即模型更倾向于认为用户u4825是通过路径3和电影“恋爱中的莎士比亚”产生交互关系。
论文题目:
KnowledgeGraphEmbeddingwithIterativeGuidancefromSoftRules
中文题目:
基于规则迭代引导的增强知识图谱表示学习
论文作者:
XiangWang,DingxianWang,CanranXu,XiangnanHe,YixinCao,Tat-
SengChua
论文出处:
ProceedingsoftheAAAIConferenceonArtificialIntelligence.2018
(AAAI'18).
论文地址:
https:
//arxiv.org/abs/1711.11231v1研究问题:
知识图谱表示学习旨在将实体和关系嵌入到向量空间,同时保留知识图谱的内在结构。
传统方法主要基于关系三元组学习知识图谱的嵌入表示。
本文认为,知识图谱中的逻辑规则对于表示学习也很有帮助,于是提出了一个新的表示学习模型RUGE(Rule-GuidedEmbedding)。
RUGE的主要特点是,利用从知识图谱自动抽取的规则迭代地预测未标记三元组,并将其加入训练来增强表示学习。
研究方法:
为了在知识图谱进行分布式表示学习的过程中加入逻辑规则进行引导,
RUGE同时利用标注三元组(labeledTriples)、未标注三元组(UnlabeledTriples)、
自动抽取出的软规则(softrules)这三种资源以迭代的方式进行知识图谱表示学习。
软规则指的是不总是成立,带置信度的规则。
每一轮迭代在软标签预测和
embedding修正这两个步骤间交替进行。
前者利用当前学到的embedding和软规则为未标注三元组预测软标签;后者进一步利用标注三元组(硬标签)和未标注三元组(软标签)对当前的embedding进行修正。
通过这个迭代过程,RUGE可以成功建模分布式知识表示学习和逻辑推理二者间的交互性,逻辑规则中蕴含的丰富知识也能被更好地传递到所学习的分布式表示中。
上图为RUGE框架图,可以看出,RUGE使嵌入模型能够以迭代方式同时从标记的三元组、未标记的三元组和软规则中学习。
在每次迭代中,模型交替在软标签预测阶段和embeddings校正阶段之间。
学习资源构建:
文章假设在知识图谱中观测到的三元组集合为正三元组,使用随机替换头尾实体的方式构建负三元组,此外还考虑那些能被软规则(softrules)编码的未标记三元组,其中规则为不同置信度水平的FOL规则。
三元组和规则建模:
对于三元组建模,文章采用现有模型ComplEx,三元组的真值可以直接计算得到。
对于规则建模,也就是建模规则groundings的真值,文章采用T-normfuzzylogics,规则的真值等于其三元组真值的逻辑组合。
软标签预测:
可以基于embedding表示来计算标记和未标记和三元组的“真值”;也可以基于规则groundings的真值来计算三元组的实际真值,即软标签
(softlabel)。
文章希望这两个真值应该是接近的,且应当使得规则groundings
为真为此设置了相应的优化目标。
Embedding校正:
得到了未标记三元组的软标签之后,文章结合已标记三元组,使用交叉熵进行统一优化。
研究结果:
文章的主要实验任务是传统的关系预测。
数据集采用了FB15K和YAGO37。
实验结果如下表所示,可以看见,RUGE相比基线方法取得了较好的结果。
文章创新性在于提出了软规则,并可以成功建模分布式知识表示学习和逻辑推理二者间的交互性,逻辑规则中蕴含的丰富知识也能被更好地传递到所学习的分布式表示中。
论文题目:
VariationalReasoningforQuestionAnsweringwithKnowledgeGraph
中文题目:
基于知识图谱的问答变分推理
论文作者:
YuyuZhang_,HanjunDai_,ZornitsaKozareva,AlexanderJ.Smola,andLeSong
论文出处:
ProceedingsoftheAAAIConferenceonArtificial