关于面向半结构化文本的知识抽取研究.docx

资源描述

关于面向半结构化文本的知识抽取研究.docx

《关于面向半结构化文本的知识抽取研究.docx》由会员分享，可在线阅读，更多相关《关于面向半结构化文本的知识抽取研究.docx（7页珍藏版）》请在冰豆网上搜索。

关于面向半结构化文本的知识抽取研究.docx

关于面向半结构化文本的知识抽取研究

半结构化文本是指以半结构化方式存储，凭借文本格式将其归纳成若干名词的集合，具有格式性和自由性相结合的特点，能兼顾风格统一和内容灵活。

一方面，半结构化文本类别繁多，另一方面，半结构化文本广泛存在于现实生活中，各行各业中都能看到此类文本，不同的实际情况会产生不同形式的半结构化文本。

这些文本都有相同的特点大量存在，更新速度快，存在对历史文本的分析和检索的需求等。

为了更好地提高知识获取的效率，实现对半结构化文本的知识抽取、形成标准的格式并进行存储具有十分重要的现实意义。

半结构化文本与结构化文本（如主题词表、数据表）、非结构化文本（如微博、新闻报道）相比，半结构化文本的知识抽取受到结构与语义的双重约束。

首先是结构不完备性，遵循的结构不足以直接解析相关内容，受文本载体形式制约较大;其次是语义相关性与复杂性，大量语义信息相关并隐含在句子级、篇章级文本中，内容表征复杂。

基于此，本文在梳理和总结众多学者研究的基础上，以半结构化文本知识抽取的载体类型、内容和技术方法为视角，对面向半结构化文本的知识抽取进行了研究，从而为更好地实现该类文本信息的有效抽取提供思路。

1半结构化文本知识抽取载体类型的划分及其相研究

半结构化文本中，由于数据源比较复杂，涉及的对象比较多，并且表达形式丰富多样，因此形成了不同的知识载体类型，这些不同的载体存储内容的方式是不同的，导致对于不同的载体需要采用不同的抽取模式与技术方法。

目前，已有许多学者从不同的视角对知识抽取载体的类型划分进行了论述，经过对先前研究的归纳与梳理，本文按照半结构化文本资源的表达形式将知识抽取载体类型划分为三大方面，即:

科技文献、Web和其他类型。

1）科技文献。

科技文献的表现形式多种多样，如作战文书方面，代表人物有郭忠伟、周献中和黄志同等人，他们构造各类作战文书的Schema库，利用Schema上的修辞谓词抽取相应的知识，最终构造文书内容自然语言问卷方面，苏牧、肖人彬等人提出神经网络识别方法和宽度优先法可以将聚类后的各个语句进行知识形式的转换，从而完成由自然语言问卷到面向对象知识体系的知识抽取过程。

大百科全书方面，许勇、宋柔等人提出了一种基于隐马尔科夫模型的方法，即利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别。

在期刊方面，丁君军、郑彦宁、化柏林等人对学术期刊中的属性描述进行了数量关系和情感信息方面的分析，然后对学术概念属性抽取系统进行设计和实现，刘一宁、郑彦宁、化柏林等人针对学术期刊设计了一种学术定义抽取系统，通过混合使用模式规则、语法规则和词频统计以达到定义抽取的目的。

2）WeboWeb的表现形式主要有Wikipedia,Web对象，Semantic;Web,SocialNetworks等，各个方面都得到相关学者的关注和研究。

Wikipedia方面，K.Nakayama等人将Wiki作为Web语料库，详细揭示了其特点，并描述了锚文本链接在消除歧义和}可义词抽取中的重要性。

Web对象方面，NieZaiqing等人认为Web对象是一种有关某一Web信息的数据单元，可以用来收集、索引和排序。

他们的项目从Web数据源中，能自动地实现大规模产品对象的抽取。

Semantic;Web方面，U.Shah等人设计了一种从包含自由文本和语义标记Web中检索文档的方法，并发现索引和语义标记的结合运用能提高检索效率。

SovialNetwork、方面，TangJie等人讨论了在ArnetMiner系统中的几个关键问题，目的是从学术社会网络中抽取和挖掘专家信息。

3）其他类型。

主要有简历和表单等，简历方面，木百鹤等人通过对大量简历文本的分析，概括出了一种简历信息的本体模型，并提出了基于本体的知识抽取框架。

表单方面，王振雷等人引人数据元字典和数据字典对报表业务逻辑进行了描述，同时还完成了对表单业务逻辑的描述。

2半结构化文本知识抽取内容的界定及其相关研究

内容是半结构化文本知识抽取的最终目标，是依附于载体而存在的，但同样内容的知识可以存储在不同形式的载体中。

不同载体在表现形式上有一定的差异，但从知识内容表达的构成来看，知识抽取内容可以独立于知识抽取载体而存在。

在载体分类的基础上，针对不同内容的构成进行相关知识抽取。

因此，对知识内容进行界定与区分也是该领域重要的研究部分。

综合现有的学术成果，关于知识抽取内容界定及相关研究主要集中在术语、定义、情感倾向性与属性4个方面。

2.1术语抽取

术语是指在特定学科领域内用来表示概念称谓的集合。

术语作为特殊主题领域内对某特定概念的约定俗成的名称，具有意义单一、低歧义、高专指性、相对固定的上下文环境等特点，表述了领域内最重要的一些概念，并且构成了文献的语义特征。

随着网络的飞速发展，新术语层出不穷，在此背景下术语抽取也越来越受到学者的关注。

目前，国内对于术语的研究主要集中在可比语料库构建、多语言抽取、规则过滤和自动、半自动术语抽取等方面。

国外相关研究较为广泛和更为深人，主要集中于抽取模型、抽取算法研究等，这些都为术语抽取作出了重大贡献。

2.2定义抽取

在知识内容表达中，定义是指对于一种事物的本质特征或一个概念的内涵和外延的确切而简要的说明与术语抽取相对应的是，定义抽取是抽取有关术语的说明。

国内较为成功的商业应用是CNKI，其提供对学术定义的快速查询，内容全部来源于CNKI全文库。

使用学术定义搜索可以得到想要查询词汇的准确学术定义，并且可直接查询定义出处。

不同于一般的网页和文献搜索等参考型搜索引擎系统，CNKI学术定义搜索是一部不断更新完善的学术定义词典，力求为用户提供最权威、最准确的学术定义。

刘一宁等设计了一种定义抽取系统，详细介绍了系统中的各项关键技术，包括分词技术、抽取规则导人技术、句子抽取技术和加权词处理技术等，通过混合使用模式规则、语法规则和词频统计以达到定义抽取的目的困。

国外众多学者也展开了相关研究。

N.Lavrac等使用形态句法模式、自动术语识别和语义标注技术，提出了一种旨在从领域语料中抽取定义候选集的创新工作流，定义抽取工作能够被重复使用和向其他语言类型转换;P.Del（audio）等为自动定义抽取设计了一种完全依赖于机器学习的方法，探索了相关数据集不平衡的问题;Ferneda等以法律文书为载体，研究了法律定义词汇特定的规范性规则，建立一个新的词汇表，利用规模样本训练SVM分类器，最终在一个测试语料中对该方法进行评价。

2.3情感倾向性抽取各种文本资料中都存在着两类混合在一起的信息:

事实和观点。

同时，在事实和观点中也大量充斥着个人的情感情境，如何从这些信息中分辨、识别、抽取情感倾向是知识抽取领域的一个研究热点，主要围绕着产品评论和科技文献而展开。

产品评论是用户对某种产品评价、使用感受的意见。

N.Kobayashi等从Web文档中实现

与微博情感倾向性研究类似，科技文献中隐含着作者对某一观点或事实的情感倾向性。

丁君军等把此类情感信息划分为正面、负面和无态度的中性3种情感，但没有给出其评判标准和与微博、产品评论等其他类型的情感倾向性判别差异。

2.4属性抽取

属性是指事物本身所固有的性质，是事物的一些基本特性，属性抽取可以帮助研究者更好地了解其特征、性质等，主要包括人物属性抽取、产品属性抽取和概念属性抽取等。

人物属性抽取可以抽取个人信息，如生日、爱好、职业等。

王日芬等人针对当前专家库信息来源单一、检索技术简单且主观性强等问题，结合专家库中人物属性的特点，提出了基于社会网络的专家检索技术方案。

产品属性抽取主要抽取互联网上产品的描述、价格等信息。

P.ohani等利用基于半监督学习的算法，设计了抽取出商品显性和隐性属性的抽取系统，通过对数据的标注来进行产品的检索和价格对比。

goWu等用贝叶斯定理训练方法确定属性的名称和属性的值在网页中的成对出现，并在3种不同产品的抽取实验中都取得了很理想的结果。

概念属性的抽取包括通俗概念抽取和学术概念的抽取，大量运用在期刊文献、专利文献中。

郭剑毅等研究了如何使用协作分类器协作使用条件随机场（CP-Fs）和支持向量机（svM）解决领域概念实例、属性及属性值的抽取以及它们三者之间对应关系预测的问题。

丁君军等通过把不同学术文献中对于某一学术概念的属性描述起来，对学术概念属性抽取系统进行设计和实现，并对系统抽取结果和人工标记结果进行了测评，准确率约为60%。

3半结构化文本知识抽取技术方法的分类及其研究

半结构化文本知识抽取技术方法的选择与使用关系到知识抽取的效率、质量与结果等。

在当前面向半结构化文本的知识抽取技术中，机器学习和自然语言分析两大技术思路正在相互融合、相互借鉴，各自都得到了较大的发展。

如基于机器学习的知识抽取方法，有半监督学习方法、开放信息抽取等方法，并朝着人工智能的方向发展;基于自然语言分析的知识抽取方法有规则发现方法、基于Ontology信息抽取等方法，并朝着语义和本体结合的方向发展。

各种技术方法如表1所示。

3.1半监督学习方法

半监督学习方法又称之为弱监督学习方法，它的基本思想是利用数据分布上的模型假设，建立学习器对未标签样例进行标签，其主要解决在标签样例不足的情况下提高对学习模型的泛化能力，能够在一定程度上弱化弊端，优化学习效果。

目前常用于解决知识抽取领域中的分类、关系抽取等问题。

半监督学习方法主要有直推式支持向量机法、自举法和远程监督方法等。

1）直推式支持向量机。

直推式支持向量机是支持向量机的一种改进算法，可以将无标记样本中隐含的分布信息引人到支持向量机的学习过程中，从而使分类器的性能得到显著的提高。

王安娜等将半监督算法与支持向量机结合，在迭代算法中将无标记样本与有标记样本结合，研究提出的样本能有效地利用大量的无标记样本，无标记样本的加人使用能够有效地提高分类准确率。

为了解决人为指定样本数量N的问题，ChenYisong提出了改进算法渐进直推支持向量机。

张晓滨利用LIBSVM等软件工具，数据源采用路透社1987年的新闻专线，进行统计分析，结果显示渐进式直推支持向量机可以有效地处理有标记数据较少的文本分类。

2）自举法。

自举法是由Yarowsky在19%年提出的，S.Abney于2002年扩展了该方法的两个独立假设。

自举法是一种典型的半监督学习方法，用少量标记过的训练样本就可以达到传统方法的大训练集训练的效果。

伍星等提供少量的产品特征作为种子，从这些种子出现的语句中抽取文本模式，利用文本模式来发现新的产品特征，取得了较高的召回率和准确率，为大规模、自主机器学习提供了新的思路。

A.Ittoo等利用Wikipedi。

作为知识库，采用最小监督原则，从半结构化文本中抽取可信任的部分一整体的关系，并将其作为抽取种子，进而抽取出领域内所有的部分一整体关系。

3）远程监督方法。

远程监督方法是在1999年被Cra-ven首次提出的，基于这样一种假设:

如果已知两个实体存在特定的语义关系，那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用。

其主要解决文本中的关系抽取等问题，近年来得到了学者们的广泛关注。

B.Min等证明了当标记过程错误时，因为语料库的不完备性产生了大量的负面样本，在此情况下提出了只从积极和未标记的样本中学习的算法，取得了良好的效果.Puedel等认为当语料库与相关文本并不直接相关时，远程监督方法会产生干扰实验精度的噪音模式，为此提出了以约束驱动的远程监督方法，实验表明能够减少31%的实验误差叫。

3.2开放信息抽取

开放信息抽取是美国华盛顿大学图灵中心提出的被称为新型抽取范式的一种知识抽取方法。

它的目标在于促进领域无关的知识抽取应用，它能从文本中抽取出大量关系对，并可被应用到各种类型和规模的Web信息抽取任务中。

除需要标注的文档集外，开放信息抽取不需要任何其他人工输人，同时为保障在处理大规模文档集时的效率，只需要对文档集进行一次处理。

开放信息抽取从底层来看，是将Web尺度下的非结构化数据转换为结构化数据的有效技术，从高层来看，其应用前景也很广泛。

Popeseu和Etzioni尝试进行开放信息抽取系统在意见挖掘方面的应用，Etzlonl则展望了开放信息抽取对于搜索引擎和问答系统的巨大帮助和应用前景faa7。

但是开放信息抽取的工作主要集中在英文上，在中文信息处理领域，开放信息抽取还没有比较有影响力的成果。

3.3规则发现方法

规则发现是通过对某种模式特定语法、语义规则的提炼和总结完成对知识的抽取。

基于规则的方法主要利用规则模板来进行，需要人工在大量总结既有知识规则的基础上形成有效的规则模板，优点是简单有效、成本低，缺点是无法完成大规模数据量的知识抽取，并且依赖于专家经验。

表现形式。

规则是对自然语言的语法、语义的规律总结，包括上下文、分词、语境等，其主要表现形式为正则表达式，如表2为化柏林等提出的关于定义的规则模板表现形式。

3.4基于Ontology的信息抽取方法

Ontology（本体）作为一种知识重用、知识共享和建模的重要工具，能够对特定领域中的概念及概念之间的关系给子比较精确的描述，从而为人机之间、机器与机器之间的相互理解提供了语义基础。

这些语义信息给知识抽取提供了依据。

领域本体能够大量应用于不同层次的抽取任务中，从而有效地提高了抽取的查准率和召回率，为用户提供更有价值的信息。

张鑫等根据数据容器的视觉特征准确划分数据区域，通过启发式学习从这些结构相似的数据区域树中得到信息项的抽取路径，然后通过抽取路径自动构建领域本体，最后通过对领域本体的解析得到信息项的抽取规则进行信息抽取[州。

何召卫、陈俊亮利用本体相似和本体的推理能力，应用本体把信息抽取目标文档描述为特殊的本体格式，用受限本体相似度计算本体相似度，采用机器学习理论对本体进行分析和处理，进行信息抽取[州。

周明健等根据本体定义，对用户感兴趣的信息区域使用应用归纳学习技术的包装器生成规则并进行信息抽取。

展开阅读全文