基于数据挖掘技术的知识服务体系.docx-资源下载

基于数据挖掘技术的知识服务体系.docx

1、基于数据挖掘技术的知识服务体系基于数据挖掘技术的知识服务体系基于数据挖掘技术的知识服务体系腿蚃虿艿节蒆羇芈莄蚁袃芇薆蒄衿芆芆蝿螅袃莈薂蚁袂蒀螈羀袁膀薁袆袀节螆螂罿莅蕿蚈罿蒇莂羇羈芇薇羃羇荿蒀衿羆蒁蚅螅羅膁蒈蚁羄芃蚄罿羃莆蒆袅肃蒈蚂螁肂膈蒅蚇肁莀蚀蚃肀蒂薃羂聿膂蝿袈肈芄薁螄肈莆螇蚀肇葿薀羈膆膈莂袄膅芁薈螀膄蒃莁螆膃膃蚆蚂膂芅葿羁膂莇蚅袇膁蒀蒇螃芀腿蚃虿艿节蒆羇芈莄蚁袃芇薆蒄衿芆芆蝿螅袃莈薂蚁袂蒀螈羀袁膀薁袆袀节螆螂罿莅蕿蚈罿蒇莂羇羈芇薇羃羇荿蒀衿羆蒁蚅螅羅膁蒈蚁羄芃蚄罿羃莆蒆袅肃蒈蚂螁肂膈蒅蚇肁莀蚀蚃肀蒂薃羂聿膂蝿袈肈芄薁螄肈莆螇蚀肇葿薀羈膆膈莂袄膅芁薈螀膄蒃莁螆膃膃蚆蚂膂芅葿羁膂莇蚅袇膁蒀

2、蒇螃芀腿蚃虿艿节蒆羇芈莄蚁袃芇薆蒄衿芆芆蝿螅袃莈薂蚁袂蒀螈羀袁膀薁袆袀节螆螂罿莅蕿蚈罿蒇莂羇羈芇薇羃羇荿蒀衿羆蒁蚅螅羅膁蒈蚁羄芃蚄罿羃莆蒆袅肃蒈蚂螁肂膈蒅蚇肁莀蚀蚃肀蒂薃羂聿膂蝿袈肈芄薁螄肈莆螇蚀肇葿薀羈膆膈莂袄膅芁薈螀膄蒃莁螆膃膃蚆蚂膂芅葿羁膂莇蚅袇膁蒀蒇螃芀腿蚃虿艿节蒆羇芈莄蚁袃芇薆蒄衿芆芆蝿螅袃莈薂蚁袂蒀螈羀袁膀薁袆袀节螆螂基于数据挖掘技术的知识服务体系以生命科学领域内GOPubMed为例谢岩岩1，2 孙继林1 1中国科学院国家科学图书馆，北京，100190 2中国科学院上海生命科学信息中心,上海 200031 摘要：随着生物文献的急剧增长，找到相关文献进行数据挖掘成为新的重点和难

3、点，GOPubMed基于GO和MeSH搜索PubMed，通过标引和分类，可以有效地提高查找相关文献的准确率。 GOPubMed的实现为图书馆进行知识服务提供了一种参考模式：通过各类数据库的关联整合，运用本体和主题词表等对其进行数据挖掘，达到知识扩展和知识发现。关键词：GOPubMed；GO；术语提取；实体识别; 知识服务 Knowledge Service system on Data Mining：GOPubMed in life sciences Xie Yanyan Sun Jilin L ibrary of Chinese Academy of Sciences, Beijing 1

4、00190 Shanghai Intelligence Center for life Sciences, CAS, Shanghai 200031 ABSTRACT：The biomedical literature grows at a tremendous rate. Finding relevant literature is an important and difficult problem. We introduce GOPubMed, a web server which allows users to explore PubMed search results with th

5、e Gene Ontology (GO), a hierarchically structured vocabulary for molecular biology. It gives an overview of the literature abstracts by categorizing abstracts according to the GO and thus allowing users to quickly navigate through the abstracts by category. Key words：GOPubMed；GO；Term Extract；Entity

6、Recognition；Knowledge Service 随着生物文献数量的急剧增长，文献间的知识挖掘和管理成为用户的另一难点。利用现有数据库已可以实现蛋白质互作、生物循环路径发现等研究目地，但是传统的基于关键词的文献检索存在两种不足：用户需要具备很强的专业知识搜索技能，才能选取合适的关键词和逻辑表达式达到检索目的；检索结果呈线性排列，用户很难发现结果之间的复杂关系，无法进行深一步的知识挖掘；而且一般情况下，用户只是点击排名靠前的文献，因此排序靠后但有价值的文献会被遗漏。本文将介绍一个基于本体构建的网络搜索引擎GOPubMed1，GOPubMed是基于PubMed的检索工具。当用户将检

7、索词提交给PubMed后，GOPubMed会接收PubMed的检索结果，利用GO (gene ontology，GO基因本体)和MeSH (医学主题词表)对检索结果进行提炼，从中提取GO术语和MeSH主题词，对检索结果进行聚类和关联，并提供相关文献、作者、研究机构、国家或地区的可视化结果，有以下优点：提供基于基因本体的摘要分类概览，帮助用户实现分类摘要的快速导航；自动提供与提问相关的GO术语；与文献相关的GO概念在文献摘要中有所标识，保证用户及时查看验证文献内容分类；使用GOPubMed搜索PubMed时，会出现相关的GO术语定义及解释。 1生命科学数据库背景知识2 随着生命科学的不断发展，各

8、种专业数据库（基因序列库、蛋白质序列库等）和文献数据库（如PubMed）之间的关联和挖掘成为新的需求。 GOPubMed主要以基因、蛋白序列数据库和生物医学文献数据库为基础，经过数据挖掘，提供知识服务。 1.1 GenBank基本信息 GenBank是一个核苷酸序列数据库，每条核苷酸序列都有编码区（CDS）的特征注释，还包括其氨基酸的翻译。利用这些核苷酸的记录信息，生物学家可以进行遗传生物学、分子生物学、疾病等各项生物学的基础研究，因此，GenBank是生物学家使用的重要的专业数据库之一。 1.2蛋白质序列数据库蛋白质序列数据库是记录已知蛋白质的序列信息的数据库。访问该类数据库，利用蛋白

9、的Accession Number，作者姓名，物种，以及该基因或蛋白的名字等文本术语来搜索蛋白序列记录，（在GenPept + Swiss-Prot + PIR + RPF + PDB中）可以得到蛋白的结构、分类、系统发育等完整的生物学信息，并可以进行蛋白结构的三维演示以及蛋白功能域的预测和验证，是生物学家使用的另一重要专业数据库。 1.3 PubMed PubMed 是关于生物医药科学的文献数据库，它包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网站上的全文的URLs。 PubMed中的文献采用生物医学主题词表（MeSH）标引，可以进行词汇自动转换功能（Automatic Ter

10、m Mapping）对检索词进行转换后再检索。 1.4 数据库整合美国国立生物技术信息中心（NCBI）已实现生物专业数据和文献数据的初步整合关联，即Entrez检索系统，该系统是一个用以整合NCBI数据库中信息的搜寻和检索工具，可为用户提供整合的访问序列，定位，分类和结构数据的搜索。这些数据库包括核酸序列，蛋白序列，大分子结构，全基因组，和通过PubMed检索的MEDLINE。 Entrez的一个强大和独特的特点是具有检索相关序列，结构，和参考文献的能力，如图1所示图1：NCBI各数据库间的整合各类分子、功能数据库的初步整合，为数据挖掘的实现打好了基础，而主题词表和基因本体（GO）的构

11、建，使数据挖掘更易实现。 2工作原理用户的检索表达式往往由一个或几个关键词构成，很难准确表达检索意图，一种有效地扩大查全率的方法就是查询扩展。本体的作用可以说是组织“世界上的概念”，并且将它们关联到语言学上的表达。判断查询与文档的相关性，可以从识别文档相关的词汇作为出发点，来建立概念之间或其他代表这些概念或相关概念的词汇单元之间的关联。 GOPubMed基于语义分类工具MeSH和GO，能减少或消除概念及术语的混乱，达到数据共享、互操作以及数据挖掘和统计分析功能。 2.1 语义工具 2.1.1 MeSH 医学主题词表（Medical Subject Headings，简称MeSH），由美国

12、国立医学图书馆（NLM）编辑出版，是用以分析生物医学方面期刊文献、图书、视听数据、电子资源等资源主题内容的控制语汇表，也是NLM出版的MEDLINE/PubMED数据库主题检索的索引词典3。医学主题词表具有以下特点4：对医学文献中的自然语言进行规范，使概念与主题词单一对应保证文献的标引者和检索者之间在用词上的一致可进行主题词、副主题词组配，提高主题标引或检索的专指度可以对主题词进行扩检和缩检可以对主题词进行加权标引以便实施加权检索具有动态性 2.1.2 GO GO56（Gene Ontology）即基因本体，是基因本体联盟（GOCthe Gene Ontology Consort

13、ium）开发的一个合作项目，目标是制定出一套结构化的、定义精确的、通用受控词表，可用来描述任何有机生物体中基因和基因产物的作用。到目前为止，GOC的数据库中已经建立起3大独立的本体（ontology）：生物过程（biological process）、分子功能（molecular function）及细胞组分（cellular component）。生物过程本体的任务是描述有序的生物化学反应的全过程，如有丝分裂、嘌呤代谢等；分子功能本体的任务是描述每个基因产物发挥作用的全过程，阐述了基因产物个体所执行的任务，例如转录因子和DNA螺旋酶的功能；细胞组分包括亚细胞结构、位置和大分子复合物的结构

14、等。最近又开发了描述生物序列属性的序列本体（Sequence Ontology）。现在GO已经成为生物信息学领域中一个极为重要的方法和工具，用于注释基因功能，揭示和整合生物学数据和数据库，以及建立数据之间生物学意义上的关联等，GO正在逐步改变着我们对生物学数据的组织和理解方式。 2.2关键技术 GOPubMed运用MeSH和GO对PubMed进行文献检索和浏览，并进行检索结果的知识挖掘7，用户提交检索词或检索式后，GOPubMed接受从PubMed返回的文献检索结果；利用GO和MeSH对检索结果进行术语提取和实体识别；通过数据挖掘，使检索结果转换成分类类目及对应文献之间的可视化数据，进而抽

15、取特定的模型分类导航模型(也称诱导本体，Induced Ontology)，即临时GO和临时MeSH；根据此模型，检索结果被统计并对应到相应的分类导航目录，用户利用该导航便可快速找到自己所需要的文献。为实现该目的，需要解决两个问题：1.如何从PubMed文献摘要中提取基因和蛋白质的本体概念；2.如何将提取的GO的概念和术语结构化。图2：GOPubMed工作原理流程图 2.2.1术语提取术语提取是GOPubMed的关键技术，它是形成临时GO和临时MeSH的基础。文献采用自然语言写作，很难在其中找到可控制的标准语言，如GO术语。术语提取的目的就是自然语言和可控制标准语言的相互语义匹配。

16、由于PubMed采用了MeSH词标引，因此GOPubMed在接收PubMed检索结果时能够按照MeSH树形表对其进行自动分类，形成与检索提问相关的临时MeSH。然而，在PubMed中准确找到GO术语几乎是不可能的，此时，临时GO形成的机制8，将摘要定义为一个包含自由文本的长字(word)序列，每个GO术语定义为一个短字(word)序列。由于每个GO术语都已经进行了注释，而且形成了一个术语、同义词以及相关概念相互关联的语义网，系统将GO术语中每个word的信息内容都考虑在内，然后在GO术语和摘要内容之间进行局部字序列校准，如果两者在语义上一致，则该术语即被自动提取出来。术语提取按照GO分类

17、体系同时从3个本体的最下层开始由下而上进行，依次往上扩展，一直到最根部。这样应用基因本体本身的语义关系及层次结构就实现了本体与文本的映射，并形成分类。当然也存在因某一已成功提取的术语的上位术语不能与摘要内容相匹配而在形成临时GO时出现断层的现象。 2.2.3实体识别9 虽然在文本中发现本体概念很重要，在医学文献中发现基因、蛋白质分子、疾病间的联系和相互作用也有重意义。要得到基因、蛋白质以及疾病等之间的联系，必须首先在文本中识别基因、蛋白质等生物实体，即生物实体识别。生物实体识别的目的是在生物及医学领域对专业词汇加以确认和分类，这类实体包括基因、蛋白质、DNA 和RNA等。生物文献中含

18、有很多同义和歧义的实体命名，有些基因和蛋白质的命名也极易混淆，如可能有多种拼写形式，像“N-acetylcysteine”，“N-acetyl-cysteine”和“NAcetylCysteine”都是指同一生物实体；缩写大量使用，也很不规范，如“TCF”可以是“T Cell Factor”和“Tissue Culture Fluid”的缩写。生物实体识别和实体间的相互关系识别的重要性已经引起科学家的广泛关注，他们努力建立规则和模型来实现，例如：国际生物命名实体识别任务10，JNLPBA（bio-entity recognition task at JNLPBA）和BioCreAtIvECr

19、itical（Assessment of Information Extraction in Molecular Biology），在第二季BioCreAtIvECritical任务中，最好的系统模型可以使基因识别正确率达78.9%，召回率达83.3%。 2.3 知识服务体系传统基于关键字的检索是检索结果的直线型排列，对于发现文献之间的逻辑关系有很大限制，用户需要人工确定结果的相关性。 GOPubMed通过术语提取和实体识别，使文献摘要和GO中的概念形成映射7，对文献摘要进行GO标识，从而达到利用GO控制检索结果的目的。因此当用户进行文献关键词检索时，即使提问关键词并未直接出现在摘要中，G

20、OPubMed也会自动显示与提问相关的GO 概念。 GO的应用深化了检索对文献内容的理解，提高了文献检索的准确率11。向用户提供知识服务是许多因特网和图书馆网络服务的追求目标， GOPubMed的实现为知识服务提供了启发和一种实现途径。不同专业领域都有其特定的专业数据库，如化学专业的化合物数据库等，将这些专业数据库与文献数据库通过标注描述建立映射关系，在数据库关联整合的基础上进行数据挖掘，可以实现知识的发现。将知识发现进行深一步的挖掘和专业分析，即为一种摆脱了文献服务束缚的知识服务，总结如下：图3：知识服务系统的构建 3 智能检索和分类导航 3.1检索结果的分类导航和检索结果的过滤与扩

21、展问题：左旋咪唑（levamisole）可以抑制什么酶？结果：分别在PubMed和GOPubMed中搜索“levamisole inhibitor”，均可得到158篇文献（截止到2009-11-8）。在PubMed的检索结果中，如果用户想要寻找左旋咪唑的特殊功能对酶的抑制作用，那么用户需要对所有摘要进行筛选。通过第一篇文献可以知道左旋咪唑可以抑制碱性磷酸酶，但是仍有许多未知信息被湮没，关于左旋咪唑抑制磷酸果糖激酶的信息（The effect of levamisole on energy metabolism in Ehrlich ascites tumour cells in vit

22、ro，PMID：2947578）排在检索结果第120位（该结果基于2009-11-8检索，由于PubMed更新较快，检索排序可能出现变化）很可能被用户遗漏。即使用户尝试使用布尔逻辑式，例如levamisole inhibitor NOT phosphatase来检索PubMed，就有可能遗漏磷酸酶和磷酸果糖激酶存在于同一篇文献中的结果。图4：提交“levamisole inhibitor”检索GOPubMed结果检索GOPubMed结果如图4，检索页右侧显示文章的信息：题名、作者、期刊、摘要，摘要中有相应颜色标注GO语言或MeSH语言和检索词（GO或MeSH词：黄色；检索词：绿色）可以

23、方便浏览摘要的主要内容和相关重点。检索页左侧为检索词按照GO、MeSH和Uniprot的相关分类，GO概念标记G，MeSH标记M，相关UniProt标记P，标记结果基于术语提取和实体识别算法匹配12,13。点击相应词可以在检索页右侧得到相应的文献摘要过滤结果，例如上述检索，可直接得到左咪唑抑制磷酸果糖激酶的文献34篇，大大提高了结果的相关性和准确性。点击GO标记词，可以展示该词在GO层层结构中的描述、相关信息、别名、系统树以及维基百科连接，每层结构都有该词的相关链接，可以做到更精确范围的在搜索。 MeSH标记词可以展示该词在主题词中的定义和树状结构。 UniProt标记词可以展示相关蛋白

24、的信息和系统树，通过该蛋白的描述，可以继续相关蛋白的再搜索，如图5. 图5：点击相应标记词。 GOPubMed可以展示该词相关信息和在GO或MeSH中的描述和结构定位，有相应链接以便于再搜索。以上述检索为例，可以找到相关抑制酶3种（Phosphoric Monoester Hydrolases、Alkaline Phosphatase和Phosphates）相关生物过程、生物大分子、细胞定位和背景知识扩展如图6. 图6：左旋咪唑涉及背景知识分类图 3.2检索结果的文献计量分析与可视化展示文献计量以统计学为基础，可以客观定量的展示文献信息交流中产生的各种数量关系和变化规律，随着文献计量学的发

25、展，科学引文索引（SCI）成为科研工作者重要的参考和科研评价工具。 GOPubMed加入了文献计量分析功能，并对检索结果进行可视化输出。 3.2.1热点问题追踪尽管生物文献大量增长，研究问题却有热点和冷门之分。文献计量分析可以在科研工作者选择研究课题时提供一定指导，而以前的文献计量分析主要基于研究课题、科技期刊或研究者11，GOPubMed可以展示基于相关GO背景知识的topics，即综合考虑该术语及其子术语作为一个topic，进行文献计量分析，并配有topics趋势图。如上述检索，与左咪唑抑制剂有关的技术和设备研究达1125篇，占文章总数的79%，其研究趋势如图7，可看出其研究现阶段趋

26、于平缓。图7：左旋咪唑研究趋势。 3.2.2GOPubMed的统计分析功能 GOPubMed统计分析功能具有对所有检索结果的统计分析，亦有对单独分类类目中的术语在PubMed中检索得到的文献进行的统计分析，包括年代分布、核心著者、核心期刊、著者分布可视化地图。图8：左旋咪唑研究著者合著图。 GOPubMed自动地从成千上万的生物医学科学文献里提取合作网络14。对于每个在特定语义上的概念，GOPubMed 的“热点追踪”可以显示出在这个研究领域的专家们之间的合作网络。当用户要查找合适的专家时，GOPubMed 可以搜索这些网络去找出潜在的专家和他们的合作者，这样子就能够节省很多时间。 4

27、总结 GOPubMed应用GO和MeSH对PubMed检索结果进行数据挖掘，可以有效地的增加检索的准确率和和召回率，并对结果进行分类导航和可视化展示，初步实现了语义网络意义上的自动问答目的，该系统的实现对于应用本体搜索网络数据有重要指导意义。 GOPubMed追踪”Hot Topics”功能，可以有效的帮助用户整体把握研究趋势和研究热点，并对相关研究者、期刊、国家和地区进行有目的的学习和借鉴，与SwissProt.和维基百科的相关链接大大节约了用户整合科学数据的时间。 GOPubMed已经实现了基于GO和MeSH对检索结果进行标引和分类，但是还没有完全实现语义自动问答，其下一步的目标是实现概念

28、间的语义关联和相关度百分比匹配，建立基于本体的完全语义问答系统，提高知识管理与服务的水平。参考文献 1GOPubMed: http:/www.GOPubMed.org/web/GOPubMed/ 2http:/www.biosino.org/pages/ncbi-1.htm 3严青利，张勇.医学主题词表（MeSH）评述J.情报检索.2001（8）64-66 4于双成，逢大欣.医学主题词表（MeSH）专指度研究J.情报学报.1995（12）：449-452. 5http:/www.geneontology.org/ 6Marco Masseroli, Francesco Pinciroli.

29、Using Gene Ontology and genomic controlled vocabularies to analyze high-throughput gene lists: Three tool comparisonJ. Computers in Biology and Medicine. 2006(36):731-747. 7Doms, A. and Schroeder, M. GOPubMed: exploring PubMed with the Gene OntologyJ. Nucleic Acids Res., 2005 (33): W7836. 8 Heiko Di

30、etze, Dimitra Alexopoulou, Michael R. Alvers, Liliana Barrio-Alvers, Bill Andreopoulos, Andreas Doms, Jorg Hakenberg, Jan Monnich, Conrad Plake, Andreas Reischuck, Loc Royer,Thomas Wachter, Matthias Zschunke, and Michael Schroeder, GOPubMed: Exploring PubMed with Ontological Background KnowledgeJ. P

31、rocnd BioCreAtIvE Challenge Evaluation Workshop, 2007 (13):141144. 9 Lee, L., Horn, F. and Cohen, F. Automatic Extraction of Protein Point Mutations Using a Graph Bigram AssociationJ. PLoS Comput. Biol., 2007 (3), e16. 10 Delfs R, Doms A, Kozlenkov A, et al. GOPubMed: ontology-based literature searc

32、h applied to Gene Ontology and PubMedC / /Proc. Gorman Bioinformatics Conferene. Biele feld, Germany: LNBI Springer, 2004: 169 - 178. 11Goetz, T. and von der Lieth, CW. PubFinder: a tool for improving retrieval rate of relevant PubMed abstracts. Nucleic Acids ResJ. 2005(33): W774778. 12Boyack, KW. Mapping knowledge domains: characterizing PNASJ. Proc. Natl. Acad. Sci. USA, 101 Suppl.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？