1、一、跨语言信息检索基本概念,1.跨语言信息检索的概念 跨语言信息检索(CLIR)是指用户用某种语言从另外一种或多种语言表达的文献信息集中检索出所需文献信息的方式或技术。,2.跨语言信息检索的类型(1)双语言信息检索(2)多语言信息检索(3)特定领域的跨语言信息检索(4)跨语言的多媒体信息检索,二、跨语言信息检索的实现方法,跨语言信息检索涉及至少两种以上语言的文献,需要先确定出文献的语种、形式及编码方案,对其进行自动分析和标引,最终实现检索匹配,因此离不开“翻译”的过程。“翻译”可以说是跨语言信息检索技术的核心问题。其实现方法主要有以下几种:1.提问式翻译方法 提问式翻译方法是在信息检索之前,将
2、提问式的语种转化翻译成所要检索信息的信息语种。,2.文献翻译方法。文献翻译方法是在信息检索之前,将文献信息资源的信息语种转化为提问语种。文献信息不仅指文本信息,也包括语音文献信息,例如数字图书馆中就存在大量的数字化语音文献。,3.提问式-文献翻译方法 综合提问式翻译方法和文献翻译方法的优点,提出提问式-文献翻译方法来实现CLIR。这一方法既减少用户的翻译成本,又提高检索服务的质量,应该说是目前实现CLIR 比较理想的选择。,4.中间语种翻译方法 一般认为,选择的中间语种是计算机容易自动处理的语种,如英语等。特别是在跨语言信息检索中遇到这样问题时:源语种和目标语种之间无法进行直接翻译。此时只能借
3、助于中间语种将源语种翻译目标语种(源中间目标)或将源语种和目标语种翻译成中间语种(源中间目标)。,5.非翻译方法(no translation approach)。除了上述几种通过翻译来实现跨语言信息检索的方法外,还有学者提出了不进行任何翻译,只通过使用一些词形处理手段,就可实现CLLR的技术。也称为同源匹配。这种技术主要是基于印欧语系中的英语、法语等有共同的起源,它们中的很多词有相似的拼写形式或者读音,将英语词汇、法语词汇、英法双语文件映射到一个向量空间中,可进行语义上的比较匹配。,三、跨语言信息检索中翻译方法的实现,1.基于机器翻译的方法。机器翻译系统接受用户输入并输出翻译结果。2.基于语
4、料库的方法 语料库是将同一信息或同一主题的信息用两种或多种语言进行描述,并由人工或计算机建立不同语种间信息的联系的集合,来源于对单词用法的统计。语料库可以分为平行语料库和比较语料库。基于语料库方法的中心思想是通过语料库中不同语种同一信息的对应关系对提问式进行翻译并且过滤提问式翻译后产生的非正常翻译结果。3.基于词典的方法 中心思想是基于双语字典或词典,找出提问式中的所有检索单词(提问语种)对应匹配的由信息语种描述的单词。4.字典与语料库混合方法 首先使用字典对提问式进行翻译,再利用专业语料库中相关术语的对应关系来净化翻译结果。,四、跨语言信息检索的发展趋势及 前景展望,1、发展趋势:(1)不断涉足新的语言种类。(2)多种方法结合的效果要优于单种方法。(3)结合语义分析提高查询精确度。2、前景:由于CLIR 技术是正处于研究的新兴技术,实际应用也不是很多,技术还不够成熟,因此在技术方面仍期待有更核心性的突破和进展,从而形成一套完备的理论体系以及成熟的实践操作技术。,谢 谢!,