毕业设计调研报告.docx

资源描述

毕业设计调研报告.docx

《毕业设计调研报告.docx》由会员分享，可在线阅读，更多相关《毕业设计调研报告.docx（16页珍藏版）》请在冰豆网上搜索。

毕业设计调研报告.docx

毕业设计调研报告

关于《双语词典信息系统的分析与设计》别业设计课题调研报告

姓名：

崔光荣

学号：

200710401335

班级：

自动化081

指导教师：

郭剑毅

学院：

昆明理工大学信息工程与自动化

1．引言

随着国际交流越来越频繁，互联网深入到人们的工作、生活中，社会的信息化程度越来越高。

人们为使自己不被时代所淘汰，不得不紧跟时代的步伐，时刻关注并获取世界上的簸新信息。

而这些信息中的大部分是在Internet上以外文形式出现的。

于是，语言成为了人们信息获取最大障碍。

鉴于人工翻译在便捷和费用等方面的限制，人们对机器翻译或机器辅助翻译系统的需求越来越迫切。

因而对机器翻译的研究成先热点。

目前对机器翻译的研究很多，其中比较先进的机器翻译方法是基于大型语料库和统计学的机器翻译。

本调研对自然语言处理、机器翻译理论的起源、发展、国内外研究现状以及语料库进行阐述，重点介绍机器翻译的方法、特点及基本原理，以及～些机器翻译研究中主要计算方法的结构和特性。

在此基础上，参照相关文献提出机器翻译系统的设计框架。

下面是汉-越双语词典信息系统背景及相关调研。

1986年越南政府推行革新开放政策以来，特别是2007年1月越南正式成为WTO成员后，标志着该国已全面融人国际社会之中。

无论是人们的思想观念、生活方式，还是科学技术，无不透射出来自世界各国尤其是与之近邻的中国和西方国家外来文化的影响。

对外开放必然增加了各个领域的交往，而语言文字是交流的重要工具。

因而现代越南语不断吸纳了政治、经济、文化等领域的英语和汉语新词，从而丰富了越南语的自身内涵。

现代越南语的新词发展趋势，在总体上是直接借用英语、法语外来词，其次是受汉语影响，借用汉语新词或通过原有的汉语词素组合成新词。

在翻译越南语新词时，要考虑在不同的语境下，充分理解越南语新词语义和它的构词原则，因此，越汉双语词典信息系统的分析与设计要充分考虑越语的特点和发展，并且汉-越双语语料库的构建，是一个相当大的难题，它为中越交往起至关重要作用并为其创造学术价值。

自20世纪80年代以来，基于语料库的方法受到了计算语言学研究者的广泛重视。

而随之出现的双语语料库，逐渐成为解决机器翻译中知识获取的理想资源，其对于众多跨语言的自然语言处理研究都具有较高的研究和实用价值。

对越语双语语科库的研究，是开发越汉双语词典信息系统的分析与设计的基础，它已相继开发了汉一英、汉一蒙和汉一维语料库。

还处于落伍阶段。

，有待于快速起步和发展。

因此，构建一个大型的、多领域、高性能的双语语料库是当前研究的重点问题之一。

双语语料库的建设对于双语词典编纂、跨语言的对比研究都具有十分重要的价值。

越一汉双语语料库的构建方法。

0.1语料选取及语料库的设计

双语语料库建设是一项工作量极大的工作，由于一个有实际应用价值的语料库决不是任意文本的任意集合，其文本类型、大小以及语料的构成都必须根据应用需求，经过仔细的设计，才能保证所投入的工作是值得的。

但构造一个这样的语料库并非易事，需要有足够的机器可读的语料作为取样基础。

结合上述理论思考以及现实条件下的实际情况，确定了下面的语料收集原则：

①由于越语和汉语文本对照类型的文章较少，因此只能收集有关越语和汉语互译的短语句子或相关材料；也可包含一些具有良好越南语译文的文章在内容和结构上具有相似性的语言材料。

②双语材料以汉语作为源语言，因为语料库的服务对象是汉语和越语的双语检索系统。

⑧文本应尽可能地把有关的越语和汉语的对照语句全部收入到语料库中，这将有益于更多知识的获取和学习，一个实用的双语检索系统最终必须是范围最全面的检索系统。

④越南语中很多新词汇。

在总体上是直接借用英语、法语外来词，其次是受汉语影响，借用汉语新词或通过原有的汉语词素组合成新词

0.2双语语料库的制定与规划

双语语料库的规范问题主要是对语料加工而言的，随后是词性标注、短语和句子结构的标注，随着语料的深入加工，统一规范将成为不可避免的问题。

除语料加工以外，语料库的加工应该在语料的采集和存储格式上有所规范，语料存储格式的规范一般采用统一的编码规范为电子文本作标记。

目前，可扩充置标语言XML被广泛地用作语料库标注的元语言，存储格式的标准化有助于语料的交换和共享。

目前，构建双语语料库的核心任务是双语语料库的组织，为了更好地进行这两项工作，保证语料库的质量和规模，一个相对完整、便于操作的语料库构建流程是最重要的。

因此，通过对语料库的加工和处理、语料库的组织等问题进行分析，初步形成了一个双语语料库构建流程的模型，如图1所示。

0.3语料库的编码

为方便语料库的管理、统一处理、共享和交换，最理想的方式就是设计一个专用的管理系统。

语料库中所有语料需按照同样的方式编码或标记。

这可以使得语料库能够独立于软件平台和具体的应用程序，具有较强的数据可交换性。

目前国际上有两个著名的语料库标记标准建议方案，一个是正处在开发之中的语料库编码标准（CES），另外～个是文本编码标准TEl，TEI已为一些著名语料库所采用，例如英国国家语料库（BNC），而这两项标准都是基于SGML标记语言而制定的。

我们则是选用XML语言作为编码的元语言，因为XML语言很普及，得到业界的广泛支持，基于XML语言的编码体系容易获得广泛的软件支持。

表1XML标记集Tab．1XMLtagset被标记内容标记正文中文标题纳西语标题作者名泽者名词边界句子边界段落边界对齐单位（TEXTBODE>（／TEXTBODE><／NAXIT1TLE>（Author>（／Author）‘1ranslator><／w>

序号”><／s>（pid=“序号”language=“语种”>（／p>（aid一“序号”no=“对齐模式”）（／a）1．4语料库的整理及其加工技术语料库是大量的、能代表某一领域语言现象的真实语言材料的集合。

人们建立语料库是期望从中获得对真实语言现象和规律认识的最原始的语料，若不经过任何加工，对于机器翻译的研究来说意义不大。

只有当语料被加工之后，蕴含在语料中的语言知识被标识出来，人们才能在大鼍的语言现象中总结出规律，并用之于机器翻译的研究。

目前对语料的加工主要有词法标注、句法标注、语义特征标注和双语对应等。

加工语料主要指文本格式处理和文本描述两项工作，首先对采集的语料文本进行整理，转成统一的电子文本格式，例如数据库格式、XML文本格式等。

其次是描述每一篇语料样本的属性或特征，包括篇头和篇体描述。

篇头描述说明整篇语料样本的属性，例如语体、内容所属的领域、作者等等；篇体描述是在文本里添加各种语言学属性标记，并对双语语料库进行整理、加工。

我们制定整个语料库构建流程的XML标记集。

0．4语料库的标注

语料库的标注工作取决于语料库将以什么样的方式使用。

我们希望部分语料库资源能够直接用于改善机器译文的质量、实现较好的翻译效果，也希望能够从语料库中学习到汉语和越语语的翻译知识，例如越南语与汉语的双语词典检索、翻译模式等。

为此，必将建立一个大容量的双语语料库，库中至少要含有大量的双语句对。

我们正在进行或计划对语料库进行下列标注工作：

①中文分词及其词性标注；由于我们认识的越南语词汇较少，许多词语有其意义，并且用汉语难以表述。

首先，利用软件工具进行自动标注；其次，人工校对标注结果，对中文进行词性标注，这部分语料的标注需经过人工校对。

另外，双语语料句子对齐的研究也需进行人工校对。

总之：

双语词典是跨语言检索，机器翻译等应用系统的重要组成部分。

随着社会的发展，专业领域新词不断涌现，手工编纂词典的方法已经无法及时满足需求。

通过大规模语料来自动或半自动获取双语词典成为一种趋势。

1.自然语言处理概述

早在计算机还未出现之前，英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。

他指出，在未来我们可以“教机器英语并且说英语。

”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。

这便是最早关于自然语言处理概念的设想。

人类的逻辑思维以语言为形式，人类的多种智能都与语言有着密切的联系。

所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。

1.1什么是然语言处理

美国计算机科学家BillManaris（马纳瑞斯）在1，，，年出版的《计算机进展》（AdvancesComputers）第47卷的《从人—机交互的角度看自然语言处理》一文中，曾经给自然与然处理提出了如下定义：

“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。

自然语言处理要研制表示语言能力（linguisticcompetence）和语言应用（linguisticperformance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。

”这个定义被广泛的接受，它比较全面的地表达了计算机对自然语言的研究和处理。

简单来说，自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科，它是计算机科学领域与人工智能领域中的一个重要方向。

普遍认为它主要是应用计算机技术，通过可计算的方法对自然语言处理的各级语言单位（字，词，语句，篇章等）进行转换，传输，存储，分析等加工处理的学科，是一门融合了语言学，计算机学，数学等学科于一体的交叉性学科。

互联网技术的发展，极大地推动了信息处理技术的发展，也为信息处理技术不断提出新的需求，语言作为信息的载体，语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

1.2自然语言处理的研究内容

自然语言处理的范围涉及众多方面，如语音的自动识别与合成，机器翻译，自然语言理解，人机对话，信息检索，文本分类，自动文摘，等等。

我们认为，这些部门可以归纳为如下四个大的方向：

●语言学方向

本方向是把自然语言处理作为语言学的分时来研究，它之研究语言及语言处理与计算相关的方面，而不管其在计算机上的具体实现。

这个方向最重要的研究领域是语法形式化理论和数学理论。

●数据处理方向

是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。

这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发，近些年来则有大规模的语料库的涌现。

●人工智能和认知科学方向

在这个方向中，自然语言处理被作为在计算机上实现自然语言能力的学科来研究，探索自然语言理解的只能机制和认知机制。

这一方向的研究与人工智能以及认知科学关系密切。

●语言工程方向

主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究，这一方向的研究一般称为“人类语言技术”或者“语言工程”。

1.3自然语言处理的应用

以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容，更加细致的说，自然语言处理可以进一步细化为以下13项研究内容，也即为自然语言处理的应用方向，这13个应用方向分别是：

（1）口语输入:

语音识别、信号表征（语音信号分析）、鲁棒的语音识别（RobustSpeechRecognition）、语音识别中的隐马尔可夫模型方法、语言表征理论（语言模型）、说话人识别、口语理解;

（2）书面语输入:

文献格式识别、光学字符识别（印刷体及手写体）、手写界面（如用笔输入的计算机）、手写文字分析（如签名验证）;

（3）语言分析和理解:

小于句子单位的处理（形态分析,形态排歧）、语法的形式化（如上下文无关语法、词汇功能语法、功能合一语法、中心语驱动的短语结构语法）、基于约束语法的词表（LexiconsforConstraint2BasedGrammars）、计算语义学、句子建模与剖析技术、鲁棒的剖析技术（RobustParsing）;

（4）语言生成:

句法生成、深层生成;

（5）口语输出技术:

合成语音生成、用于文本—语音合成的文本解释（TextInterpretationforText2to2SpeechSynthesis）、口语生成（从概念到语音）（SpokenLanguageGeneration:

ConceptiontoSpeech）;

（6）话语分析与对话:

话语建模（DiscourseModeling）、对话建模、口语对话系统;

（7）文献自动处理:

文献检索、文本解释:

信息抽取、本文内容的自动归纳（如自动文摘）、文本写作和编辑的计算机支持、工业和企业中使用的受限语言（ControlledLanguagesinIndustryandCompany）;

（8）多语问题的计算机处理:

机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证;

（9）多模态的计算机处理:

空间和时间的表征方法（从文本中抽取空间和时间的信息）、文本与图像处理、口语与手势的模态结合（使用数据手套）、口语与面部信息的模态结合:

面部运动与语音识别、口语与面部信息的模态结合:

面部运动与语音合成;

（10）信息传输与信息存储:

语音编码（语音压缩）、语音品质提升;

（11）自然语言处理中的数学方法:

统计建模与分类的数学理论、DSP（数字信号处理）技术、剖析算法的数学基础研究、连接主义的技术（如神经网络）、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术;

（12）语言资源:

书面语料库、口语语料库、机器词典与词网的建设、术语编纂与术语数据库、网络数据挖掘与信息提取;

（十三）自然语言处理系统的评测:

面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、人的因素与用户的可接受性、语音识别:

评估与评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测。

（13）这13项内容都涉及语言学。

这些研究都要对语言进行形式化的描述,建立合适的算法,并在计算机上实现这些算法,因此,要涉及数学、计算机科学和逻辑学。

口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。

由自然语言的应用领域更加进一步说明，自然语言处理都是一个多边缘的交叉学科。

由于它的对象是语言,因此,它基本上是一个语言学科,但它还涉及众多的学科,特别是计算机科学和数学。

1.4

1.4自然语言处理研究的发展趋势

21世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视有关的研究,投入了大量的人力、物力和财力。

自然语言处理研究的历史虽不很长，但就目前已有的成果足以显示它的重要性和应用前景。

在美、英、日、法等发达国家，自然语言处理如今不仅作为人工智能的核心课题来研究．而且也作为新一代计算机的核心课题来研究。

从知识产业的角度来看．自然语言处理的软件也占重要地位，专家系统，数据库、知识库．计算机辅助设计系统（CAD）、计算机辅助教学系统（CAl）、计算机辅助决策系统，办公室自动化管理系统、智能机器人等，无一不需要用自然语言做人一机界面。

从长远看．具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引，自动文摘．自动写故事小说等领域，具有广阔的应用领域和令人鼓舞的应用前景。

当前国外自然语言处理研究有三个显著的特点:

第一,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。

随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法（即经验主义的方法）至少是对基于规则的分析方法（即理性主义的方法）的一个重要补充。

因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。

第二,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的,由于人的记忆能力有限,任何语言学家,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识是不可行的而带有很大的主观性。

当前的自然语言处理研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。

机器词典和大规模语料库的建设,成为了当前这个领域的热点。

第三,自然语言处理中越来越多地使用统计数学方法来分析语言数据。

使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,必须使用统计数学的方法。

目前,自然语言处理中的统计数学方法已经相当成熟,如果我们认真地学会了统计数学,努力地掌握了统计数学,就会使我们在获取语言知识的过程中如虎添翼。

目前，我国的自然语言处理研究虽然已经取得不少成绩,但是与国际水平相比,差距还很大。

我国的自然语言处理研究,无论在理论上还是在应用系统的开发上,基本上还没有重大的创新与值得称道的突破。

我们的研究基本上还是跟踪性的研究,很少有创造性的研究,当然更谈不上具有原创思想的研究了。

因此,我们不能夜郎自大,不能坐井观天,我们只有努力学习国外的先进成果,赶上并超过国际先进水平,使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发

2.语料库简介

2.1语料库建设及平行语料概述

语料库是指用电子形式保存的自然出现的书面语或口语的样本集合，用来代表特定的语言或语言变体的语言研究材料。

能否反映和记录语言的实际使用情况就要依靠科学的选材和标注以及适当的语料库规模。

通过对语料库的观察和语言事实的把握，分析和研究语言系统的规律。

目前，在语言学理论、应用和语言工程研究领域，语料库已成为必不可少的基础资源

2．2语料库研究概述

现今的信息处理系统都离不开数据和知识库的支持，自然语言处理更不例外。

语料库作为基本的语言数据库和知识库，已经在不同层面构成了自然语言处理方法赖以实现的基础。

语料库，换言之即是存放语言材料的数据库。

早期语料库的建设多数以汉语词汇统计为主要目标。

，。

年代后，随着自然语言处理技术的发展，语料库在统计机器翻译的研究中得到了广泛的应用，随着技术的发展，多种类型的语料库应运而生，语料库建设也成为研究的新内容。

根据语料库不同的研究目的和用途，也就是不同的语料采集的原则和方式，将语料库分为异质型、同质型、系统型、专用型四种类型；按照语料的语种，语料库也可以分成单语、双语和多语三种类型。

正是由于语料库与语言信息处理的这种天然的联系，在相应语料库技术在大规模的自然语言处理的统计、分析过程中的应用使得基于统计的方法不断的取代了基于规则的方法，同时在信息检索、文本过滤等方向语料库也发挥了重要作用。

自然语言处理技术的深入发展也同时也推动了语料库的建设，自然语言信息处理的研究在字符编码、文本输入和整理、语料的自动分词和标注、语料的统计和检索等方面都为语料的加工提供了关键性的技术。

2.3我国语料库建设的基本情况

目前，随着计算机硬件和软件技术的高速发展以及语言学和语言工程研究的需要，语料库的规模会不断的增大，1。

。

万次的标准正在被1亿次的标准取代。

语料库越来越大的趋势似乎还会继续下去。

互联网上的双语新闻、海量文档逐渐的成为重要的语料来源。

与此同时，根据不同应用目的产生了类型各不相同的语料库和不同的语料加工方法，这几年已有数十个之多的语料库投入建设或开始使用。

一些实用性很强并且具有一定代表性的语料库已经开始投入使用。

如：

现代汉语通用语料库、《人民日报》标注语料库、面向特定语言分析技术开发的专用语料库、双语语料库等。

大规模的平行双语语料库要按同级别翻译单位将目标实例与语料里的源语实例对齐，多用于支持基于实例的机器翻译。

机器翻译系统通过将要翻译的句子与语料库里的源语实例一一对比，分析相似程度，再参照与最适合的源语实例对齐的目标语实例生成译文。

针对大规模的双语语料库，用人工做语料对齐的工作是很难实现的。

此时建立双语语料库的关键技术就在于使文本自动对齐。

双语平行语料库的建设与翻译的实际需求有直接联系。

英语在世界局势全球化的过程中并没有成为垄断语言，却产生了日益强烈的翻译需求，如：

英国金融时报每天有多语言版本发布；欧洲新闻电视广播使用多语言发送信号。

不仅如此，欧盟的大量官方文件也需要翻译为成员国的多种语言。

面对巨大的翻译需求和翻译语料库的潜在用途，使得双语平行语料库的建设得到了前所未有的重视。

随着双语语料库不断扩大以及从对译语料库中提取出来的翻译例句的积累，双语语料库会更加的丰富。

在目前已有的双语语料库中，哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。

这个语料库有6万个汉语和英语的句子，使用多级对齐加工技术，分别按照句子、短语结构和词一～对齐。

中国科学院计算技术研究所的汉英双语语料库有2。

万个句子级别对齐的句对。

2.4语料库在自然语言处理中的应用

自然语言处理主要包括机器翻译、信息提取以及对话识别三个方面，本文主要研究的是计算机语料库在自然语言处理中的用途。

在语言研究中，语料库方法是一种经验的方法，它能提供大量的自然语言材料，有助于研究者根据语言实际得出客观的结论，这种结论同时也是可观测和可验证的。

在计算机技术的支持下，语料库方法对语言研究的许多领域产生了越来越多的影响。

各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。

计算机语料库建设对提高系统的功能和效果的直接影响表现在为各系统所用的规则提供了丰富的知识库，如各种形式和内容的机器词典、规则库；为各系统提供了丰富的语篇，各系统可以从中提取自然语言的统计数据，概括新的语法规则和语言现象的概率，用以改进自动语言处理的功能和效果。

我国在语料库的应用上还处于起步阶段，在计算语言学和语言信息处理领域，语料库主要用来为统计语言模型提供语言特征信息和概率数据，在语言研究的其他领域，多使用语料的检索和频率统计结果。

自然语言处理经历了以词典为依据、以机器翻译为特征进行词间互译的第一阶段；以人工智能为特征，强调知识与语义的作用的第二阶段；以语法．逻辑为特征的第三阶段和以语言资料统计处理为特征的大规模语料强化处理的第四阶段的发展后，随着概率优先算法的提出，大规模语料不仅用于支持语言信息处理，而且成为取代以往语言处理的模型。

大量的双语语料不仅为自然语言处理提供了资料来源与系统检测基础，也给自然语言处理提出了新的研究焦点。

自然语言信息处理与语料库的建设与发展有着相辅相成的关系，大规模的语料库是用统计语言模型方法处理自然语言的基础资源。

然而统计语言模型本身并不关心其建模对象的语言学信息，它关心的只是一串符号的同现概率。

在自然语言处理中，可以通过间接使用专家知识指导建立描述语言的模型，设计算法，再把模型与算法用于基于模板或基于概率优选算法的系统。

对于此种应用应该注意知识与算法作用的重要区分，算法能帮助解决问题，专家知识能够使算法更有效。

到目前为止，大部分机器翻译系统是基于知识和规则的。

在机器翻译分析中，结合到系统中的语言学知识有两个部分：

第一部分是界定可以被处理的语言，典型的做法是列出一套无限的合法的句子即字词系列。

如果这种知识表述的很明白，可以用一个识别器加以应用。

识别器可以根据所分辨的句子是合法还是不合法，反馈出识别成功或识别失败。

知识的第二个部分包括暗含的或明确的构造过程。

这个过程将一个识别器转化为一个句法附码器，这个句法附码器能给任何合法的句子指定某个结构或某些结构。

随着高性能计算机技术的发展，大量处理语料功能得以实现，以及网络的普及，广泛的语料来源为深

展开阅读全文