序号”></s>(pid=“序号”language=“语种”>(/p>(aid一“序号”no=“对齐模式”)(/a)1.4语料库的整理及其加工技术语料库是大量的、能代表某一领域语言现象的真实语言材料的集合。
人们建立语料库是期望从中获得对真实语言现象和规律认识的最原始的语料,若不经过任何加工,对于机器翻译的研究来说意义不大。
只有当语料被加工之后,蕴含在语料中的语言知识被标识出来,人们才能在大鼍的语言现象中总结出规律,并用之于机器翻译的研究。
目前对语料的加工主要有词法标注、句法标注、语义特征标注和双语对应等。
加工语料主要指文本格式处理和文本描述两项工作,首先对采集的语料文本进行整理,转成统一的电子文本格式,例如数据库格式、XML文本格式等。
其次是描述每一篇语料样本的属性或特征,包括篇头和篇体描述。
篇头描述说明整篇语料样本的属性,例如语体、内容所属的领域、作者等等;篇体描述是在文本里添加各种语言学属性标记,并对双语语料库进行整理、加工。
我们制定整个语料库构建流程的XML标记集。
0.4语料库的标注
语料库的标注工作取决于语料库将以什么样的方式使用。
我们希望部分语料库资源能够直接用于改善机器译文的质量、实现较好的翻译效果,也希望能够从语料库中学习到汉语和越语语的翻译知识,例如越南语与汉语的双语词典检索、翻译模式等。
为此,必将建立一个大容量的双语语料库,库中至少要含有大量的双语句对。
我们正在进行或计划对语料库进行下列标注工作:
①中文分词及其词性标注;由于我们认识的越南语词汇较少,许多词语有其意义,并且用汉语难以表述。
首先,利用软件工具进行自动标注;其次,人工校对标注结果,对中文进行词性标注,这部分语料的标注需经过人工校对。
另外,双语语料句子对齐的研究也需进行人工校对。
总之:
双语词典是跨语言检索,机器翻译等应用系统的重要组成部分。
随着社会的发展,专业领域新词不断涌现,手工编纂词典的方法已经无法及时满足需求。
通过大规模语料来自动或半自动获取双语词典成为一种趋势。
1.自然语言处理概述
早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。
他指出,在未来我们可以“教机器英语并且说英语。
”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。
这便是最早关于自然语言处理概念的设想。
人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。
所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。
1.1什么是然语言处理
美国计算机科学家BillManaris(马纳瑞斯)在1,,,年出版的《计算机进展》(AdvancesComputers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:
“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。
自然语言处理要研制表示语言能力(linguisticcompetence)和语言应用(linguisticperformance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。
”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。
简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。
普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。
互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。
1.2自然语言处理的研究内容
自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。
我们认为,这些部门可以归纳为如下四个大的方向:
●语言学方向
本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。
这个方向最重要的研究领域是语法形式化理论和数学理论。
●数据处理方向
是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。
这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。
●人工智能和认知科学方向
在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。
这一方向的研究与人工智能以及认知科学关系密切。
●语言工程方向
主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。
1.3自然语言处理的应用
以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是:
(1)口语输入:
语音识别、信号表征(语音信号分析)、鲁棒的语音识别(RobustSpeechRecognition)、语音识别中的隐马尔可夫模型方法、语言表征理论(语言模型)、说话人识别、口语理解;
(2)书面语输入:
文献格式识别、光学字符识别(印刷体及手写体)、手写界面(如用笔输入的计算机)、手写文字分析(如签名验证);
(3)语言分析和理解:
小于句子单位的处理(形态分析,形态排歧)、语法的形式化(如上下文无关语法、词汇功能语法、功能合一语法、中心语驱动的短语结构语法)、基于约束语法的词表(LexiconsforConstraint2BasedGrammars)、计算语义学、句子建模与剖析技术、鲁棒的剖析技术(RobustParsing);
(4)语言生成:
句法生成、深层生成;
(5)口语输出技术:
合成语音生成、用于文本—语音合成的文本解释(TextInterpretationforText2to2SpeechSynthesis)、口语生成(从概念到语音)(SpokenLanguageGeneration:
ConceptiontoSpeech);
(6)话语分析与对话:
话语建模(DiscourseModeling)、对话建模、口语对话系统;
(7)文献自动处理:
文献检索、文本解释:
信息抽取、本文内容的自动归纳(如自动文摘)、文本写作和编辑的计算机支持、工业和企业中使用的受限语言(ControlledLanguagesinIndustryandCompany);
(8)多语问题的计算机处理:
机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证;
(9)多模态的计算机处理:
空间和时间的表征方法(从文本中抽取空间和时间的信息)、文本与图像处理、口语与手势的模态结合(使用数据手套)、口语与面部信息的模态结合:
面部运动与语音识别、口语与面部信息的模态结合:
面部运动与语音合成;
(10)信息传输与信息存储:
语音编码(语音压缩)、语音品质提升;
(11)自然语言处理中的数学方法:
统计建模与分类的数学理论、DSP(数字信号处理)技术、剖析算法的数学基础研究、连接主义的技术(如神经网络)、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术;
(12)语言资源:
书面语料库、口语语料库、机器词典与词网的建设、术语编纂与术语数据库、网络数据挖掘与信息提取;
(十三)自然语言处理系统的评测:
面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、人的因素与用户的可接受性、语音识别:
评估与评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测。
(13)这13项内容都涉及语言学。
这些研究都要对语言进行形式化的描述,建立合适的算法,并在计算机上实现这些算法,因此,要涉及数学、计算机科学和逻辑学。
口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。
由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。
由于它的对象是语言,因此,它基本上是一个语言学科,但它还涉及众多的学科,特别是计算机科学和数学。
1.4
1.4自然语言处理研究的发展趋势
21世纪以来,由于国际互联网的普及,自然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息,因此,世界各国都非常重视有关的研究,投入了大量的人力、物力和财力。
自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。
在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。
从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。
从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞的应用前景。
当前国外自然语言处理研究有三个显著的特点:
第一,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。
因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。
第二,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的,由于人的记忆能力有限,任何语言学家,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识是不可行的而带有很大的主观性。
当前的自然语言处理研究提倡建立语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。
机器词典和大规模语料库的建设,成为了当前这个领域的热点。
第三,自然语言处理中越来越多地使用统计数学方法来分析语言数据。
使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,必须使用统计数学的方法。
目前,自然语言处理中的统计数学方法已经相当成熟,如果我们认真地学会了统计数学,努力地掌握了统计数学,就会使我们在获取语言知识的过程中如虎添翼。
目前,我国的自然语言处理研究虽然已经取得不少成绩,但是与国际水平相比,差距还很大。
我国的自然语言处理研究,无论在理论上还是在应用系统的开发上,基本上还没有重大的创新与值得称道的突破。
我们的研究基本上还是跟踪性的研究,很少有创造性的研究,当然更谈不上具有原创思想的研究了。
因此,我们不能夜郎自大,不能坐井观天,我们只有努力学习国外的先进成果,赶上并超过国际先进水平,使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发
2.语料库简介
2.1语料库建设及平行语料概述
语料库是指用电子形式保存的自然出现的书面语或口语的样本集合,用来代表特定的语言或语言变体的语言研究材料。
能否反映和记录语言的实际使用情况就要依靠科学的选材和标注以及适当的语料库规模。
通过对语料库的观察和语言事实的把握,分析和研究语言系统的规律。
目前,在语言学理论、应用和语言工程研究领域,语料库已成为必不可少的基础资源
2.2语料库研究概述
现今的信息处理系统都离不开数据和知识库的支持,自然语言处理更不例外。
语料库作为基本的语言数据库和知识库,已经在不同层面构成了自然语言处理方法赖以实现的基础。
语料库,换言之即是存放语言材料的数据库。
早期语料库的建设多数以汉语词汇统计为主要目标。
,。
年代后,随着自然语言处理技术的发展,语料库在统计机器翻译的研究中得到了广泛的应用,随着技术的发展,多种类型的语料库应运而生,语料库建设也成为研究的新内容。
根据语料库不同的研究目的和用途,也就是不同的语料采集的原则和方式,将语料库分为异质型、同质型、系统型、专用型四种类型;按照语料的语种,语料库也可以分成单语、双语和多语三种类型。
正是由于语料库与语言信息处理的这种天然的联系,在相应语料库技术在大规模的自然语言处理的统计、分析过程中的应用使得基于统计的方法不断的取代了基于规则的方法,同时在信息检索、文本过滤等方向语料库也发挥了重要作用。
自然语言处理技术的深入发展也同时也推动了语料库的建设,自然语言信息处理的研究在字符编码、文本输入和整理、语料的自动分词和标注、语料的统计和检索等方面都为语料的加工提供了关键性的技术。
2.3我国语料库建设的基本情况
目前,随着计算机硬件和软件技术的高速发展以及语言学和语言工程研究的需要,语料库的规模会不断的增大,1。
。
万次的标准正在被1亿次的标准取代。
语料库越来越大的趋势似乎还会继续下去。
互联网上的双语新闻、海量文档逐渐的成为重要的语料来源。
与此同时,根据不同应用目的产生了类型各不相同的语料库和不同的语料加工方法,这几年已有数十个之多的语料库投入建设或开始使用。
一些实用性很强并且具有一定代表性的语料库已经开始投入使用。
如:
现代汉语通用语料库、《人民日报》标注语料库、面向特定语言分析技术开发的专用语料库、双语语料库等。
大规模的平行双语语料库要按同级别翻译单位将目标实例与语料里的源语实例对齐,多用于支持基于实例的机器翻译。
机器翻译系统通过将要翻译的句子与语料库里的源语实例一一对比,分析相似程度,再参照与最适合的源语实例对齐的目标语实例生成译文。
针对大规模的双语语料库,用人工做语料对齐的工作是很难实现的。
此时建立双语语料库的关键技术就在于使文本自动对齐。
双语平行语料库的建设与翻译的实际需求有直接联系。
英语在世界局势全球化的过程中并没有成为垄断语言,却产生了日益强烈的翻译需求,如:
英国金融时报每天有多语言版本发布;欧洲新闻电视广播使用多语言发送信号。
不仅如此,欧盟的大量官方文件也需要翻译为成员国的多种语言。
面对巨大的翻译需求和翻译语料库的潜在用途,使得双语平行语料库的建设得到了前所未有的重视。
随着双语语料库不断扩大以及从对译语料库中提取出来的翻译例句的积累,双语语料库会更加的丰富。
在目前已有的双语语料库中,哈尔滨工业大学的汉英平行语料库已经直接用来开发英汉双向机器翻译系统。
这个语料库有6万个汉语和英语的句子,使用多级对齐加工技术,分别按照句子、短语结构和词一~对齐。
中国科学院计算技术研究所的汉英双语语料库有2。
万个句子级别对齐的句对。
2.4语料库在自然语言处理中的应用
自然语言处理主要包括机器翻译、信息提取以及对话识别三个方面,本文主要研究的是计算机语料库在自然语言处理中的用途。
在语言研究中,语料库方法是一种经验的方法,它能提供大量的自然语言材料,有助于研究者根据语言实际得出客观的结论,这种结论同时也是可观测和可验证的。
在计算机技术的支持下,语料库方法对语言研究的许多领域产生了越来越多的影响。
各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。
计算机语料库建设对提高系统的功能和效果的直接影响表现在为各系统所用的规则提供了丰富的知识库,如各种形式和内容的机器词典、规则库;为各系统提供了丰富的语篇,各系统可以从中提取自然语言的统计数据,概括新的语法规则和语言现象的概率,用以改进自动语言处理的功能和效果。
我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。
自然语言处理经历了以词典为依据、以机器翻译为特征进行词间互译的第一阶段;以人工智能为特征,强调知识与语义的作用的第二阶段;以语法.逻辑为特征的第三阶段和以语言资料统计处理为特征的大规模语料强化处理的第四阶段的发展后,随着概率优先算法的提出,大规模语料不仅用于支持语言信息处理,而且成为取代以往语言处理的模型。
大量的双语语料不仅为自然语言处理提供了资料来源与系统检测基础,也给自然语言处理提出了新的研究焦点。
自然语言信息处理与语料库的建设与发展有着相辅相成的关系,大规模的语料库是用统计语言模型方法处理自然语言的基础资源。
然而统计语言模型本身并不关心其建模对象的语言学信息,它关心的只是一串符号的同现概率。
在自然语言处理中,可以通过间接使用专家知识指导建立描述语言的模型,设计算法,再把模型与算法用于基于模板或基于概率优选算法的系统。
对于此种应用应该注意知识与算法作用的重要区分,算法能帮助解决问题,专家知识能够使算法更有效。
到目前为止,大部分机器翻译系统是基于知识和规则的。
在机器翻译分析中,结合到系统中的语言学知识有两个部分:
第一部分是界定可以被处理的语言,典型的做法是列出一套无限的合法的句子即字词系列。
如果这种知识表述的很明白,可以用一个识别器加以应用。
识别器可以根据所分辨的句子是合法还是不合法,反馈出识别成功或识别失败。
知识的第二个部分包括暗含的或明确的构造过程。
这个过程将一个识别器转化为一个句法附码器,这个句法附码器能给任何合法的句子指定某个结构或某些结构。
随着高性能计算机技术的发展,大量处理语料功能得以实现,以及网络的普及,广泛的语料来源为深