自然语言处理研究.docx

上传人:b****5 文档编号:3987906 上传时间:2022-11-26 格式:DOCX 页数:17 大小:39.34KB
下载 相关 举报
自然语言处理研究.docx_第1页
第1页 / 共17页
自然语言处理研究.docx_第2页
第2页 / 共17页
自然语言处理研究.docx_第3页
第3页 / 共17页
自然语言处理研究.docx_第4页
第4页 / 共17页
自然语言处理研究.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

自然语言处理研究.docx

《自然语言处理研究.docx》由会员分享,可在线阅读,更多相关《自然语言处理研究.docx(17页珍藏版)》请在冰豆网上搜索。

自然语言处理研究.docx

自然语言处理研究

计算语言学和自然语言信息处理研究和应用综述

目录

一概述

二语言信息处理的基础研究

2.1面向信息处理应用的语言研究

2.2关于语言资源建设的专题研究

2.2.1语料的标注

2.2.2语料的分析和处理

2.2.3用于语言资源建设的字表、词表和标准、规范。

2.3研究中的理性主义和经验主义方法

三应用性的研究和实用系统的研制

3.1机器翻译

3.1.1基于规则的方法和基于语料库的方法

3.1.2机器翻译中的专题研究

3.1.3应用型机器翻译系统的研制

3.2文本信息处理

四语言资源的建设

4.1语料库

4.2语言知识库

4.3基于语料库的语言分析方法

五主要学术会议和期刊、论著

六参考文献

 

计算语言学和自然语言信息处理研究和应用综述

一、概述

计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(LanguageUnderstanding)和自动生成(LanguageGeneration)。

前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。

计算语言学的研究也像其他学科一样,有科学研究与技术研究两个层次。

科学研究的目的是发现语言的内在规律、探索语言理解和生成的计算方法、建设语言信息处理的基础资源;而技术研究则借助应用目标来驱动,根据社会的实际需要,设计和开发实用的语言信息处理系统。

自然语言信息处理的应用目标是使人与计算机之间用自然语言进行交流。

具体说,是建立各种处理自然语言的计算机应用软件系统,譬如:

机器翻译、自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘,还有文本中的信息提取、互联网上的智能搜索,以及各种电子词典和术语数据库。

随着互联网的广泛普及,语言信息处理的社会需求越来越大,人们迫切需要用自动化的手段处理海量的语言信息。

然而,由于学科理论发展的局限和汉语本身的复杂性,目前我国计算语言学理论和方法的研究还不能为开发汉语信息处理应用系统提供足够的支持。

多年来国内计算语言学和自然语言处理学科发展的特点之一是,应用型研究和实用系统开发的目标比较明确,投入相对较多,也取得了一些成果;而基础理论和方法的研究则相对薄弱。

1998年-2002年期间的研究情况和发展态势依然如此。

在本文上述的各种应用目标中,研究力量比较集中的项目有:

文本信息检索、文献自动分类、自动文摘、语音自动识别与合成、机器翻译,还有文本信息提取和过滤。

另外,语言资源的建设和基于语料库的语言分析方法也受到了格外关注,取得了比较快的进展。

下面先简要叙述计算语言学和语言信息处理领域有代表性的基础研究,再介绍面向应用的研究和实用系统的研制,然后谈谈语言资源的建设,最后介绍有关的学术会议和期刊、论著。

这些工作都以书面语为研究对象,针对口语的研究将作为语音识别与合成专题另文介绍。

二语言信息处理的基础研究

作为《中国语言学年鉴》当中一个分支学科的内容,这里主要叙述的是语言信息处理领域里与语言研究直接有关的专题,或者叫作面向信息处理应用的语言研究。

不包括语言计算处理方法的研究和以技术为主的工作,例如统计意义下的建模方法、机器学习的算法、文字识别与汉字输入技术,等等。

2.1面向信息处理应用的语言研究

在计算语言学和语言信息处理学界,关于语言问题的研究往往有自上而下和自下而上两种动机。

前者关心如何用语言学的理论解释某种语言(比如汉语)的现象,后者注重解决语言工程和应用实践中提出的实际问题。

自上而下的典型代表是在形式语义学的理论框架下研究汉语的语义问题,也叫做逻辑语义方法[8][12]。

这种方法用内涵逻辑语义模型来分析汉语词语的构造、解释汉语词语的意义。

其中的基本问题是,用形式化的方式描述词语、词语所表示的概念、词语指称的实体以及三者之间的关联关系,然后应用模型论方法对汉语语句的结构形式进行语义解释。

这种观点是我国的计算机科学家借鉴国外对印欧语言的研究成果,结合汉语的实际提出来的,在词语的语义理解、歧义解读、短语构造等方面,都有个案分析的尝试。

然而要想在汉语理解研究中得到系统性的结果,这种方法还有许多困难,其中之一是,它要求结构形式上的复合运算与语义上的组合运算具有同构关系,因此需要先定义一个形式化的汉语语法,才能对应地定义语义模型和语义计算规则,而目前我们还没有办法找到这样的汉语语法理论。

对于句法分析和语义分析的先后关系,《语义指向的形式模型研究》[8]则持另外一种观点,认为在很多情况下,语义分析不一定必须经过句法分析。

这篇文章根据Frege的组合性原则,提出了一个形式模型,描述词或词组的语义与其所处语境的语义之间的制约关系,把语义指向定义为:

用类型化的结构特征描述角色的语义,用特征结构间的匹配和偏序关系确定语义指向,以实现完全不依赖于句法分析的语义指向分析。

概念层次网络(又称HNC理论)是九十年代我国学者针对汉语信息处理提出来的语义和概念体系[10]。

这个理论建立了一个计算机可操作的符号体系,描述人类的语言概念空间。

符号体系分成三个层面,第一是概念基元层面,对应自然语言的词语;第二是句类基元层面,对应自然语言的语句,第三是语境基元层面,对应自然语言的句群、段落及篇章。

在符号体系内,用关联性原则代替自然语言符号体系的任意性原则,来描述各种基元之间的关系。

HNC在自然语言处理中起作用的主要是句类分析方法。

1998-2002年期间,HNC在汉语分析、理解和生成、机器翻译、汉语文本分类等方面得到了应用,一些根据HNC的方法描写、处理汉语和外语的报告也陆续发表出来[20]。

更多的基础研究课题来自语言工程和应用实践。

其中从语言信息处理的角度研究汉语的构词、造句和语义问题得到了比较多的重视。

汉语形式和和意义之间的关系很灵活,一种结构形式经常表示多种意义,一种语义内容也经常可以用多种结构形式来表示。

这就使计算机在分析和理解汉语的时候缺少形式上的依据,对许多歧义现象没有有效的辨别方法。

因此语言信息处理的基础研究需要语言学、尤其是语言学应用性研究的支持。

对于语言研究来说,计算机的出现也带来了一个新的参照物,它能帮助人们认识到一些在旧的参照物下难以揭示出来的语言现象和规律,帮助验证语言规则是否正确和相互兼容,有助于提高规则的精确程度。

近年来信息处理研究和语言学本体研究两个领域的沟通越来越多,有许多语法学家从信息处理的角度研究汉语,促进了语言信息处理基础研究的发展。

语法学家从信息处理的角度研究汉语,《“名词+动词”词语串浅析》[15]是较早的一篇文章,它为计算机判别出现在任何一个话语语流中的“名词+动词”词语串是不是一个合法的组合给出了条件和规则。

在1998-2002年期间,这样的研究越来越多,限于篇幅,这里只能略举几例。

《面向中文信息处理的现代汉语短语结构规则研究》[19]尝试用形式化的方式在句法和语义两个层级上归纳现代汉语短语结构的组合规则,探讨解决短语结构歧义问题的途径,为计算机分析和理解汉语提供必需的语言知识。

《汉语“复合态”的语义关系类型及其生成的有向性》[6]认为,由于汉语的时制主要用词汇手段实现,表示状态意义的语法形式具有多样性,加上汉语“复合态”的组合形式受严格的句法语义条件限制,所以在生成汉语“复合态”时,不宜象英语那样使用全循环递归的方法,而应使生成过程在有限受控的条件下进行。

该文描述了根据汉语的态制系统生成复合态的过程,给出了复合态的三种语义关系类型,并说明了复合态生成的有向性。

《信息处理中汉语动名语义关系分析的不同层次》[27]分别从“类型”、“组合”、“焦点”、“特征”、“指向”和“隐含”等方面,讨论汉语动名语义关系的分析问题。

《并列结构的外部句法特征》[9]在人工标注并列结构的汉语语料基础上,考察了有标记并列结构出现的外部环境,找出了可能的左边界特征词和右边界特征词,并给出了语言学上的解释,目的是为计算机自动识别汉语的并列结构找到规则。

《面向汉英机器翻译的句组研究》[9]认为,以句组为翻译单位可以解决一些以小句为翻译单位时不容易处理的问题,例如简缩称代和概指称代意义的确定、省略成分的补充、词语切分、多义选择、无标记时态和单复数的生成等。

《汉英机器翻译中时间短语的分析与时制计算》[9]为了分析汉语语句中时间短语的时制和事件的时刻,先对汉语时间短语进行分类,然后用形式化的方式表示时间短语的语义结构和上下文中的时间信息,再以此为基础提出一种计算时制的算法,并且在汉英机器翻译系统中作了应用实验。

《二字短语凝固度分级初探》[6]是在研制《信息处理用现代汉语分词词表》的过程中,针对二字短语扩充词表带来的歧义切分大幅度增加问题而进行的研究。

该文对扩收的二字短语按凝固度分级,证明结构类型、成分字替换率、前/后接歧义度、接续类型等属性与凝固度密切相关,提出了二字短语扩充词表的分级方案和具体的分级消歧对策。

在面向语言工程和应用实践的研究中,歧义辨识也是一个重要问题,同时又是一个难题。

语言学家对汉语歧义的研究主要涉及歧义分类、歧义成因、歧义格式、歧义界定、歧义分化、消歧手段、歧义指数等内容,希望找出人与人在交际过程中产生歧义的原因以及各种歧义的类型。

语言信息处理需要在语言学家的研究成果的基础上,考察计算机在处理自然语言的过程中所遇到的歧义现象,分析与歧义现象有关的语法和语义问题。

近年来有许多关于如何处理歧义问题的研究,它们大多从具体问题入手,主要是多义词的义项选择,歧义字段的切分,歧义格式的辨识等问题,目的是针对每种歧义结构提出消解歧义的对策。

2.2关于语言资源建设的专题研究

语言资源主要指语料库和语言知识库(详见本文第四节)。

关于语言资源建设的专题研究包括语料的标注、语料的分析和处理,以及用于语言资源建设的各种字表、词表和标准、规范。

2.2.1语料的标注

对语料进行标注、分析和处理的目的,是更多地发掘出语料中蕴藏的语言知识。

汉语语料库最基础的标注工作是词语切分,进而有词类标注、句法信息标注和语义信息标注。

对于双语或多语语料库来说,还有另一项处理内容:

语料对齐,即把不同语种的语料分别在段落、语句、短语、词等不同的层次上对齐。

除此之外,一些语料处理的算法和技术也在研究之列,例如语句成分相似度的计算。

自动分词是我国较早开始研究的汉语信息处理技术之一[3]。

在语料库的建设当中,自动分词方法得到了更深入的研究和实际的应用。

自动分词系统一般需要以一个词表为基础做字符串匹配运算,匹配算法有正向或逆向最大匹配法、双向匹配法、最佳匹配法、联想-回溯法等等。

这些算法都只能根据分词词表做机械式的匹配,不能解决切分时遇到的歧义现象,也不能处理词表中没有收录的词(称为未登录词)。

所以汉语自动分词研究的基本问题不是匹配,而是歧义切分的消解和未登录词的处理。

切分歧义有两种类型:

交集型切分歧义和包孕型切分歧义。

近年来人们围绕这两种歧义的识别和消解问题,进行了许多从形式描写到具体辨识的工作,有基于规则的方法(譬如:

扩充转移网络、短语结构文法、有限状态自动机等),也有基于统计的方法(譬如:

隐马尔夫模型、词性二元统计规律等)。

通过实践人们逐渐形成了基本的共识,这就是歧义切分消解必须有充分的语言知识来支持。

词频、词法、音节、语素性质、语法结构关系、语义甚至语用信息,都能够在歧义切分消解中起作用。

消除歧义时分析的层次越深,计算机对语言知识的质量和规模的要求就越高。

未登录词主要包括两类,一是新词或专业术语,二是专有名词(人名、地名、机构名等)。

对前一种未登录词的处理,一般是用基于大规模语料库的统计方法(统计量有互信息、t-测试差、字串频等)生成新词词表,再经过人工筛选,补充到分词词典当中。

处理后一种未登录词的依据,是从各类专有名词库中总结出来的统计知识和人工归纳出来的专有名词的结构规则,再利用文本中对该类专有名词有标识意义的上下文信息做进一步的鉴定。

词性自动标注是在自动分词的基础上,根据带有词类信息的词典,给切分出来的词语标上词类标记,标注中的主要问题是如何辨别兼类词,目前大多采用基于统计的方法处理。

和自动分词一样,即使是用统计方法,词性自动标注也需要足够的语言知识来支持,分析的层次越深,对语言知识的质量和规模的要求就越高。

本来自动分词和词性标注是汉语分析和理解过程的起始阶段,应该为下一步的句法和语义分析提供初始信息。

但是它们又需要某些句法和语义知识的支持才能得以完成。

这样一来,自动分词反倒需要依靠句法和语义分析的某些结果作为条件了。

这种“循环论证”产生的原因,是我们在用一种机械的过程来模拟人的语言过程,这种机械的模拟距离人类真正的语言过程还很遥远,也过于肤浅,而且目前的研究水平也无法让我们在这个问题上有质的进展,因此汉语的自动分词和词性自动标注这样一个看似基础和简单的问题,在短时间内还不能取得经得起考验、并得到广泛认同的结果。

双语或多语语料库建设的基本问题是语料自动对齐,即找出双语文本片段之间的对译关系。

这种同时含有两种语言对译信息的语料库可以用于涉及双语研究的许多领域,譬如机器翻译、词典编纂等。

语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次,粒度越小,提供的语言信息就越多,应用的价值也越大。

因此双语自动对齐问题的研究大多集中在词汇一级上。

目前有两类方法用在词汇级对齐的研究中,一是基于统计的方法,即先对大量的双语语料进行统计训练,获得双语对译词的同现概率,建立词汇对齐的统计模型,用来判断词的对译关系。

二是基于词典的方法,或者把统计手段和词典结合起来,譬如基于双语词典的词汇对齐方法、基于语义相似度的词汇对齐方法和基于位置变形距离的词汇对齐方法[6][8]。

含有汉语的双语语料库大多采用这种方法。

2.2.2语料的分析和处理

分词和词类信息是语料的基本标注内容。

除此之外,语料标注的内容还有表示语句结构关系的短语(也叫语块)标记和句法标记,以及表示词语义类和词语之间语义关系的语义标记。

带有这些标记的语料库称为语块库、句法树库、语义标注库等。

这些标注实际上是对语句进行短语分析、句法分析或语义分析的结果,因此标注的过程本身就是语言分析的过程。

譬如语块的分析和标注,语块是具有一定句法功能的基本短语,介于词语和句子之间。

语块的标注要解决切分分析和关系分析两个问题,前者是在句子中把各种语块找出来,例如主语语块、述语语块、宾语语块、兼语语块、状语语块、补语语块、独立语块等;后者是弄清每个语块内部的结构层次和结构关系,并加上标记。

经过这样处理的语块汇集在一起,成为语块库。

在此基础上应用机器学习的方法,提取有用的识别特征,训练形成有效的统计语言模型,用于基本短语的自动识别、动词搭配知识的获取和浅层句法分析等方面的研究。

这样的语料分析和处理过程叫做基于语料库的语言分析和语言知识获取,它包括三件事情:

语料标注、语句(或语块)分析和语言知识获取。

三者之间既有因果关系,也有互动关系。

目前理想的做法是(以句法标注为例),先按照最终的分析目标,确定一个基本的句法标记集,在语言学家的参与和指导下,标注并得到一个较小的句法标注语料库(例如:

句法树库)。

再以此为基础构建统计语言模型,训练产生一个句法分析器(Parser),它可以对现有标注语料库的语料进行恰当的处理。

然后用这个句法分析器处理新的语料,针对处理过程中暴露出来的语言知识缺乏问题,触发句法知识自动发现流程。

在语言学家指导下,确定合适的知识表示模式,在已有的句法分析器中加入机器学习模块,从新的大规模语料文本中自动习得有用的知识。

再把这些知识补充到现有的句法分析器里,逐步提高现有分析器的准确程度和对新的语言现象的处理能力。

同时利用一定的人工校对,逐步扩大标注语料库的规模,使它可以为句法分析器提供更多的统计数据。

近几年国内在汉语句法标注语料库开发、自动句法分析和语言知识获取方面主要有以下研究和进展:

提出了包括基本短语、功能语块、复杂句子等句法单元的汉语句法标记集;分阶段进行了建立汉语句法标注语料库的实验,开发了200万字规模的功能语块库和100万词规模的句法树库;对汉语句法规则和词语搭配知识获取以及句法分析器进行了探索。

目前见到的研究报告多数是关于数据资源的建设问题,相比之下,语言学方法和计算方法的报道还比较少。

2.2.3用于语言资源建设的字表、词表和标准、规范。

字表、词表和标准、规范是语料标注、分析和处理的基础。

1998-2002年期间,来自语言学和语言信息处理两个领域的学者合作制定了《信息处理用现代汉语分词词表》和《信息处理用现代汉语词类标记集规范》[27]。

制定《信息处理用现代汉语分词词表》(以下简称《分词词表》)的起因是,国家技术监督局于1993年发布了中华人民共和国国家标准GB/T13715-92《信息处理用现代汉语分词规范》,这个规范对推动汉语自动分词研究的发展起到了积极的作用。

但是其中也有不少表述模糊、难以操作之处,譬如对某些介于“词”与“词组”之间的“分词单位”,用“结合紧密、使用稳定(频繁)”来界定。

《分词词表》的作用是对《分词规范》进行补充,把“结合紧密、使用稳定(频繁)”的“分词单位”都收进词表。

这样就把《分词规范》中的模糊之处变成了可操作的具体数据。

《分词词表》收词的基本原则是:

(1)符合语言学规则而且达到常用性指标;

(2)词法结构合理而且频度足够高;(3)对拆开后会增加计算机分析的困难的成分,尽量从合;(4)对单字词有几类具体的定义。

整个词表由七个分库组成:

普通词库、带字母词库、专名库、常用接续库、成语库、俗语库、单字词库。

其中普通词库只收语言学规则认可的词。

普通词库、专名库和常用接续库又各自下含基础与合成两个子类。

这样的设计既注意反映汉语的结构特点,也考虑了自动分词和语句分析的实际需要。

值得提到的是,制定《分词词表》的工作是在8亿字语料的支持下完成的,从选定初表、计算各种统计数据、依据定性和定量的原则逐个确定入选词,到用人工分词的语料库进行词表覆盖率检验,最终得到总词数为92843条的《分词词表》,其中一级常用词56606条,二级常用词36237条。

《信息处理用现代汉语词类标记集规范》(以下简称《词类标记集》)从汉语信息处理实际出发,提供了一个现代汉语书面语词类标记的符号体系。

它注意吸收语言学家的研究成果,兼顾各家的词类划分观点和体系,制定时遵循三个原则:

(1)词类划分的主要依据是词在句子中的语法功能,词的意义有时也起某些参考作用;

(2)允许兼类;(3)全部大类应能覆盖现代汉语使用的所有词。

《词类标记集》有19个基本词类:

名词、数词、量词、形容词、动词、副词、代词、介词、连词、助词、叹词、拟声词、习用语、简称和略语、前接成分、后接成分、语素字、非语素字、其他。

每个大类下面又有次类和小类。

为了适应语言信息处理的需要,《词类标记集》中的符号不仅要覆盖语言学意义上的词,还要覆盖比词小的单位(如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等),以及比词大的单位(如成语、习用语、简称、略语、标点符号、非汉字符号等)。

多年以来,用于信息处理系统的汉语词类标记体系有多种设计方案,在分类的依据、类别的数目和术语的使用等方面各不相同。

《词类标记集》的制定,是为了使各种汉语信息处理系统能够在基本共识的前提下,使用比较统一的词类标记符号体系,便于学术交流和数据交换。

2.3研究中的理性主义和经验主义方法

近年来计算语言学和语言信息处理在研究方法上有两种思路:

理性主义(Rationalism)和经验主义(Empiricism)。

前者是先依据某种语言理论建立语言模型,再从语言模型构造规则系统,所以也叫基于规则的方法。

后者是在调查和分析大规模语料的基础上,用统计学的方法处理自然语言,也叫作基于语料库的方法。

多年来在计算语言学和自然语言处理的研究中,理解和生成语句的必经之路是句法分析和语义分析。

因此在很长一段时间里,许多语言处理系统都是基于规则的。

建立这样的系统,从整体构架到具体的处理技术,语言学的研究都是必不可少的基础。

基于规则的方法最早应用在机器翻译当中,被证明在一定范围内是相当有效的。

随着研究的深入和应用目标的发展,人们逐渐发现,实际上很难用规则的形式把各种语言事实和理解语言所需要的背景知识充分地表达出来。

所以,基于规则的自然语言处理系统往往只能在极其受限的某些语言环境中获得一定的成功。

经验主义者认为基于规则的方法存在以下缺陷,一是通过内省方式得到的语言规则往往有脱离言语实际的可能;二是规则的灵活性较差,容易忽略语言中那些经验性的、小粒度的知识,难以覆盖各种复杂纷繁的语言现象;三是当需要添加新的规则时,又必须注意协调与已有规则的关系,避免规则之间产生矛盾。

为了克服这些局限,他们用统计学方法从大规模语料中分析和归纳语言现象和规律,再用得到的统计规律或语言模型来处理自然语言。

他们认为这些统计规律或语言模型体现了从真实语料中直接获取的语言知识,不但可以用于语言信息处理系统,还能用来检验语言学研究中依靠手工搜集材料的方法所得出的结论。

基于语料库的方法自九十年代初从国外引入以后,在自然语言处理的许多分支领域得到了应用。

其中最有成效的当数语音识别与合成,在书面语处理的各个层面上(词语、句法、语义),这种方法几乎也都有用武之地。

其中有代表性的应用是汉语自动分词和词性标注、文本信息检索、信息抽取、信息过滤和文本自动分类。

与基于语料库方法有关的研究工作包括:

各种语言成分的对齐(Alignment),语言知识的学习和获取,各种语言统计模型的建立、语言成分相似度的计算,等等。

语料库方法的优点是可以使语言现象数量化,这非常适合计算。

目前的研究大致可以分为两类:

一是基于简单相关统计的方法,也可以称为语言资源性分析;二是在统计意义下的建模方法,这涉及机器学习的算法问题。

经过几年的研究和实践,人们也开始对统计语言模型本身进行分析和再认识,提出了适用的统计模型与统计模型的适用范围、统计量的繁与简、统计对象的升华、多统计量的结合等问题。

基于语料库的方法当然也有自己的局限性。

在人们对语言的机制还缺乏系统了解,还没有一种适合信息处理的语言理论可以应用的时候,经验主义实际上是一种依靠“量”来获取“质”的策略。

也就是说,它认为大量语言现象的统计规律能够确切地反映语言的结构规律和言语过程的认知规律。

而实际上这还是有待证明的观点。

我们还不能从语言学的角度解释所采用的统计方法和语言模型,说明统计数据的语言学意义。

统计语言模型需要建立在语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于我们能为它提供什么样的语言学知识作为参数。

目前统计语言模型方法在机器翻译系统中效果不佳,其主要原因应该不是模型本身的计算能力有限,而是能够提供给模型的关于机器翻译的知识太少。

我们目前的基础研究还没有发掘出足够的语言学知识,或者是还没有把这些知识系统地、结构化地组织起来。

这一点对基于规则的方法来说,同样也是亟待解决的问题。

把两种方法结合起来,取长补短,互为补充,也许是更好的办法。

目前已有不少语言信息处理系统采用了这种混合策略。

譬如在机器翻译中用规则分析句子的句法结构(有些语言现象用规则处理比较方便),用基于语料库的方法处理词语的搭配问题。

经验主义者也认识到,即使算法的主要基调是基于统计形式的(例如向量空间模型),规则形式仍然能够找到合适的位置,例如那些概率接近1的规则(即几乎无例外的规则)。

三应用性的研究和实用系统的研制

 

3.1机器翻译

机器翻译是我国最早开始研究的自然语言处理应用系统,已经走过了近半个世纪的历程。

近年来在吸收国外研究成果和技术的同时,结合中文信息处理的实际,在专题研究和实用系统开发等方面都有新的进展。

3.1.1基于规则的方法和基于语料库的方法

研制实用机器翻译系统的方法有两种:

基于规则的和基于语料库的。

前一种方法通过对语言现象的综合和认识,总结规律,得到语法、语义等规则,机器翻译系统运用

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1