人工智能与机器翻译自动分词Word文档格式.docx

资源描述

人工智能与机器翻译自动分词Word文档格式.docx

《人工智能与机器翻译自动分词Word文档格式.docx》由会员分享，可在线阅读，更多相关《人工智能与机器翻译自动分词Word文档格式.docx（8页珍藏版）》请在冰豆网上搜索。

人工智能与机器翻译自动分词Word文档格式.docx

它是以有限状态机概念为基础的方法。

有限状态机只能识别正则语言，对有限状态机作的第一次扩充可以使其具有递归能力，这样就形成递归转移网络（RTN）。

在RTN中，弧线上的标志不仅可以是终极符（语言语句中的各种词语）或非终极符（还没有推导完的词类、符号等等，例如名词N，动词V，形容词A等等），还可以调用另外的子网络名字的非终极符（例如字或字串的成语条件）。

这样，计算机在运行某个子网络时，就可以调用另外的子网络，还可以递归调用。

目前大多数的自然语言理解系统都把词典组织成一个表，表是静态的。

使用扩充转移网络来组织词典就可以构成一个动态的词典，词法扩充转移网络的使用，它使分词处理和自然语言理解系统的句法处理阶段交互成为可能，并且有效地解决了汉语分词的歧义。

全自动词典切词

这种方法完全使用切词规则切分词语，其规则中的参数由词典提供。

该方法可以部分解决歧义问题，但因是匹配切词，效率不高。

规则描述语言切词法

规则描述语言是用以描述汉语分词、分析和生成规则的一种工具。

其中，整个规则语言将由若干个不同性质的规则块构成，而每一个规则块又包括多条规则，这些规则块的结构一般采用多层次的树型结构（当然，也可以采用其它结构，例如链式结构）。

该方法对正确描述汉语是一种有意义的尝试，值得深入研究。

多遍扫描联想法

这种方法是使用切分标志把文本切分成若干子串。

它一般分成两步进行：

第一步，使用自然切分标志对文本进行预处理；

第二步，利用非自然切分标志结合联想库对文本进行有效的分割。

这两布完成以后，再利用实词的词库和联想库将所有词群细分为词。

在这种方法的操作中，分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段，其目的在于更有效的解决歧义组合结构的切分问题，并且兼有自动纠错和检错这样的特殊功能。

这种方法属于组合方法，方法的基点立足于可靠性、实用性和通用性。

神经网络分词法

这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的方法。

它将分词知识所分散隐蔽式的方法存入神经网络内部，然后再通过各种自学习和训练修改内部的权值，以达到正确的分词效果，最后给出神经网络自动分词结果。

由于神经网络这一学科的研究有许多问题尚未解决，所以此方法还处于探索之中。

专家系统分词法

这种方法从专家系统角度把分词的知识（包括常识性分词知识与消除歧义切分的启发性知识，即歧义切分规则）从实现分词过程的推理机中独立出来，从而使知识库的维护与推理机的实现互不干扰，以达到使知识库易于维护和管理。

这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。

虽然专家系统研究相对成熟，但真正要把这一方法作为完善的机器翻译自动分词方法，还有很长的路要走。

综上所述，由于汉语的复杂性。

我们很难以某种方法正确地、彻底地自动分词。

这些不同的方法，它们各有不同的优点和缺点，适合不同的环境。

但是如何比较正确的评价、度量一个方法，则显得尤为重要，这一点将在后面论述。

5.2.2自动分词的歧义问题

自动分词的难点是歧义切分，而歧义切分主要可以分为三个方面：

（1）由自然语言的二义性产生的歧义：

例如：

在日本保留和尚使用的古典乐器很多"

。

这句若没有上下文辅助，连人也难理解其真实含义，机器翻译时计算机程序肯定在自动分词时就会出现两种情况。

在/日本/保留/和/尚使用/的/古典/乐器/很多；

在/日本/保留/和尚/使用/的/古典/乐器/很多。

（2）由计算机程序在自动分词阶段产生的歧义：

这种情况虽然人可以正确分词，但计算机毕竟不是人，出现歧义难免。

计算机程序分词产生的歧义一般有两种：

组合型歧义。

即，对于字串AB，可以分成AB，也可以分成A/B；

交集型歧义。

即，对于字串ABC，可以分成AB/C，也可以分成A/BC。

（3）由词典大小产生的歧义：

自然语言的词组无穷，新的词组还在不断创造，机器词典不可能收集全部的词组。

如果要翻译的语句中出现了没有收集到的词，歧义就有可能出现。

交集型歧义切分字段与解决方法

一般情况下，在多义组合型歧义切分字段中，歧义字段就是一个歧义词，而非歧义词被包含在歧义词当中。

例如，歧义字段"

语言学"

同时也就是一个歧义词，而非歧义词"

语言"

和"

学"

包含在歧义词"

中。

在这种情况下,机器很难根据多义组合型歧义切分字段本身来获得非歧义词的特征信息,程序只有跳出多义组合型歧义切分字段自身的框架,参考歧义字段与其前趋字串或后继字串之间的关系,才有可能发现正确的切分。

这就说明,为了对多义组合型歧义切分字段本身作出唯一正确的切分,不能只考察歧义字段内部的情况,还必须考察歧义字段与其前后字串之间的关系。

而在交集型歧义切分字段中,歧义字段本身就可以给我们提供非歧义切分的特征信息,因此,多义组合型歧义切分字段的自动切分比交集型歧义切分字段的自动切分要难得多。

有些歧义切分字段具有二重性。

例如,在例句"

乒乓球拍卖完了"

中,由名词"

乒乓球"

和动词"

拍"

串联组合而产生出多义组合型歧义切分字段"

乒乓球拍"

而"

又与动词"

拍卖"

交叉组合而产生交集型歧义切分字段"

乒乓球拍卖"

这样一来,在"

这个字段中,既有多义组合型歧义切分字段,又有交集型歧义切分字段。

对于这样的具有二重性的歧义切分字段,切分时也不能只考虑字段本身提供的信息,还应该考虑该字段与其前趋字串和后继字串的关系。

为了正确地切分多义组合型歧义切分字段,可以利用前趋字串和后继字串的句法、语义、语用3个方面信息。

我们来讨论如何利用句法信息：

有些多义组合型歧义切分字段与其前趋字串和后继字串之间,存在着密切的搭配关系,这时就可以利用有关的句法信息得到正确的切分。

例如，有歧义切分字段"

阵风"

，是由量词"

阵"

和名词"

风"

的串联组合产生的按非歧义切分时的词间搭配关系,量词之前应该有数词。

在字段S=al.ai,bl.bj,cl.ck中,如果al.ai,bl.bj和bl.bj,cl.ck分别都构成词,则字段S称为交集型歧义切分字段,其中bl.bj称为交段。

例如,在字段"

太平淡"

中,"

太平"

平淡"

分别成词,"

平"

为交段,所以,"

太平谈"

是交集型歧义字段。

在字段S=al.ai,bl.bj中,如果al.ai,bl.bj和S三者都分别成词,则字段S称为多义组合型歧义切分字段。

烤白薯"

烤"

白薯"

三者都分别成词,所以,"

是多义组合型歧义切分字段。

交集型歧义切分字段是由词与词之间的交叉组合产生的。

在字段S=al.ai,bl.bj,cl.ck中,由于交段bl.bj既可与al.ai组合成词,又能与cl.ck组合成词,形成了交叉组合,才产生歧义切分。

从产生的根源上看,有下列几种不同的类型：

（1）名词+名词：

例如,在句子"

用树形图形式加以描述"

中,歧义字段"

图形式"

是由名词"

图"

与名词"

形式"

之间的交叉组合产生的--"

图形"

十"

事实上，"

是歧义词，它是歧义字段"

在给定句子中错误地切分出来的片段，"

是非歧义词，它是歧义字段"

在给定句子中，按正确的切分方式切分出来的片段。

（2）动词十名词：

例如，在句子"

研究生命的本质"

中，歧义字段"

研究生命"

是由动词"

研究"

生命"

研究生"

（歧义词）十"

（非歧义词）。

（3）形容词十名词：

白天鹅游过来了"

白天鹅"

是由形容词"

白"

天鹅"

白天"

（4）介词十名词：

让位移等于50厘米"

让位移"

是由介词"

让"

位移"

让位"

（5）连词十名词：

例如，在短语"

独立自主和平等互利的原则"

和平等"

是由连词"

平等"

的交叉组合产生的--"

和平"

（6）副词十形容词：

这本小说的情节太平淡了"

是由副词"

太"

与形容词"

平谈"

（7）助词十形容词：

对这种现象的确切描述"

中，歧义字段，"

的确切"

是由助词"

的"

确切"

的确"

（歧义词）+"

（非歧义同）。

（8）名词十连词：

社会需求和生产水平有矛盾"

需求和"

需求"

与连词"

（非歧义词）十"

求和"

（歧义词）。

（9）动词十介词：

他们看中和日本人做生意的机会"

看中和"

看中"

与介词"

中和"

由以上例子可以看出，交集型歧义切分字段a1…ai.bl…bj，cl…ck的交段b1…bj与其后继字串cl…ck所组成的非歧义词的词类，可以从歧义切分字段本身提供出来，例如，在歧义切分字段"

中，交段为"

天"

，它与后继字串"

鹅"

组成的非歧义词"

，其词类为名词。

歧义切分字段本身为我们提供了非歧义词，天鹅"

的词类信息。

交集型歧义切分字段，al…ai.b1…bj，cl…ck的交段b1…bj与其前趋字串al…ai所组成的非歧义词的词类，也可以从歧义切分字段本身提供出来。

例如，在歧义切分字段"

求"

，它与前趋字串"

需"

组成非歧义词"

，其词类为名词，歧义切分字段本身也为我们提供了非歧义词"

交集型歧义切分字段可以为我们提供非歧义切分的特征信息，这是交集型歧义切分字段非常宝贵而重要的特点。

根据这个特点，我们可以事先为汉语词汇中的每个词建立词法知识库，并在该知识库中为可能产生歧义切分的词条加上歧义标志和歧义类型编号，这样，在实际切分歧义字段时，只要利用该字段中的交段bl…bj与后继字串cl…ck（或其前趋字串a1…ai）所组成的非歧义词的已知词类信息，再通过适当的逻辑推理，就可以对这类歧义切分字段作出唯一正确的切分。

例如，在上述第（3）种类型的歧义切分字段"

中，因交叉组合产生的歧义词是"

，交段是"

，该交段的后继字串为"

，二者组成非歧义词"

，并已知其词类信息为名词。

如果在词法知识库中，对歧义词"

加上歧义标志和相应的歧义类型编号，并建立如下的规则：

如果交段与其后继字串组成名词，则将该歧义词的首字单切，否则，确认该歧义词为词。

于是，根据歧义词"

的歧义类型编号调用上述规则，并利用词法知识库中有关该歧义切分字段的交段"

与其后继子串"

组成词的知识，检查这个词是否为名词，并进行逻辑推理，就可以确定，在切分歧义字段"

时，应将歧义词"

的首字"

单切，"

应切分为"

白/天鹅"

这是对歧义切分字段"

作出的唯一正确的切分。

又如，在上述第（8）种类型的歧义切分字段"

，该文段的前趋字串为"

加上歧义标志和相应伯歧义类型编号，井建立如下的规则：

如果交段与其前趋字串组成名词，则将该歧义词的尾字单切，否则，确认该歧义词为词。

的歧义类型编号，调用上述规则，在词法知识库中查询，得知该歧义切分字段的交段"

与其前趋字串"

所组成的词为名词，进行逻辑推理，就可以确定，在切分歧义字段"

的尾字单切，"

需求/和"

对于其它类型的交集型歧义切分字段，不难建立相应的规则，并为其中的歧义词设置相应的歧义类型编号，然后利用词法知识库中有关词类信息的知识，进行类似的逻辑推理，就可以作出唯一正确的切分。

由于对交集型歧义切分字段的正确切分，仅只需要关于词类的信息，所以，可以把这类歧义切分字段。

从性质上划为"

与词类有关的歧义切分字段"

，简称为"

词法歧义字段"

多义组合型歧义切分字段与解决方法

多义组合型歧义切分字段比较复杂，这种歧义切分字段是由词与词之间的串联组合产生的。

在字段S=a1…ai.bl…bj中，由于a1…i，b1…bj和S三者都能分别成词，字串a1…ai与字串bl…bj形成了串联组合，才产生歧义切分。

从产生的根源上看，有下列几种不同的类型：

（1）量词十名词：

一阵风吹过来了"

中，歧义切分字段"

是由量词"

的串联组合产生的。

（2）介词十名词：

请把手抬高一点儿"

把手"

把"

手"

（3）动词十名词：

他喜欢吃烤白薯，中，歧义切分字段"

烤白薯，是由动词"

（4）名词十方位词：

他骑在马上"

马上"

马"

和方位词"

上"

（5）名词十动词：

例1，在句子"

语言学起来并不十分容易"

学生会兴奋得手舞足蹈"

学生会"

学生"

会"

美国会采取措施提高工业竞争力"

美国会"

美国"

（6）方位词十动词：

他在庄稼地里间麦苗"

里间"

是由方位词"

里"

间"

（7）副词十动词：

他将来北京探亲"

将来"

将"

来"

（8）助词十动词：

他学会了解数学难题"

了解"

了"

解"

只要努力地学就可以学会"

地学"

地"

（9）连词十副词：

日本保留和尚使用的古代庙宇已经不多了"

和尚"

与副词"

尚"

的串联组合因此,可以先在词法知识库中对歧义词"

加上歧义标志与相应的歧义类型编号,并建立如下的规则

G1如果歧义字段的直接前趋字串是数词,则歧义字段的首段单切,否则,该歧义字段成词。

然后根据"

的歧义类型编号调用这条规则,并利用词法知识库中的有关该字段前趋字串的信息,进行逻辑推理,就可以作出唯一正确的切分。

歧义切分字段"

的串联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的后继字串中必须有及物动词,根据这样的句法知识建立相应的规则,再使用与上述类似的推理方法,就可以作出唯一正确的切分。

的串联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的前趋字串中应该有动词,根据这样的句法知识建立相应规则,再使用与上述类似的推理方法,就可以得到唯一正确的切分。

串联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的前趋字串中应该有介词,根据这样的句法知识建立相应的规则,再使用类似的推理方法,就可以得到唯一正确的切分。

类似地,切分歧义字段"

时,要使用"

该字段的后继字串中应有趋向动词或助词"

这样的句法知识；

切分歧义字段"

该字段的前趋字串中应有介词"

该字段的前趋字串中应有人名或人称代词"

切分上面例中的歧义字段"

该字段的直接前趋字串应该是形容词或副词"

这样的句法知识。

根据句法知识建立相应的切分规则,通过一定的逻辑推理,就可以实现对这些歧义字段的正确切分。

现在讨论如何利用语义信息：

例中歧义切分字段"

与动词"

串联组会产生的,可以有两种切分结果：

学生/会/兴奋/得/手舞足蹈

学生会/兴奋/得/手舞足蹈

这两种切分结果在词类与句法结构上都十分相似,因此,仅仅利用词法和句法的知识,难以对这两种切分结果作出正确的判别,也就难以作出正确的切分。

这时,也就需要利用语义方面的知识了。

从语义上来看,动词"

兴奋"

的义项中,要求动作的发出者应具有"

人"

这个义素,在名词"

的义项中不具有这个义素,而在名词"

的义项中则具有这个义素,利用这样的语义知识,可建立如下的语义规则：

G2如果歧义切分字段后继动词的义项中含有动作发出者为"

这个义素,则歧义字段的尾字单切,否则,该歧义字段成词。

在自动切分时,根据歧义切分字段"

的歧义类型编号,调用这条语义规则,进行逻辑推理,就可以得到如下正确的切分：

的串联组合而产生的,它们可以有两种切分结果：

他/学会/了/解/数学/难题

他/学会/了解/数学/难题

这两种切分结果的词类和句法结构都是十分相似的,如果仅仅只根据词法和句法知识,是难以得到正确的切分的,但是只要根据语义分析就可以知道,在动词"

的义项中,它要求宾语应该具有"

数学公式"

或者"

扣子"

这样的义素,然而动词"

则对宾语则就没有这样的要求,由于作宾语的"

数学难题"

符合动词"

的义项这样的要求,因此机器可以判定前一种切分是正确的,从而也就排除了第2种切分。

我们最后来讨论任何使用语用信息：

所谓语用信息，就是必须结合上下文不同的情况的信息才能确定语句含义。

仅只根据词法、句法和语义知识,都不足以判断卖完的东西究竟是"

还是"

这时,就得根据语言交际的具体环境的语用方面的知识,才能决定究竟什么才是正确的切分。

例中的歧义切分字段"

仅只根据词法、句法和语义知识,也不足以判断采取措施提高工业竞争力的是"

这时,就得根据语言交际的具体环境的语用方面的知识,才能作出正确的切分。

在上面的例中的歧义切分字段"

如果仅只根据词法、句法和语义知识,也不足以判断古代庙宇是"

使用还是"

使用的,这也只好根据语言交际的具体环境的语用方面的知识,才能作出正确的切分。

根据上面所述的歧义切分字段的性质,可以把它们分为4种不同的类型：

（l）利用词法知识就能判断的歧义切分字段,叫做"

（2）利用句法知识才能判断的歧义切分字段,叫做"

句法歧义字段"

（3）利用语义知识才能判断的歧义切分字段,叫做"

语义歧义字段"

（4）利用语用知识才能判断的歧义切分字段,叫做"

语用歧义字段"

在这其中,词法歧义字段与交集型歧义切分字段完全对应,其余三类则与多义组合型歧义切分字段相对应。

特别声明：

1：

资料来源于互联网，版权归属原作者

2：

资料内容属于网络意见，与本账号立场无关

3：

如有侵权，请告知，立即删除。

展开阅读全文

人工智能与机器翻译 自动分词Word文档格式.docx

人工智能与机器翻译自动分词Word文档格式.docx