人工智能与机器翻译自动分词.docx

资源描述

人工智能与机器翻译自动分词.docx

《人工智能与机器翻译自动分词.docx》由会员分享，可在线阅读，更多相关《人工智能与机器翻译自动分词.docx（8页珍藏版）》请在冰豆网上搜索。

人工智能与机器翻译自动分词.docx

人工智能与机器翻译自动分词

人工智能与机器翻译-自动分词2010-10-2116：

48部著作中的词语逐个逐个的切分出来。

汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。

汉语中词语本身的词素、词、词组无明显的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。

.这项工作如果全部交给计算机来作,就没有那么简单了。

尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步（也是自动翻译的第一步）,这就促进了研究的持续不断,提出了不少方法,它们各有优缺点,也可能是基于特定环境的。

5.2.1典型的自动分词方法

正向最大匹配法和逆向最大匹配法

正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。

句子剩余部分重复此工作,直到把所有的词都分出为止。

逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。

两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。

另外,这两种方法实际上否认了语言中的歧义现象。

在实际应用中,方法有所变化。

如下述算法我们初始不是取六个字而是取长度最短词的个数。

A1：

一条汉语语句分划成单一字符X1,X2,…,XM。

A2：

决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。

A3：

逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字重复此工作,直至字符数为Lmax为止。

A4：

若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下Lmin为止。

高频优选法

这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。

根据《现代汉语频率词典》，对于报刊和政论性文章，不同音节词的词频构成为：

双音节词大约有74%；三音节词大约有3.7%；单音节词大约有17.2%；而五以上字音节词则大约只有0.4%左右。

汉语是一字一音节，因而也可以说，两字组词的频率比其它所有方式的概率加起来都还要多。

自动分词时首先考虑两字词，然后再考虑单字词，如此频率低的词语最后才考虑。

这种方法提高了分词效率，但对歧义问题也无能为力，出错率并不低。

其它方法

设立切分标志

切分标志有自然和非自然之分。

自然切分标志是指文章的非文字符号，例如标点符号等等；非自然切分标志是利用词缀和不构成词的词（单字词等等）。

设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计算机中用程序来识别所有的非自然标志。

这样一来，一个句子链将被化为若干短链，然后再用其它切分方法进行各种细加工，这种多方法合作的综合应用，途径增多，可以大大提高效率。

扩充转移网络分词法

它是以有限状态机概念为基础的方法。

有限状态机只能识别正则语言，对有限状态机作的第一次扩充可以使其具有递归能力，这样就形成递归转移网络（RTN）。

在RTN中，弧线上的标志不仅可以是终极符（语言语句中的各种词语）或非终极符（还没有推导完的词类、符号等等，例如名词N，动词V，形容词A等等），还可以调用另外的子网络名字的非终极符（例如字或字串的成语条件）。

这样，计算机在运行某个子网络时，就可以调用另外的子网络，还可以递归调用。

目前大多数的自然语言理解系统都把词典组织成一个表，表是静态的。

使用扩充转移网络来组织词典就可以构成一个动态的词典，词法扩充转移网络的使用，它使分词处理和自然语言理解系统的句法处理阶段交互成为可能，并且有效地解决了汉语分词的歧义。

全自动词典切词

这种方法完全使用切词规则切分词语，其规则中的参数由词典提供。

该方法可以部分解决歧义问题，但因是匹配切词，效率不高。

规则描述语言切词法

规则描述语言是用以描述汉语分词、分析和生成规则的一种工具。

其中，整个规则语言将由若干个不同性质的规则块构成，而每一个规则块又包括多条规则，这些规则块的结构一般采用多层次的树型结构（当然，也可以采用其它结构，例如链式结构）。

该方法对正确描述汉语是一种有意义的尝试，值得深入研究。

多遍扫描联想法

这种方法是使用切分标志把文本切分成若干子串。

它一般分成两步进行：

第一步，使用自然切分标志对文本进行预处理；第二步，利用非自然切分标志结合联想库对文本进行有效的分割。

这两布完成以后，再利用实词的词库和联想库将所有词群细分为词。

在这种方法的操作中，分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段，其目的在于更有效的解决歧义组合结构的切分问题，并且兼有自动纠错和检错这样的特殊功能。

这种方法属于组合方法，方法的基点立足于可靠性、实用性和通用性。

神经网络分词法

这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的方法。

它将分词知识所分散隐蔽式的方法存入神经网络内部，然后再通过各种自学习和训练修改内部的权值，以达到正确的分词效果，最后给出神经网络自动分词结果。

由于神经网络这一学科的研究有许多问题尚未解决，所以此方法还处于探索之中。

专家系统分词法

这种方法从专家系统角度把分词的知识（包括常识性分词知识与消除歧义切分的启发性知识，即歧义切分规则）从实现分词过程的推理机中独立出来，从而使知识库的维护与推理机的实现互不干扰，以达到使知识库易于维护和管理。

这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。

虽然专家系统研究相对成熟，但真正要把这一方法作为完善的机器翻译自动分词方法，还有很长的路要走。

综上所述，由于汉语的复杂性。

我们很难以某种方法正确地、彻底地自动分词。

这些不同的方法，它们各有不同的优点和缺点，适合不同的环境。

但是如何比较正确的评价、度量一个方法，则显得尤为重要，这一点将在后面论述。

5.2.2自动分词的歧义问题

自动分词的难点是歧义切分，而歧义切分主要可以分为三个方面：

（1）由自然语言的二义性产生的歧义：

例如：

"在日本保留和尚使用的古典乐器很多"。

这句若没有上下文辅助，连人也难理解其真实含义，机器翻译时计算机程序肯定在自动分词时就会出现两种情况。

在/日本/保留/和/尚使用/的/古典/乐器/很多；

在/日本/保留/和尚/使用/的/古典/乐器/很多。

（2）由计算机程序在自动分词阶段产生的歧义：

这种情况虽然人可以正确分词，但计算机毕竟不是人，出现歧义难免。

计算机程序分词产生的歧义一般有两种：

组合型歧义。

即，对于字串AB，可以分成AB，也可以分成A/B；交集型歧义。

即，对于字串ABC，可以分成AB/C，也可以分成A/BC。

（3）由词典大小产生的歧义：

自然语言的词组无穷，新的词组还在不断创造，机器词典不可能收集全部的词组。

如果要翻译的语句中出现了没有收集到的词，歧义就有可能出现。

交集型歧义切分字段与解决方法

一般情况下，在多义组合型歧义切分字段中，歧义字段就是一个歧义词，而非歧义词被包含在歧义词当中。

例如，歧义字段"语言学"同时也就是一个歧义词，而非歧义词"语言"和"学"包含在歧义词"语言学"中。

在这种情况下,机器很难根据多义组合型歧义切分字段本身来获得非歧义词的特征信息,程序只有跳出多义组合型歧义切分字段自身的框架,参考歧义字段与其前趋字串或后继字串之间的关系,才有可能发现正确的切分。

这就说明,为了对多义组合型歧义切分字段本身作出唯一正确的切分,不能只考察歧义字段内部的情况,还必须考察歧义字段与其前后字串之间的关系。

而在交集型歧义切分字段中,歧义字段本身就可以给我们提供非歧义切分的特征信息,因此,多义组合型歧义切分字段的自动切分比交集型歧义切分字段的自动切分要难得多。

有些歧义切分字段具有二重性。

例如,在例句"乒乓球拍卖完了"中,由名词"乒乓球"和动词"拍"串联组合而产生出多义组合型歧义切分字段"乒乓球拍",而"乒乓球拍"又与动词"拍卖"交叉组合而产生交集型歧义切分字段"乒乓球拍卖",这样一来,在"乒乓球拍卖"这个字段中,既有多义组合型歧义切分字段,又有交集型歧义切分字段。

对于这样的具有二重性的歧义切分字段,切分时也不能只考虑字段本身提供的信息,还应该考虑该字段与其前趋字串和后继字串的关系。

为了正确地切分多义组合型歧义切分字段,可以利用前趋字串和后继字串的句法、语义、语用3个方面信息。

我们来讨论如何利用句法信息：

有些多义组合型歧义切分字段与其前趋字串和后继字串之间,存在着密切的搭配关系,这时就可以利用有关的句法信息得到正确的切分。

例如，有歧义切分字段"阵风"，是由量词"阵"和名词"风"的串联组合产生的按非歧义切分时的词间搭配关系,量词之前应该有数词。

在字段S=al.ai,bl.bj,cl.ck中,如果al.ai,bl.bj和bl.bj,cl.ck分别都构成词,则字段S称为交集型歧义切分字段,其中bl.bj称为交段。

例如,在字段"太平淡"中,"太平"和"平淡"分别成词,"平"为交段,所以,"太平谈"是交集型歧义字段。

在字段S=al.ai,bl.bj中,如果al.ai,bl.bj和S三者都分别成词,则字段S称为多义组合型歧义切分字段。

例如,在字段"烤白薯"中,"烤","白薯"和"烤白薯"三者都分别成词,所以,"烤白薯"是多义组合型歧义切分字段。

交集型歧义切分字段是由词与词之间的交叉组合产生的。

在字段S=al.ai,bl.bj,cl.ck中,由于交段bl.bj既可与al.ai组合成词,又能与cl.ck组合成词,形成了交叉组合,才产生歧义切分。

从产生的根源上看,有下列几种不同的类型：

（1）名词+名词：

例如,在句子"用树形图形式加以描述"中,歧义字段"图形式"是由名词"图"与名词"形式"之间的交叉组合产生的--"图形"十"形式"。

事实上，"图形"是歧义词，它是歧义字段"图形式"在给定句子中错误地切分出来的片段，"形式"是非歧义词，它是歧义字段"图形式"在给定句子中，按正确的切分方式切分出来的片段。

（2）动词十名词：

例如，在句子"研究生命的本质"中，歧义字段"研究生命"是由动词"研究"与名词"生命"之间的交叉组合产生的--"研究生"（歧义词）十"生命"（非歧义词）。

（3）形容词十名词：

例如，在句子"白天鹅游过来了"中，歧义字段"白天鹅"是由形容词"白"与名词"天鹅"之间的交叉组合产生的--"白天"（歧义词）十"天鹅"（非歧义词）。

（4）介词十名词：

例如，在句子"让位移等于50厘米"中，歧义字段"让位移"是由介词"让"与名词"位移"之间的交叉组合产生的--"让位"（歧义词）十"位移"（非歧义词）。

（5）连词十名词：

例如，在短语"独立自主和平等互利的原则"中，歧义字段"和平等"是由连词"和"与名词"平等"的交叉组合产生的--"和平"（歧义词）十"平等"（非歧义词）。

（6）副词十形容词：

例如，在句子"这本小说的情节太平淡了"中，歧义字段"太平淡"是由副词"太"与形容词"平淡"的交叉组合产生的--"太平"（歧义词）十"平谈"（非歧义词）。

（7）助词十形容词：

例如，在短语"对这种现象的确切描述"中，歧义字段，"的确切"是由助词"的"与形容词"确切"的交叉组合产生的--"的确"（歧义词）+"确切"（非歧义同）。

（8）名词十连词：

例如，在句子"社会需求和生产水平有矛盾"中，歧义字段"需求和"是由名词"需求"与连词"和"的交叉组合产生的--"需求"（非歧义词）十"求和"（歧义词）。

（9）动词十介词：

例如，在句子"他们看中和日本人做生意的机会"中，歧义字段"看中和"是由动词"看中"与介词"和"的交叉组合产生的--"看中"（非歧义词）十"中和"（歧义词）。

由以上例子可以看出，交集型歧义切分字段a1…ai.bl…bj，cl…ck的交段b1…bj与其后继字串cl…ck所组成的非歧义词的词类，可以从歧义切分字段本身提供出来，例如，在歧义切分字段"白天鹅"中，交段为"天"，它与后继字串"鹅"组成的非歧义词"天鹅"，其词类为名词。

歧义切分字段本身为我们提供了非歧义词，天鹅"的词类信息。

交集型歧义切分字段，al…ai.b1…bj，cl…ck的交段b1…bj与其前趋字串al…ai所组成的非歧义词的词类，也可以从歧义切分字段本身提供出来。

例如，在歧义切分字段"需求和"中，交段为"求"，它与前趋字串"需"组成非歧义词"需求"，其词类为名词，歧义切分字段本身也为我们提供了非歧义词"需求"的词类信息。

交集型歧义切分字段可以为我们提供非歧义切分的特征信息，这是交集型歧义切分字段非常宝贵而重要的特点。

根据这个特点，我们可以事先为汉语词汇中的每个词建立词法知识库，并在该知识库中为可能产生歧义切分的词条加上歧义标志和歧义类型编号，这样，在实际切分歧义字段时，只要利用该字段中的交段bl…bj与后继字串cl…ck（或其前趋字串a1…ai）所组成的非歧义词的已知词类信息，再通过适当的逻辑推理，就可以对这类歧义切分字段作出唯一正确的切分。

例如，在上述第（3）种类型的歧义切分字段"白天鹅"中，因交叉组合产生的歧义词是"白天"，交段是"天"，该交段的后继字串为"鹅"，二者组成非歧义词"天鹅"，并已知其词类信息为名词。

如果在词法知识库中，对歧义词"白天"加上歧义标志和相应的歧义类型编号，并建立如下的规则：

如果交段与其后继字串组成名词，则将该歧义词的首字单切，否则，确认该歧义词为词。

于是，根据歧义词"白天"的歧义类型编号调用上述规则，并利用词法知识库中有关该歧义切分字段的交段"天"与其后继子串"鹅"组成词的知识，检查这个词是否为名词，并进行逻辑推理，就可以确定，在切分歧义字段"白天鹅"时，应将歧义词"白天"的首字"白"单切，"白天鹅"应切分为"白/天鹅"。

这是对歧义切分字段"白天鹅"作出的唯一正确的切分。

又如，在上述第（8）种类型的歧义切分字段"需求和"中，因交叉组合产生的歧义词是"求和"，交段是"求"，该文段的前趋字串为"需"，二者组成非歧义词"需求"，并已知其词类信息为名词。

如果在词法知识库中，对歧义词"求和"加上歧义标志和相应伯歧义类型编号，井建立如下的规则：

如果交段与其前趋字串组成名词，则将该歧义词的尾字单切，否则，确认该歧义词为词。

于是，根据歧义词"求和"的歧义类型编号，调用上述规则，在词法知识库中查询，得知该歧义切分字段的交段"求"与其前趋字串"需"所组成的词为名词，进行逻辑推理，就可以确定，在切分歧义字段"需求和"时，应将歧义词"求和"的尾字单切，"需求和"应切分为"需求/和"。

这是对歧义切分字段"需求和"作出的唯一正确的切分。

对于其它类型的交集型歧义切分字段，不难建立相应的规则，并为其中的歧义词设置相应的歧义类型编号，然后利用词法知识库中有关词类信息的知识，进行类似的逻辑推理，就可以作出唯一正确的切分。

由于对交集型歧义切分字段的正确切分，仅只需要关于词类的信息，所以，可以把这类歧义切分字段。

从性质上划为"与词类有关的歧义切分字段"，简称为"词法歧义字段"。

多义组合型歧义切分字段与解决方法

多义组合型歧义切分字段比较复杂，这种歧义切分字段是由词与词之间的串联组合产生的。

在字段S=a1…ai.bl…bj中，由于a1…i，b1…bj和S三者都能分别成词，字串a1…ai与字串bl…bj形成了串联组合，才产生歧义切分。

从产生的根源上看，有下列几种不同的类型：

（1）量词十名词：

例如，在句子"一阵风吹过来了"中，歧义切分字段"阵风"是由量词"阵"和名词"风"的串联组合产生的。

（2）介词十名词：

例如，在句子"请把手抬高一点儿"中，歧义切分字段"把手"是由介词"把"和名词"手"的串联组合产生的。

（3）动词十名词：

例如，在句子"他喜欢吃烤白薯，中，歧义切分字段"烤白薯，是由动词"烤"和名词"白薯"的串联组合产生的。

（4）名词十方位词：

例如，在句子"他骑在马上"中，歧义切分字段"马上"是由名词"马"和方位词"上"的串联组合产生的。

（5）名词十动词：

例1，在句子"语言学起来并不十分容易"中，歧义切分字段"语言学"是由名词"语言"和动词"学"的串联组合产生的。

例如，在句子"学生会兴奋得手舞足蹈"中，歧义切分字段"学生会"是由名词"学生"和动词"会"的串联组合产生的。

例如,在句子"乒乓球拍卖完了"中，歧义切分字段"乒乓球拍"是由名词"乒乓球"和动词"拍"的串联组合产生的。

例如，在句子"美国会采取措施提高工业竞争力"中，歧义切分字段"美国会"是由名词"美国"和动词"会"的串联组合产生的。

（6）方位词十动词：

例如，在句子"他在庄稼地里间麦苗"中，歧义切分字段"里间"是由方位词"里"和动词"间"的串联组合产生的。

（7）副词十动词：

例如，在句子"他将来北京探亲"中，歧义切分字段"将来"是由副词"将"和动词"来"的串联组合产生的。

（8）助词十动词：

例1，在句子"他学会了解数学难题"中，歧义切分字段"了解"是由助词"了"和动词"解"的串联组合产生的。

例如，在句子"只要努力地学就可以学会"中，歧义切分字段"地学"是由助词"地"和动词"学"的串联组合产生的。

（9）连词十副词：

例如，在句子"日本保留和尚使用的古代庙宇已经不多了"中，歧义切分字段"和尚"是由连词"和"与副词"尚"的串联组合因此,可以先在词法知识库中对歧义词"阵风"加上歧义标志与相应的歧义类型编号,并建立如下的规则

G1如果歧义字段的直接前趋字串是数词,则歧义字段的首段单切,否则,该歧义字段成词。

然后根据"阵风"的歧义类型编号调用这条规则,并利用词法知识库中的有关该字段前趋字串的信息,进行逻辑推理,就可以作出唯一正确的切分。

歧义切分字段"把手"是由介词"把"和名词"手"的串联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的后继字串中必须有及物动词,根据这样的句法知识建立相应的规则,再使用与上述类似的推理方法,就可以作出唯一正确的切分。

歧义切分字段"烤白薯"是由动词"烤"和名词"白薯"的串联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的前趋字串中应该有动词,根据这样的句法知识建立相应规则,再使用与上述类似的推理方法,就可以得到唯一正确的切分。

歧义切分字段"马上"是由名词"马"和方位词"上"串联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的前趋字串中应该有介词,根据这样的句法知识建立相应的规则,再使用类似的推理方法,就可以得到唯一正确的切分。

类似地,切分歧义字段"语言学"时,要使用"该字段的后继字串中应有趋向动词或助词"这样的句法知识；切分歧义字段"里间"时,要使用"该字段的前趋字串中应有介词"这样的句法知识；切分歧义字段"将来"时,要使用"该字段的前趋字串中应有人名或人称代词"这样的句法知识；切分上面例中的歧义字段"地学"时,要使用"该字段的直接前趋字串应该是形容词或副词"这样的句法知识。

根据句法知识建立相应的切分规则,通过一定的逻辑推理,就可以实现对这些歧义字段的正确切分。

现在讨论如何利用语义信息：

例中歧义切分字段"学生会"是由名词"学生"与动词"会"串联组会产生的,可以有两种切分结果：

学生/会/兴奋/得/手舞足蹈

学生会/兴奋/得/手舞足蹈

这两种切分结果在词类与句法结构上都十分相似,因此,仅仅利用词法和句法的知识,难以对这两种切分结果作出正确的判别,也就难以作出正确的切分。

这时,也就需要利用语义方面的知识了。

从语义上来看,动词"兴奋"的义项中,要求动作的发出者应具有"人"这个义素,在名词"学生会"的义项中不具有这个义素,而在名词"学生"的义项中则具有这个义素,利用这样的语义知识,可建立如下的语义规则：

G2如果歧义切分字段后继动词的义项中含有动作发出者为"人"这个义素,则歧义字段的尾字单切,否则,该歧义字段成词。

在自动切分时,根据歧义切分字段"学生会"的歧义类型编号,调用这条语义规则,进行逻辑推理,就可以得到如下正确的切分：

学生/会/兴奋/得/手舞足蹈

歧义切分字段"了解"是由助词"了"和动词"解"的串联组合而产生的,它们可以有两种切分结果：

他/学会/了/解/数学/难题

他/学会/了解/数学/难题

这两种切分结果的词类和句法结构都是十分相似的,如果仅仅只根据词法和句法知识,是难以得到正确的切分的,但是只要根据语义分析就可以知道,在动词"解"的义项中,它要求宾语应该具有"数学公式"或者"扣子"这样的义素,然而动词"了解"则对宾语则就没有这样的要求,由于作宾语的"数学难题"符合动词"解"的义项这样的要求,因此机器可以判定前一种切分是正确的,从而也就排除了第2种切分。

我们最后来讨论任何使用语用信息：

所谓语用信息，就是必须结合上下文不同的情况的信息才能确定语句含义。

歧义切分字段"乒乓球拍"仅只根据词法、句法和语义知识,都不足以判断卖完的东西究竟是"乒乓球"还是"乒乓球拍",这时,就得根据语言交际的具体环境的语用方面的知识,才能决定究竟什么才是正确的切分。

例中的歧义切分字段"美国会",仅只根据词法、句法和语义知识,也不足以判断采取措施提高工业竞争力的是"美国"还是"美国会",这时,就得根据语言交际的具体环境的语用方面的知识,才能作出正确的切分。

在上面的例中的歧义切分字段"和尚",如果仅只根据词法、句法和语义知识,也不足以判断古代庙宇是"和尚"使用还是"尚"使用的,这也只好根据语言交际的具体环境的语用方面的知识,才能作出正确的切分。

根据上面所述的歧义切分字段的性质,可以把它们分为4种不同的类型：

（l）利用词法知识就能判断的歧义切分字段,叫做"词法歧义字段"。

（2）利用句法知识才能判断的歧义切分字段,叫做"句法歧义字段"。

（3）利用语义知识才能判断的歧义切分字段,叫做"语义歧义字段".

（4）利用语用知识才能判断的歧义切分字段,叫做"语用歧义字段"。

在这其中,词法歧义字段与交集型歧义切分字段完全对应,其余三类则与多义组合型歧义切分字段相对应。

特别声明：

1：

资料来源于互联网，版权归属原作者

2：

资料内容属于网络意见，与本账号立场无关

3：

如有侵权，请告知，立即删除。

展开阅读全文

人工智能与机器翻译 自动分词.docx

人工智能与机器翻译自动分词.docx