面向中日韩文智能信息检索的基于词典的异形词排岐.docx

上传人:b****8 文档编号:27769504 上传时间:2023-07-04 格式:DOCX 页数:15 大小:27.09KB
下载 相关 举报
面向中日韩文智能信息检索的基于词典的异形词排岐.docx_第1页
第1页 / 共15页
面向中日韩文智能信息检索的基于词典的异形词排岐.docx_第2页
第2页 / 共15页
面向中日韩文智能信息检索的基于词典的异形词排岐.docx_第3页
第3页 / 共15页
面向中日韩文智能信息检索的基于词典的异形词排岐.docx_第4页
第4页 / 共15页
面向中日韩文智能信息检索的基于词典的异形词排岐.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

面向中日韩文智能信息检索的基于词典的异形词排岐.docx

《面向中日韩文智能信息检索的基于词典的异形词排岐.docx》由会员分享,可在线阅读,更多相关《面向中日韩文智能信息检索的基于词典的异形词排岐.docx(15页珍藏版)》请在冰豆网上搜索。

面向中日韩文智能信息检索的基于词典的异形词排岐.docx

面向中日韩文智能信息检索的基于词典的异形词排岐

面向中日韩文智能信息检索的基于词典的异形词排歧

Lexicon-basedOrthographicDisambiguation

inCJKIntelligentInformationRetrieval

JackHalpern(春遍雀來)

TheCJKDictionaryInstitute(日中韓辭典研究所)

〒352-0001 埼玉県新座市東北2-34-14 小峰ビル

34-14,2-chome,Tohoku,Niiza-shi,Saitama352-0001,Japan

jack@cjk.org

摘要

中日韩文拼写的复杂性对于计算语言学工具的开发者,尤其是在智能信息检索方面,是一个特殊的挑战。

由于这些语言没有标准的正字法,特别是由于日语拼写的高度不规则性,使这些困难变得更加突出。

本文着重于中日韩文拼写变异的类型,对这一语言学问题做一个简要的分析并论述词汇数据库在排岐的过程中起重要作用的原因。

1引言

多方面的因素造成了中日韩文信息检索的困难。

要达到真正的智能检索,必须克服众多的挑战。

主要包括以下几个方面的问题:

1.拼写缺乏标准。

在处理数量极其庞大的异体字(尤其是日文)和字符形式时,需要具备能够支持正字法检索之类的高级信息检索技术(Halpern2000)。

2.中文简体与中文繁体之间的准确转换,这是一个看似简单,但实际上却极其困难的计算任务(HalpernandKerman1999)。

3.日文与韩文形态音位的复杂性对精确的形态分析工具的发展提出了巨大的挑战。

形态分析工具能够实现以下几种操作:

规范化、划分词干(去掉变化词尾)及形态素的异文合并(将多个形态变体减少为唯一的形式)

4.难于进行准确地分词,尤其是书写上没有词间距的中文和日文。

包括为了词典检索及制作索引的目的,将文本流划分成有意义的语言单位来确定词的界限。

这方面取得的较大进展Emerson(2000)和Yuetal(2000)都曾有过报导。

5.多重检索技术,如基于词位的检索(如'takeoff'+'jacket'来自'takeoffhisjacket'),依据造句法构成的短语的鉴别(例如:

研究する来自研究した),同义字的扩充以及跨语言信息检索(CLIR)(Gotoetal.2001)。

6.多方面的技术要求例如多字符集之间的代码转换及编码,支持统一的字符编码标准,以及输入法的编辑器。

大部分这方面的问题已经得到了满意地解决,正如Lunde(1999)所报告的那样。

7.专有名词是智能检索工具面对的重大难点。

因为它们的数量特别多,如果没有词典,很难对其进行检查,并且其拼写很不稳定。

8.术语及其变体的自动识别,是一个复杂的题目,不在本文论述范围之内。

Jacquemin(2001)对欧洲语言进行了这方面的详细描写,我们目前正在对中文和日文进行这方面的研究。

上述的每个问题都非常重要,都值得独立成篇专门论述。

本文的重点是异形词排岐,这涉及到中日韩文异体字的处理、标准化及转换。

文中总结了中日韩文书写变异的类型,简要分析了这些语言学问题,并论述了为什么词汇数据库应在排岐过程中起重要作用。

2中文的书写变异

2.1一种语言,两种写法

战后中国进行了语言文字改革,其结果是数以千计的汉字被大大地简化了(总表1986)。

以简化形式书写的中文称作简体中文(SC)。

台湾.香港以及大多数海外华人仍沿用传统的复杂形式,称作繁体中文(TC)。

中文书写体系的复杂性是众所周知的。

造成这一结果的因素有:

大量的汉字在共同使用,这些汉字具有复杂的形式,繁体与简体中文之间存在众多差别,繁体中文存在大量的异体字等。

而这些大量的异体字和简体与繁体之间转换的困难对中文信息检索应用软件特别重要。

2.2汉字简繁转换

从简体中文到繁体中文(或繁体中文到简体中文)的自动转换过程,被称作C2C(汉字简繁)转换,是充满复杂性及缺陷的。

Halpern和Kerman(1999)对这一语言学问题进行了详细的阐述,Lunde(1999)则描述了有关编码及字符集的技术问题,这一转换可以按照下面简要描述的三个递增的级别来实现。

2.2.1码对转换

最容易,但又最不稳定的C2C转换方式是通过对应表,进行代码至代码的转换。

如下表所示。

这种转换叫做码对转换。

由于存在大量的一个代码可以转换成多个代码的不明确的情况(简繁,繁简转换中都存在这一问题),转换的失败率很高。

表1.码对转换

简体

繁体1

繁体2

繁体3

繁体4

备注

一对一

一对一

一对多

一对多

一对多

 

2.2.2字对转换

c2c转换的第二个级别叫做字对转换,因为被转换的是拼字单位,而不是字符集中的代码。

更确切地说,被转化的是有意义的语言单位,特别是多字词。

如果说码对转换具有模糊性,字对转换则能够取得较好的效果,那是因为拼字对应表使得转换能够在词的层面上进行。

表2.拼字对应

英文

简体

繁体1

繁体2

不正确

备注

telephone

电话

電話

 

 

转换明确

we

我们

我們

 

 

转换明确

start-off

出发

出發

 

出髮 齣髮 齣發

一对多

dry

干燥

乾燥

 

干燥 幹燥 榦燥

一对多

 

阴干

陰乾

陰干

 

依语言环境而定

 

如上所见,代码转换所具有的模糊性可以利用一个拼字对应表来解决,这个表可以排除掉那些不正确的转换,如上表错误栏所显示的那样。

由于对词的分割具有不明确性,字对转换可以借助于形态分析器来进行,这个形态分析器可以将文本流切分成一个个有意义的单位(Emerson2000)。

2.2.3词对转换

一个更细微复杂,更具挑战性的C2C转换的途径是词对转换,这种汉字简繁转换不是按照拼写,而是按照语义进行的。

例如,简体中的“信息”转换成繁体语义对应词时,就变成了“资讯”。

其区别之处就如英式英语中的lorry与美式英语中的truck。

简体中文和繁体中文之间存在着众多的词汇差别,尤其是术语和专有名词。

Tsou(2000)已经论证了这一点。

例如,“OsamabinLaden”有十多种变体。

使问题更为复杂的是,正确的繁体中文有时候是受地域制约的。

词对转换是C2C转换中最困难的一级,只有借助于对应表才能得以实现。

表3展示了不同地域不同的的不同模式。

表3.词对转换

英文

简体

台湾繁体

香港繁体

其他繁体

错误繁体

Software

软件

軟體

軟件

 

軟件

Taxi

出租汽车

計程車

的士

德士

出租汽車

OsamabinLaden

奥萨马本拉登

奧薩瑪賓拉登

奧薩瑪賓拉丹

 

奧薩馬本拉登

Oahu

瓦胡岛

歐胡島

 

 

瓦胡島

 

2.3繁体中文的异形词

繁体中文没有稳定的拼写法,存在大量的异形词,经常混淆。

因此处理繁体中文(某种程度上也包括简体中文)必须用对应表来排除这些异形词(Halpern2001)。

2.3.1 台湾、香港地区的繁体中文异形词

中文繁体字典在对繁体中文形式的选择上常常不一致。

繁体中文的异形词可分成不同类型,如表4所示。

表4.繁体中文异形词

异形1

异形2

英文

备注

Inside

可完全互换

Teach

可完全互换

Particle

大五字集中不存在异体2

For

大五字集不存在异体2

sink;surname

部分情况下可互换

leak;divulge

部分情况下可互换

 

繁体中文异形词存在的原因多种多样,例如一些繁体中文形式不能用于大五字集,有些是简体中文的偶然用法等等。

 

2.3.2中国大陆与台湾地区异形词的对比

在中国大陆,繁体中文的使用有一定范围,通常用于本国的一些古典作品、以及面向海外发行的报刊等。

而这些繁体中文是以一个由简体中文形式(GB2312-80)转换成相应的繁体中文形式(GB/T12345-90)的标准为基础的。

然而这些转换形式并不一定与台湾地区广泛使用的繁体中文一致。

我们把大陆的繁体中文称作“大陆型繁体中文”(STC),将台湾,香港等地区的繁体中文称作“港台型繁体中文”(TTC)。

表5.STC与TTC异形词的对比

拼音

SC

STC

TTC

xiàn

线

bēng

 

3日文的拼写变异

3.1一种语言,四种文字体系

日语的拼写非常不规则。

由于存在大量的异形词和极易混淆的同音字,使得日语的拼写系统明显地比其他任何一种语言(包括中文)都更加复杂。

一个主要的因素就是日语的4种文字体系相互复杂的交叉导致产生了大量的单词,这些单词可以用多种意想不到的方式书写出来,(Halpern1990,2000)。

表6展示的是取り扱いtoriatsukai'处理'一词的异形词,用以阐明变异模式的多样性。

表6.取り扱いtoriatsukai'处理'一词的异形词

Toriatsukai

异形词类型

取り扱い

标准型

取扱い

送假名异形

取扱

全汉字

とり扱い

以平假名代替汉字

取りあつかい

以平假名代替汉字

とりあつかい

全平假名

谚语‘一只生了个金蛋的母鸡’就是一个说明日语的信息检索有多么难的例子。

“标准”的写法应当是金の卵を産む鶏(Kinnotamagowoumuniwatori)。

而实际上,tamago“鸡蛋”一词有4种变体,niwatori“鸡”一词有3种变体,而umu“生”一词有2种变体,由于不同的替换方式的组合,这个句子的写法可以扩展到24种形式。

这些异形词经常出现在网页中,通过查询网络可以很容易验证这一点。

显而易见,用户无法发现它们,除非这一应用软件能够支持异形词的排岐。

 

3.2送假名异形词 

日文中最普遍的一种书写变异类型是附加于日文汉字词干之后,以日文假名结尾的异形词,叫做送假名okurigana。

尽管可能通过算法化产生某些送假名异形词,例如名词“飛出し”来源于动词“飛出す”,但是从整体上看必须要使用硬代码表。

因为送假名的用法常常不可预测且异形词为数众多,所以对送假名异形词的处理在日文的异形词排岐中起着重要作用。

表7.送假名异形词

英文

读法

标准形

异形词

Publish

kakiarawasu

書き表す

書き表わす

書表わす

書表す

Perform

okonau

行う

行なう

Handling

toriatsukai

取り扱い

取扱い

取扱

 

3.3文字种类间的异形词

日文书写混合了四种文字体系(Halpern1990):

中文汉字、双音节文字的平假名和片假名、以及罗马字(拉丁语字母)。

对日文的信息检索应当起重要作用的文字种类间的书写变异非常普遍,而且通常都是不可预知的,所以同一个词可以用平假名、片假名、或汉字来书写,甚至可以用两种形式混合来写。

表格8列出了日文各文字种类间变异的模式。

 

表8.字种间异形词

汉字对平假名

大勢  おおぜい   

汉字对片假名

硫黄  イオウ   

汉字对平假名对片假名

猫  ねこ  ネコ

片假名对混合型

ワイシャツ Yシャツ   

汉字对片假名对混合型

皮膚  ヒフ  皮フ

汉字对混合型

彗星  すい星   

平假名对片假名

ぴかぴか  ピカピカ   

3.4假名异形词

近年来片假名的使用急剧增长,用音节来拼写外来词的现象越来越普遍。

日文信息检索中一个重要令人烦恼的问题是片假名的拼写往往是没有规律的,同一个词可以用多种不可预知的方式拼写的情况相当常见,而且这些拼写方式不能用算法化产生出来。

平假名通常用于表示语法成分及日本的本土文字。

尽管平假名的拼写通常是有规律的,但仍有少量不规律的形式存在。

表9列出了假名变异情况的几种主要类型。

表9.片假名和平假名的异形词

种类

英文

读法

标准形

异形词

长音

Computer

konpyuuta

konpyuutaa

コンピュータ

コンピューター

长母音

Maid

meedo

メード

メイド

多数个假名

team

chiimu

tiimu

チーム

ティーム

旧假名的使用

big

ookii

おおきい

おうきい

づ对ず

continue

tsuzuku

つづく

つずく

上表只是对假名变异形式最为重要的几个类型的简要介绍,还有许多其它的类型,例如词间的点和小的假名变体,传统假名和历史假名(historicalkana)的使用等等。

3.5其它类型的异形词

日文中还有许多种其它的异形词类型,限于篇幅,本文不能详细介绍。

下面仅介绍2种最重要的类型。

更为详细的介绍可参阅Halpern的文章(2000)。

3.5.1日文汉字的异形词

尽管日文的书写体系在战后经历了重大改革并且其字形目前已被统一标准化,但仍有大量的异形词在被使用着,例如现代日文中使用简化字形(用“才”代替“歳”,用“巾”代替“幅”),而专有名词和古典作品中使用传统的字形(用“島”代替“嶋”,用“發”代替“発”)。

3.5.2训读同音字

大量存在的同音字(发音相同但书写不同的字)以及它们可变的书写方法是造成日文书写体系复杂性的一个重要因素(Halpern2000)。

不仅每个汉字有许多的训读读法,而且许多训读词能用多种形式书写出来。

大多数的训读同音字的意义通常很接近甚至相同,因此很容易混淆。

例如,noboru一词,写作“上ゐ”时,义为“上升”,写作“登ゐ”时,义为“攀登”,而yawarakai一词写作“柔かぃ”或“軟かぃ”时,都是“软”的意思。

4韩文的拼写变异

4.1不规则的拼写

韩文的拼写并非如大多数人所认为的那样规则。

尽管韩文(hangul)常被描述成“合理的”,但实际上现代韩文中存在大量的拼写变异,加之韩文形态的复杂性,给信息检索工具的开发者带来一大挑战。

下文介绍韩文拼写变异的主要类型。

4.2韩文异形词

韩文拼写变异中最重要的类型是在拼写外来词时使用不同的韩文拼法。

另一个重要的拼写变异类型是书写非韩国人的名字,如表10所示。

表10.韩语异形词

蛋糕

케이크(keikeu)

케잌(keik)

黄色

옐로우(yelrou)

옐로(yelro)

毛泽东

마오쩌뚱(maojjeottung)

모택동(motaekdong)

克林顿

클린턴(keulrinteon)

클린톤(keulrinton)

 

4.3文字种类间异形词

多种写法的运用是造成韩文书写体系复杂性的一个重要因素。

韩文的书写混合了三种写法:

按字母顺序的音节表称作韩文(hangul),中文字称作汉字(hanja)(其应用正在减少)以及拉丁字母称作罗马字(romaja)。

不同字种间的拼写变异并不罕见。

表11列出了文字种类间变异的主要模式。

表11.文字种间的异形词

异形词类型

英文

异形1

异形2

异形3

汉字对韩语音节文字

manypeople

大勢(daese)

대세(daese)

 

韩语音节文字对罗马字

shirt

와이셔츠(wai-

syeacheu)

Y셔츠(wai-

syeacheu)

 

韩语音节文字对numeral对汉字

oneo'clock

한시(hansi)

1시(hansi)

一時(hansi)

英文对韩语音节文字

sex

sex

섹스(sekseu)

 

 

4.4多种类型的异形词

4.4.1南北韩语的对比

另一个对韩文(hangul)拼写的无规律性起作用的因素是南北韩拼写的不同。

最主要的区别在于对外来词以及对非韩文专有名词的书写,优先使用韩国文字。

下面列出了这些主要的类型。

1.地名:

大阪北朝鲜오사까(osakka)对韩国오사카(osaka)

2.人名:

布什北朝鲜부슈(busyu)对韩国부시(busi)

3.外来词:

弹道导弹北朝鲜미싸일(missail)对韩国미사일(misail)

4.俄语与英语:

北朝鲜그루빠(guruppa)对韩国그룹(geurup)

5.语素:

北朝鲜그루빠(guruppa)对韩国그룹(geurup)

4.4.2新旧类型的拼写并存

韩文的写法经历了几次改革,最后一次改革发生在1988年。

尽管新的拼写方法已经确立下来,然而旧的拼写法仍然很重要,因为受旧拼写法影响的词的使用频率仍然很高,而且数量也并不少。

例如“工人”一词,现代的写法是일군(ilgun),1988年前写作일꾼(ilkkun),“颜色”一词现在写做(ilkkun),1988年前写作빛갈(bitgal)。

4.4.3汉字异形词

尽管韩国的语言改革并不包括对字形的简化,但是由于历史原因导致了许多简化日文汉字在韩文中被应用,例如日文的“発”取代了韩文的“發”(bal)。

4.4.4多类型的异形词

还有其它不同类型的拼写变异情况,本文无法尽述。

在此仅对括缩写及首字母缩写的用法稍做介绍。

例如:

“CaribbeanSea”既可以连写作카리브해,也可以分写作카리브해。

5词汇数据库的作用

因为中日韩三种语言的无规则的拼写,基于语素基础上的异形词排岐,不能仅仅依靠偶然性的手段(例如bigramming)。

按照这样的思路已作了很多的尝试,如Brill(2001)和Goto(2001)等有的学者声称已实现了与词典同等的成果,而Kwok(1997)则称是在少量词汇和简单的信息分割工具的情况下取得了很好的结果。

这些方法对于单纯的信息检索(相应文档的检索)可能是令人满意的,但要实现异形词排岐和C2C的转换还很不够。

Emerson(2000)及其他人都已经证明,一个善于处理词汇胜于处理bigrams或者n-grams的形态分析器必须有一个大型的计算词典作为支持(对这个词典来说,即使有100,000个词条也还是太少)。

专门进行中日韩计算词典编撰的日中韩词典研究所(CJKI)为进一步完善,扩充日中韩词典数据库(目前有550万个词条)正致力于一项以异形词排岐和专有名词为重点的研究开发。

以下列出的是对智能信息检索工具及异形词排岐有用的主要组成。

1.汉字简繁互换

1996年CJKI(前身为中日韩词典协会)开始对C2C转换课题进行详细的调查和深入的研究,并构建了全面对应表(现有130万个SC和120万个TC条目)。

其目标是使转换正确率接近100%。

该研究包括:

a.SC与TC互换的码对表

b.针对一般词汇的SC与TC互换的拼写及词汇对应表

c.针对专有名词的SC与TC互换的拼写对应表

d.针对技术术语,尤其是互联网技术术语的SC与TC互换的全面拼写/词汇对应表

2.TC拼写标准化图表

a.TC标准化映射表

b.STC与TTC互换的字符映射表

3.日文异形词数据库

a.一个全面的日文异形词数据库。

b.一个按语义分类的同音字群数据库

c.以同义字扩充为目的的按语义分类的同义字群(日文辞典)

d.以CLIR为目的的英-日词典

e.未列出的异形词的识别规则。

 

结论

 

中日韩信息检索工具对于信息检索和信息技术已经越来越重要。

正如我们已经看到的,由于中日韩文书写体系拼写的不规则,智能信息检索不仅需要语素分析器之类的应用已久的工具,还需要能够精确完成异形词排岐需求的词汇数据库。

极少有哪些中日韩信息检索工具能完成异形词排岐的任务。

要想真正实现智能信息检索实,不仅仅要具备以基于词典为基础的异形词排岐的功能,还要具备如CLIR,同义字扩充及同音字间检索等新技术的支持。

我们当前正致力于进一步开发扩充这一词汇资源,以便更好地开发智能中日韩文信息检索工具和支持准确的分割技术。

 

参考文献

Brill,E.andKacmarick,G.andBrocket,C.(2001)AutomaticallyHarvestingKatakana-EnglishTermPairsfromSearchEngineQueryLogs.MicrosoftResearch,Proc.oftheSixthNaturalLanguageProcessingPacificRimSymposium,Tokyo,Japan.

Emerson,T.(2000)SegmentingChineseinUnicode.Proc.ofthe16thInternationalUnicodeConference,Amsterdam

Goto,I.,Uratani,N.andEharaT.(2001)Cross-LanguageInformationRetrievalofProperNounsusingContextInformation.NHKScienceandTechnicalResearchLaboratories.Proc.oftheSixthNaturalLanguageProcessingPacificRimSymposium,Tokyo,Japan

Jacquemin,C.(2001)SpottingandDiscoveringTermsthroughNaturalLanguageProcessing.TheMITPress,Cambridge,MA

Halpern,J.(1990)OutlineOfJapaneseWritingSystem.In“NewJapanese-EnglishCharacterDictionary”,6thprinting,KenkyushaLtd.,Tokyo,Japan(www.kanji.org/kanji/japanese/writing/outline.htm)

Halpern,J.andKermanJ.(1999)ThePitfallsandComplexitiesofChinesetoChineseConversion.Proc.oftheFourteenthInternationalUnicodeConferenceinCambridge,MA.

Halpern,J.(2000) TheChallengesofIntelligentJapaneseSearching.Workingpaper(www.cjk.org/

cjk/joa/joapaper.htm),TheCJKDictionaryInstitute,Saitama,Japan.

Halpern,J.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 天文地理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1