信息处理用现代汉语语义分析的理论与方法.docx
《信息处理用现代汉语语义分析的理论与方法.docx》由会员分享,可在线阅读,更多相关《信息处理用现代汉语语义分析的理论与方法.docx(13页珍藏版)》请在冰豆网上搜索。
信息处理用现代汉语语义分析的理论与方法
信息处理用现代汉语语义分析的
理论与方法①
张普
北京语言学院
编者按:
汉语信息处理在字处理、词处理两个方面已经陆续取得了相对突破,目前,句处理阶段的苗头已经开始。
作为知识工程或智能化系统已经进入了实质性的知识获取或智能模拟阶段。
在这一阶段,将大力加强句法知识、语义知识、语用知识的基础理论研究,这些基础研究的课题都是语言信息处理领域高难度的前沿课题,已为国内外有关专家瞩目。
其中,句法知识、语义知识的获取是当前的重点,而语义知识又是二者中的难点。
句处理及其有关基础理论的研究已正式列入我国八五重点科研项目。
由机电部计算机与微电子发展研究中心(CCID)牵头,由中国中文信息学会理事长陈力为作为高级顾问,北京大学、清华大学、河南财经学院、中国人民大学、北京语言学院、东北工学院、山西大学、北京信息工程学院等十余个单位的数十名计算机科学、语言学的著名专家教授及一批优秀的中青年研究人员已经组成了阵容强大的菌关队伍。
本期发表北京语言学院张普同志的论文《信息处理用现代汉语语义分析的理论与方法》。
今后还将继续发表有关语义研究方面的论文,希望就此引起讨论。
一、现代汉语语义分析在语言信息处理中的地位
语言信息处理是用计算机来处理自然语言,它包括处理世界各民族的语言。
本文所论述的语义问题主要涉及汉语信息处理,并且主要指现代汉语的信息处理。
汉语信息处理是“用计算机对汉语(包括书面和口语两个方面)的音、形、义等信息进行处理,有时又称中文信息处理。
”②
自七十年代未期以来,汉语信息处理进入大发展的时期,到目前为止,大约经历了三个阶段:
字处理阶段、词处理阶段、句处理阶段。
进入句处理,才真正全面地触及了语言规律的各个层次,人微言轻知识工程或智能化系统才真正开始了实质化的知识获取或智能模拟。
没有字处理或词处理作为基础和手段,这个实质化的进程只能空谈,反过来,句处理和智能化的提高也将促使字处理和词处理抽更高级的水平发展。
在字处理阶段我们主要解决了汉字在计算机上的输入输出问题,同时推进了语音的输入和输出。
汉字编码、编码评测、字频统计、《信息交换用汉字编码字符集》的制定、点阵汉字库的标准制定等都属于这一阶段的研究工作。
在词处理阶段,我们主要解决了不实行分词连写的汉语的词处理手段问题,因为人微言轻语言的基础毕竟是词而不是“字”。
词频统计、通用词库、电子词典、自动分词等都属于这一阶段的研究工作。
在句处理阶段,我们将着重解决汉语句子的处理问题,其核心是句子的理解问题。
首先是单句的理解,进一步是复句的理解,以便为将来更高层次伯篇章理解打下基础。
句子的理解不仅将为机器翻译、自动标引、自动文摘、自动指挥、人机对话、自然语言接口等需要高智能的应用系统打下基础,也将促使字处理、词处理阶段的一些应用软件推出更高级的版本,如精度更高的自动分词、汉字自动识别、语音识别与合成系统等。
汉字键盘输入系统也将推出对人更加友好的版本。
为了解决句子的理解问题,计算机必须获取句法知识(句型知识、句法规则)、语义知识和语用知识。
没有语义知识根本谈不上理解,没有语用知识,理解系统难于进一步提高精度,甚至可能产生误解。
在处理语义和语用知识的同时,我们不可避免地还要触及“语境”和“情景”的问题。
句法和语义的研究成为句处理阶段能否取得突破的关键,语义研究是这两个关键研究中的难点。
我们可以用下述框图表达上述的关系:
(见图一)
二、人脑语义系统的形成
1.民族语言的语义系统的形成
任何一种民族语言的语义系统都是该民族的成员在长期的生活、生产、社会实践活动中逐步积累,约定俗成的。
这个语义系统就是他们对客观世界(包括自身活动)的总认识,这个认识是不断扩展和深化的。
例如:
汉族人对客观世界的一种长角、偶蹄的动物很早就有了认识,逐步认识到可以取奶、食肉、剥皮、役使、耕田等等,于是归纳、抽象后形成了一种概念,并且用一个声音(niu)、一种符号“牛”来代表。
在役使中发现牛很犟,有时很难驾驭,而一些人的性格有时表现的有很象牛,于是“牛”又形成了一种比喻概念:
“固执和骄傲”。
例如:
“牛气”、“牛脾气”等。
这个过程可用下图表示:
人类的认识过程是不断深化的,最先认识的是简单的、具体的事物,逐步认识那些复杂的、抽象的事物。
随着人类社会的复杂化和人类的智能的提高,语义系统也越来越庞大、复杂、精密,这个系统构成了一个静态语义网。
不同民族语言的静态语义网既有共性,也有差别,这个问题本文不细论。
2.个人头脑中语义系统的形成:
任何一种民族语言的语义系统或静态语义网都是一种客观存在,它的形成是群体认识的历史的积淀,这种认识的积累构成了语义知识。
我们每个人头脑中也贮存着一个(母语)静态语义网,它来自民族语言的静态语义网,这样我们才有语义的共识,才能相互交际。
这个静态语义网是通过学习获取的,它是民族语言静态语义网的一个子集,由于受教育的水平不一样,严格地说,实际上没有在任何一个人头脑中的静态语义网的子集是与别人完全相同,这就形成了个体之间语义知识差异,这种差异反映在交际当中就是难于“沟通”,造成不“理解”或“误解”。
个头脑中的语义系统与整个民族语言的语义系统的关系如下图:
(其中WQ为民族语义网的全集,WG1—n为个人语义系统的不同子集):
每个人获取静态语义网的子集的过程可用下图表示:
这个图与图
(二)的重要差别在于“概念”和“语言符号”之间的箭头方向发生了变化,同时,由“学习机制”代替了“约定俗成”。
三、电脑语义知识的获取
要让电脑理解汉语,就必须首先让电脑取汉语语义知识,也就是说要模拟人脑给电脑建造一个静态语义网。
理论上说,信息处理用的汉语的静态语义网,应当是汉语语义知识的全集。
由于这个全集十分复杂庞大,且充满了各种各样的广泛的语义关系,人工程实施的角度出发,我们不可能一下子建立一个完善的网。
我们必须先建立一个属于这个全集的一个子集,然后逐步扩充、完善、逼近全集。
个人头脑中语义系统形成的子集已经证明可以进行交际活动,只是这个子集中的语义知识的多少决定着“理解”、“不理解”和“误解”的程度。
如果我们选择一个从必备→完备,从低级→高级的建造过程,可能是明智的。
也就是说我们应该先建造一个有限(受限)的静态语义网。
对于这个静态语义网的限制有如下一些方面:
1.词量受限
语义系统中最基本的是词汇义(汉语的词素义问题将另文论述),词汇义总是通过单词来体现的。
我们应首先在词频统计的基础上确定一个描写词汇义的词量范围,使词汇义的描写或分析可以覆盖到一定的流通面。
例如:
先做8000高频词,然后逐步推广到全部词。
2.义项受限
任何词汇义都是对着词的义项而言的。
例如前面提到的“牛”的两个义项。
高频词的常用与否是与义项联在一起的,任何一个高频词并不是全部义项都常用的,一个高频词可能有些义项是极为罕用,如:
“人”是一个常用词,但《现汉》中义项③“指成年人”,只能用于“长大成人”等,频度并不高。
《汉语大字典》中义项11“指男女交合之事”(如“病不能为人,令其夫人与其弟乱而生他广”)今天已完全不用。
因而可能有一些频度较低的词常用义项实际上的使用频度高于另外一些高频词的罕见义项。
我们应该在词频统计的基础上进一步细化,进行义项使用频度的统计,进而对义项作出限量,首先描写、分析那些高频义项。
3.领域受限
一个科学家和一个普通人所掌握的词汇量是不一致的,其差别往往表现于专业词汇的有无,不是计算机科学家就很难说掌握“芯片、磁盘、驱动器、功能键、格式化、区位码、扇区”这样一些词,当然也不具有这些词的语义知识,同一词汇的同一义项,专家和普通人的语义知识也是不一样的,例如:
专家对“水”的理解除与一般人相同外,还具有冰点、沸点、比重、分子式这样一些知识。
建造一个兼及各种专业领域知识的静态语义网(相当于拥有人类全部知识的巨型百科全书)绝不是当前的事。
我们首先要建造的应是一个通用语义网。
这个通用网用于什么领域,就再增加什么领域的专用语义知识。
这种增加既表现于增加专用义项,也表现于一些原有义项增加专用解释,这个过程我们可以称为通用静态语义网的专家化。
因此,一个通用静态语义网必须具有一定的学习功能,以补充学习专家知识。
不具备学习功能的语义系统几乎是没有用的,严格地说一个静态语义网一建造起来就已经落后了,因为语义系统是语言各系统中最动荡不定的系统,随时都在发生变化。
采取领域受限与学习功能相结合的办法应该是行之有效的。
4.层级受限
词汇义与义项是相联系的。
我们称对应于词的义项的最小的概念为基本概念(词素义所对应的概念我们将另文探讨)。
静态语义网首先描写分析的就是这样一些最小的基本概念。
这些基本概念的语义知识具备了,才能解决其他层级的问题,诸如:
复合概念、词组义、句义、篇章义、语境义等。
四、语义系统的性质
1.多层次的系统
语义系统的层次包括词素义、词汇义、词组义、句义、篇章义、语境义等多个层次。
我们认为词汇义是驾驭整个语义系统的基础。
前述的静态语义网是建筑于词汇义层级的。
我们必须提到动态语义网的概念,动态语义网是对句子的语义结构进行分析的结果。
句子的句法分析形成的结果是一棵句法树,而句子的语义分析的结果构成的是一个语义关系网,这种动态语义网是建筑在句义这个层级的。
换言之静态语义网是对语言而言,动态语义网是对言语而言。
关于动态语义网将另有专文论述。
2.多类型的系统
在一个静态语义网中,各个义项并不是孤立地存在着的,它们之间的千丝万缕的各种联系。
这种联系是由客观世界是普遍地联系着的决定的。
此外,人们对客观世界的认识也是在分类、比较、鉴别、联想中进行的,因而也使得静态语义网中的各义项之间总是存在着这样那样的联系。
建立一个静态语义网除了对网上的义项(结点)进行描述外,重要的一点还在于描述在这些义项之间的联系(弧线)。
结点描述和弧线描述一起才构成静态语义网。
这些联系(弧线)的类型是不完全一样,有时是完全不一样的,它们分别具有同一性、对立性、分类性、分类性、有序性、相关性等多种不同的性质,这些不同性质上构成了不同的语义场(下文将详述)。
例如:
“生物——动物——鸟——驼鸟”具有分类性;“春——夏——秋——冬”具有有序性;“计算机——电脑;自行车——脚踏车——单车”分别具有同一性;“丈夫——妻子——夫妻”具有相关性等等。
3.多关系的系统
在静态语义网中,我们把一个义项称为一个义位,任何一个义位总是由一个以上的义素构成的。
或者说可以分解为一个以上的义素。
这些义素不是随机聚合的,而是有机组合的,我们可以用一个义素表达式描写出来(义素表达式我们另文详述)。
这样义素和义位之间发生了关系。
例如:
我们认为“鸟”这一义位具有“卵生、有翅、有羽毛、会飞…”等多个义素。
同一个义位由于分类的角度不一样,可以分别和一些义位发生联系,例如:
按前述分类“鸟”和“兽、虫、鱼…”等义位构成“动物”如按能否飞行分类“鸟”则和“飞机、火箭、热气球、飞虫…”等义位构成“飞行物”。
同理“水”可以和“酒、果汁、茶、咖啡…”构成“饮料”类,也可以和“汽油、酒精、醋…”构成“液体”类等等,这样义位和类型之间发生了关系。
一个词常常具有多个义项,我们称为多义词,在具体的句子中只有一个静态义项被“激活”。
例如:
“好”在《现汉》中有①优点多②……使人满意③友爱;和睦③健康、痊愈……⑨容易……等14个义项。
但在“他的病已经好了”一句中只激活了“痊愈”义,在“这件事好办”中只激活了“容易”义。
同时激活两个心上的义项就要发歧义,产生误解。
人们交流时一般是懂得回避这种情况的。
这样义位和层次之间又发生了关系。
基本要件译于词,其对应关系为1=1(单义词);1=多(多义词);多=1(同义词)。
复合概念对应与词/词组,例如:
“无轨电车、地下铁路、系统工程、高层建筑”等。
这样,概念与词、义项(义位)又发生了关系。
就是一个多义词的不同义项(义位)之间也有着本义、引申义、比喻义等关系。
语义系统就是这种多关系的系统,静态语义网就得理顺这种复杂的关系。
4.多变化的系统
任何一个民族语言的语义系统都是在不断变化的,这一点前面已经提到。
这种变化表现在新义素、新义位、新类型、新关系的不断产生;也表现于旧义素、旧义位、旧类型、旧关系的不断调整和消亡。
认识了上述四种主要性质,我们就可以明白一个供计算机使用的语义系统的建造是多么不容易,语义知识的获取不可能毕其功于一役。
任何简单的分类,单一的关系描述、完全静态的分析都是无济于事的,必须把多层次、多类型、多关系、多变化这些性质综合加以考虑,才能找到有效的解决方法。
五、语义系统的宏定义
在本文开头,我们已经指出“任何一种民族语言的语义系统都是该民族的成员在长期的生活、生产、社会实践活动中逐步积累、约定俗成的。
这个语义系统就是他们对客观世界的反映,那么我们对语义系统的宏定义就不能不受到对客观世界的宏定义的制约。
我们从哲学角度定义客观世界:
●一切事物都是客观存在;
●一切存在都是时间、空间之中;
●一切存在都表现为运动和变化;
●一切事物和存在都表现为一定的性状和数量。
从这个定义出发,我们把语义分为三大类:
运动(变化)类、事物类、性状(性质、状态)类。
分别以不同的方法来描述。
另有三小类:
时间、空间和数量。
三大类的描述方法如下:
事物类:
对其从分类、构件、形状、颜色、物态、关系、属性、功能八个方面进行描述,建立静态语义网,标定核心义素,通过语义场获取相关义素。
其主要做法是先建立“基础语义库”,通过“基础语义库”生成供信息处理用的“应用语义库”。
运动类:
对事物及其语义角色和语义关系进行分析,制作所有运动类的语义角色框架(格框架)并标定每一个角色的事物类语义限制(语义特征),将运动类与事物类的联系建立起来。
此外,运动类还需要进行语义范畴的分析。
性状类:
主要进行语义范畴的分析,以确定其语义指向,将性状类与事物类的联系建立起来。
此外,性状类与运动类的联系,性状类内部的联系也要进行描述。
另外三小类:
时间、空间和数量的描述本文不详述,还需要从汉语的特点出发作进一步的研究。
此外,没什么实在的词汇意义,只表示语法意义的虚词是汉语的一大特色,有可能在语义分析中发挥重大作用,这部分间接的语义知识如何获取和利用正在研究之中。
语序在汉语的语义表达中也起着举足轻重的作用,这种隐性的语义关系如何转化为语义知识以配合语义理解也正在探索。
六、语义场
我们在前面曾指出过,静态的语义网是由“结点”(义位)和“弧线”(义位关系)组成的。
而义位之间的关系类型是不完全相同和完全不相同的,不同的“弧线”应分另代表:
分类性、同一性、相对性、有序性、相关性等等。
不同的“弧线”(义位关系)就构成了不同的语义场,“弧线”的性质就是“场型”的标志。
我们用符号F(分类)、T(相同)、D(相对)、X(有序)、G(相关)等表示各种不同的“场型”。
同一场型的结点是具有相同义位关系的义位聚合;同一义位可以分别处于不同的“场型”,占据相应的结点。
这是人类从不同角度认识同一事物的结果,也是事物形成复杂特征集的原因。
下面分别举例看看几种主要场型,并连带给出有关术语:
1.分类义场(用符号F代表)
没有分类就没有比较,没有比较就没有鉴别,分类、比较、鉴别是人类认识客观世界的主要方法之一。
下面是分类义场的一个局部:
图五中包括如下一些术语需要解释或定义:
义位:
图中每个方框代表一个结点,即一个义位。
方框中的词只表示该词多个义项的一个义项,例如:
“人”,只代表《现汉》中八个义项的“义项①:
高等动物”。
场层:
左面的序号是场层的标号。
在最左面的分支中,共有六个场层,第⑥“驼鸟”已经到了该支的“底层”,根据客观事物和人类的认识,各支的层数是不一致的,例如“人”下所分的层次还有很多。
上位:
有弧线线连接的上层结点称为上位。
如:
“生物”是“动物”、“植物”、“微生物”的下位。
不同结点的下位数是不一致的,它也与客观事物和人类认识有关,同时还与研究者对人类认识的选择有关。
例如“具体物”有两个下位;“生物”有三个下位;“动物”有五个下位等等。
下位用符号Fx表示。
同位:
同一结点的几个下位结点称为同位。
如:
本图中“鸟、兽、虫、鱼、人”同位。
同位用符号Ft表示。
①
上、下位关系:
图中弧线表示分类义场的上下位关系。
其关系可描述为:
凡Fx都是Fs
例如:
“动物”是“生物”;
“植物”是“生物”;
“微生物”是“生物”;
“鸟”是“动物”;
“驼鸟”是“鸟”等。
Fs=Fx1+Fx2+…Fxn
例如:
具体物=生物+非生物
生物理=动物+植物+微生物等。
核心义素:
每个结点右边的描述是该结点的核心义素。
例如:
“具体物”的核心义素是“有形、有色、有质量”、“动物”的核心义素是“自主运动”和“感觉”等。
“十”号表示该义素正值,“一”号表示该义素取负值,“±”号表示该义素有时取正值,有时取负值。
公约义素:
公约义素是一种可由下位继承的义素。
由于“上下位关系”中有“凡F都是F”的继承关系,就决定了分类义场的下位可以继承上位的核心义素。
如:
“生物”、“非生物”、“动物”、“植物”、“微生物”、“鸟、兽、虫、鱼、人”、“鸵鸟”…都继承了上位“具体物”的核心义素,都是“有形、有色、有质量”的。
“具体物”称为“生物”、“非生物”的直接上位,是前述其他义位的非直接上位。
公约义素随着场层的加深而增加,“生物”、“非生物”均只有三个公约义互,“动物‘的公约义素除“具体物”的三个核心义素外,还要加“生物”的“有生命、繁殖、长育”三个义素,“鸵鸟”的公约义素是其直接上位和非直接上位13个核心义素减去“飞”,共12个。
因为在计算公约义素时,同一支中不同场层具有正、负相反值的同一个义素要去除。
区别性我素:
在同位之间,对两个义位起鉴别作用的义素称为区位性义素。
这种义素必须是另外的同位正负取值完全相反的义素。
例如:
“微生物”的三个义素中与“动物”的区别性义素是“感觉”和“微型”,与“植物”的区别性义素是“微型”。
区别性义素并不只存在于分类义场。
义位变体:
一级同义词(指其相同的义项)处于同一个义位,即同一结点。
其中一个词称为主词(或主项),其他的称为这个主项的义位变体。
例如:
图六中的“电脑”,在方框左以[]标出。
2.构件义场(用符号J来代表)
构件义场有人称为“总体部分义场”。
处于构件义场中的义位总是其上位的一个构件,弧线所瓜的上下位关系是“整体与构件关系”。
这种关系与分类义场中的上下位关系的区别在于:
Ja=Jx1+Jx2…+Jxn
但:
“凡Jx都是Js”不成立,代之以:
凡Jx都是Js的一个构件
分类义场反映的是总体和部分的组成关系即:
“动物”是“生物”的一部分,“鸟”是“动物”的一部分。
构件义场反映的是整体和构件的构成关系。
参见图七:
图七是构件义场的图,粗看起来与分类义场的图没有什么差别,也有文位和弧线,也有上位、下位、同位和场层。
但弧线所反映的上下位关系却不一样,我们可以用改变弧线颜色或把弧线变粗的谋方法表示这种关系的不同。
在构件义场中,我们可以说:
“四肢”的构成部分是“上肢”+“下肢”等等。
也可以说:
“头”是“人”的一部分;
“上肢”是“四肢”的一部分;
“手”是“上肢”的一部分;
“手指”是手的一部分。
“人”的构成部分是“头”+“颈”+“躯干”+“四肢”…
但绝不可以如分类义场一样,说:
“四肢”是“人”;
“上肢”是“四反”;
“手”是“上肢”;
“手指”是“手”;
“指甲”是“手指”等等。
自然,分类义场中的公约义素及其继承关系在构件义场中也就不存在了。
值得注意的是在图七的上方的粗简头,它将构件义场中的“人”(J“人”)与分类义场中的“人”(F“人”)连接起来,使两个不同的义场(F场与J场)发生了联系,这样,“F人”的所有下位(如:
男人、女人、老人、妻子、教师、工人、总理、叔叔、流氓、哑巴、司令等)都拥有了“J人”的下位构件。
目前,我们制定的构件义场的《纲要》是与分类义场的分析同步的。
例如图八(“抽象物”的构件不在其中):
图八中的J义场的不同构件分别与F义场的相应义位发生了关系(图中粗箭头所示)。
到此为止,由于横向关系的建立,一个静态语义网开始形成了。
分类义场和构件义场是两个最主要的义场,我们一共建立了十种不同类型的语义场并在此基础上建立义场之间的横向关系。
这种横向关系在同一种义场的内部也是随处可见的。
例如:
同属分类义场的“小麦”(植物类)、“面粉”(原料类)、“面包”(食品类)、“面包师”(人类)显然存在着一种潜在的横向联系,这种广泛联系关系在人脑中是存在着的,电脑只能一步一步模拟。
在静态语义网的建立过程中,比较起来,最困难的不是确结点(义位),而是确定弧线(义位关系),包括确定弧线类型和建立横向弧关系两个方面。
结束语
受篇幅和常识所限,我们不能再继续展开论述。
随着研究工作的进展,我们将陆续发表有关语义研究方面的文章,以求得专家学者的批评指正并与正在致力于这方面研究的国内外同仁共勉。
参考文献
(1)《语义学》利奇
(2)《语义学导论》贾彦德
(3)《关于语义词典构造的一些初步设想》黄昌宁
(4)《逻辑语义及其在机译中的应用》董振东
(5)《汉语信息处理中的语义网络和谓词框架》鲁川
(6)《语义表达的一些性质》张潮生
(7)《汉语语义结构示法》周经野
(8)《汉语分析中的词汇语义驱动》姚天顺
(9)《人工智能原理讲义》石纯—黄昌宁王家钦
(10)《论汉语信息处理与语境研究》张普