生成词库理论的最新发展文档格式.docx
《生成词库理论的最新发展文档格式.docx》由会员分享,可在线阅读,更多相关《生成词库理论的最新发展文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
包括论元的具体数目、类型以及如何实现到句法层面。
2)事件结构(EVENTSTRUCTURE):
事件类型包括状态(state)、过程(process)和转变(transition),like、run和build分别属于这三种事件类型;
事件可能有子事件(subevent);
说明哪个事件是核心事件(coreevent);
说明事件的组合规则,比如事件发生的先后顺序。
3)物性结构(QUALIASTRUCTRE):
描写词项所指对象(object)由什么构成、指向什么、怎样产生的以及有什么用途或功能。
包括构成特征(constitutivequale)、形式特征(formalquale)、功用特征(telicquale)和施成特征(agentivequale)。
这四个特征通常被称为构成角色(constitutiverole)、形式角色(formalrole)、功用角色(telicrole)和施成角色(agentiverole)。
物性结构最早源于亚里士多德的“四因说”(Aristotel’sfourcauses):
质料因、形式因、目的因和动力因。
A.构成角色:
描写对象与其组成部分之间的关系。
包括材料(material)、重量(weight)、部分和组成成分。
B.形式角色:
描写对象在更大的认知域内区别于其它对象的属性。
包括方位(orientation)、大小(magnitude)、形状(shape)和维度(dimensionality)等。
C.功用角色:
描写对象的用途(purpose)和功能(function)。
D.施成角色:
描写对象怎样形成或产生的,如创造、因果关系。
功用角色有两种,一种是直接功用角色(directtelic),人可以与某物发生直接联系,如beer的功用角色是drink;
另一种是间接功用角色(purposetelic),指某个事物可以用来协助完成某个活动,如knife的功用角色是cut。
(1)a.drink-beer
b.cutwithaknife
以“小说”为例,它的构成角色是“故事”等,形式角色是“书”,功用角色是“读”,施成角色是“写”。
不是每个词都具有所有的角色。
物性结构实际上是说明与一个词项相关的事物、事件和关系,表达的是一个词项中典型的谓词和关系,是范畴交叉的表征工具,物性结构为词提供功能标签,把词与概念网络联系起来,是概念逻辑的组织原则。
一个词项α的词汇语义表达式通常如
(2)所示(Pustejovsky2005):
(2)
(3)是book(书)的词汇语义表达式:
book有两个论元,一个指物质实体,一个指信息,book是二者合并的一个词汇概念范式(lexicalconceptualparadigm,lcp,见第3节),它的形式角色是hold,表达的是物质实体里装载着信息,功用角色是read,施成角色是write(Pustejovsky1995:
116)。
(3)
(4)是kill(杀死)的词汇语义表达式:
kill有两个论元,一个指个体的物质实体,一个指有生命的物质实体;
kill包括两个子事件,一个表过程KILL(杀),一个表状态DEAD(死),第一个事件是整个事件的核心。
kill是个表致使的词汇概念范式,其施成角色是KILL这个动作,其形式角色是DEAD这个状态(Pustejovsky1995:
101)。
这部分的分析与词义分解沿袭自生成语义学(Generativesemantics)的分析。
(4)
图1:
词汇类型结构中的继承关系
4)词汇类型结构(LEXICALTYPINGSTRUCTURE):
说明一个词项在一个类型系统中的位置,即一个词项的类。
这决定了此词项与其他词项的关联方式,也就是继承关系。
这个层面的词义与常识直接相关。
这一层面在早期的理论框架中(Pustejovsky1995)叫词汇继承结构(lexicalinheritancestructure)。
如图1所示(Pustejovsky1995:
145),一个词可以从多个上层继承特征,dictionary(词典)从reference(参考书)继承功用角色consult(参考),从compiled_matter(编纂物)继承施成角色compile(编纂),从book继承形式角色hold(容纳);
play从book继承形式(F)、功能(T)和施成角色(A),book从information继承功能和施成角色,从Phys_obj(物质实体)继承形式角色。
但近十几年来,Pustejovsky等学者对这一部分做了很大改动,主要基于物性结构中的功用角色,把词汇的类型分为自然类、人造类和合成类,并据此建构了其整个语义类型体系。
下文将单列一节来重点介绍和评述这一体系。
3.语义类型体系
生成词库理论假设人类的认知能力反映在语言中,尤其反映在心理词典(mentallexicon)中,这个词典是复杂、动态(dynamic)而又连贯的知识系统,是结构化的语言学操作(structurallinguisticoperations)和生成意义的组合规则之间的接口(interface)。
词汇按其所代表的意义内容分为自然类、人造类和合成类(Pustejovsky2001,2006)。
1)自然类(naturaltypes):
与物性结构中的形式角色和/或构成角色相关的原子概念,从上位类继承形式角色,是其他类的基础,谓词来自于物质域。
例(5)中的rabbit就是自然类名词:
(5)Therabbitdied.
2)人造类(artifactualtypes):
增加了功能概念,从上位类继承功用角色,是结合了物性结构中施成角色和功用角色信息的基础类型,谓词也与这两个角色相联系。
自然类和人造类之间最大的区别是后者有“意图”(intentionality)。
good是评价性的,与“意图”相关,(6a)可以说而(6b)不可以说就是因为chair是人造类而rock是自然类。
(6)a.Thisisagoodchair.
b.*Thisisagoodrock.
具体到一个特定的名词,都会跟自然类和人造类发生联系,人造类也需要物质继承,必然与自然类相联系。
如beer是自然类liquid结合了施成角色brew、功用角色drink;
knife是自然类phys结合了施成角色make、功用角色cut。
(7)a.beer:
(liquid⊗Abrew)⊗Tdrink
b.knife:
(phys⊗Amake)⊗Tcut
另如beverage(饮料),它的基础类(groundtype),也就是它的自然基础是liquid(液体),它本身是人造类,与功用角色drink相联系。
这个类型可以记作liquid⊗drink,是张量类型(tensortype),⊗是张量类型构造器(thetensortypeconstructor),⊗把一种物性关系引入到一个类型,使之成为这个类型的一部分。
根据不同的具体功能,beverage又可以细分为下面的小类(Pustejovsky2001):
图2:
beverage的下位类
这样,通过继承,人造类就有多个功用角色,有的离得近,有的离得远。
如coffee(咖啡)就有两个功用角色,一个是继承来的drink(喝),一个是自身的wake-up(提神),咖啡要喝了才能提神,继承的功用角色可以看成是根植在物性结构功用角色中的施成角色,如(8)所示(Pustejovsky2001):
(8)coffee:
liquid⊗tdrink⊗twake-up
指人的名词也有自然类和人造类之分,如图3所示,doctor、surgeon都是人造类名词:
图3:
自然类与人造类的类型继承
3)合成类(complextypes):
在GLT中又常被称为“点对象”(dotobject),因为其类型构造以一圆点为代表,由自然类和人造类组成,从两三个自然类和/或人造类继承角色。
合成类在描写中以lcp标记:
把一个词的不同词义合并到一个元词项(meta-entry)中,这个元词项叫词汇概念范例(lexicalconceptualparadigms,lcp),这样可以大大缩小词库的规模。
如上文中例(3)所示,book就是一个合成类phys·
info,是phys_obj(物质实体)与information(信息)合成的,它的形式角色(formal)反映了二者之间的关系是hold。
另如:
EVENT·
INFO:
lecture,play,seminar,exam,quiz,test
PHYSOBJ:
lunch,breakfast,dinner,tea
(INFO·
SOUND):
concert,sonata,symphony,song
lecture是事件和信息合成类,既指一个事件,同时带有信息内容;
lunch是事件和物质实体的合成类,既指一个有时间过程的事件,也指具体的食物。
依此类推。
三大语义类的区分是以名词为出发点的,动词、形容词根据其与名词语义类的对应关系也相应地分为三大类,如上文例(5)中的rabbit是自然类,die就是自然类。
图4是三大范畴的上层分类,最上层概念被结构化成实体、性质和事件三个域,每一个域又被结构化成自然类、人造类和合成类,由简单到复杂(Pustejovsky2001)。
T
EntityEventQuality
NaturalArtifactualComplexNaturalComplex
ArtifactualNaturalArtifactualComplex
PhysicalAbstractDirectPurposebook
dieeatreadredheavygoodrising
CountMassInfocoffeeknifedangerousfrightened
图4:
三分的概念网格(TripartiteConceptLattice)
下面是三大主要范畴的分类举例:
1)名词
自然类N:
rock,water,woman,tiger,tree
人造类A:
knife,beer,husband,dancer
合成类C:
book,lunch,university,temperature
2)动词
fall,walk,rain,put,have
donate,spoil,quench
read,perform
3)形容词
red,large,flat
useful,good,effective
rising,frightened
生成词库关于词项的语义描述,最大的特色在于增加了物性结构,把名词词义与经验知识相结合,把名词与动词相联系,尤其是功用角色的引入,直接影响了其语义类型体系。
其具体特点和贡献在于:
1)通过物性结构,把日常经验知识与词汇语义连接在一起。
关于语言知识与非语言知识的问题一直是语义研究中的一个难题,传统的语义学认为语言知识与非语言知识有明显的界限,必须加以区分,后者不是语言研究的对象(利奇1974);
认知语言学(Langacker1987;
Lakoff1987;
Taylor1989)则认为语言知识和非语言知识没有明显的界限;
框架语义学(Fillmore1982)也认为语言的理解要引入非语言知识的背景。
不是所有的日常经验知识都有其语言学价值,生成词库理论通过物性结构中的构成角色、形式角色、功用角色和施成角色把与词汇语义相关的经验知识引入了词义的描写中,为经验知识与语言知识提供了接口。
研究表明,这些物性角色能解释很多语言现象,具有较高的语言学系统价值。
2)区分了自然类与人造类。
在与名词相关的动词中,生成词库理论更强调表功用角色的动词,并以此为依据把名词分为自然类与人造类,这种区分是根本性的,会造成语言表达层面的差异,例如:
A.自然类不能做联合谓语(co-predication),人造类可以。
(9)*Thatisadogandacat.
(10)a.Thatisapenandaknife.
b.Sheisateacherandamother.
B.被形容词修饰时,自然类只允许一种解释,人造类则可以有另外的解释。
(11)beautifulflower
(12)longrecord/disk.(东西长或者播放时间长)
C.自然类从上下文获得强迫语义(coercedmeaning),人造类为上下文提供强迫语义。
(13a)没有默认的上下文,需要从上下文获得解释,而(13b)默认的解释是write或者read。
(13)a.Ibeganthetree.
b.Ibeganthebook.
区分自然类的都是一些对立结构(oppositionstructure)如male/femal、alive/dead,谓词是自然类谓词,如swimming、flying、walking等;
区分人造类的则是功能行为(functionalbehavior),因此具有一定的任意性,不同的语言可能有差异。
自然类与人造类的区分并不是Pustejvosky最早提出的,很多学者早已经注意到这一点:
Labov(1973)的用品辨认实验表明,功能/用途会决定识别结果;
Pulman(1983)讨论了自然类范畴(naturalkindcategories)和名义上的类范畴(nominalkindcategories),与自然类/人造类的区分相当;
Wierzbicka(1985)指出,属性不是与物体本身有关,而是与物体在特定文化中的作用有关;
Taylor(1989)指出事物的属性有时是功能的,决定物体的用途,有时是人与物之间的相互作用(interactional),反映人们怎样运用某物;
平克(1995)也认为,自然类与人造类是很重要的区分。
在Wordnet、HowNet的语义分类中也有自然物与人工物的区分。
生成词库理论的贡献在于把自然类和人造类的区分与动词联系起来,并加以形式化,把动词纳入到名词语义的表达式,进而把这种视角扩展到了指人的名词,甚至形容词和动词,从而重建了整个语义类型架构,并把这种区分渗入到了语言的各个层面。
3.引入多重继承(multipliedinheritance)。
对于一个词,不是简单在结构树中放置,而是由下往上从不同的树枝继承不同的物性角色,避免了重复放置的问题。
4.语义生成机制
生成词库理论认为,词汇的意义是相对稳定的,只是在组合中发生变化,这种变化是由语义生成机制(GenerativeMechanismsinSemantics)来实现的。
Pustejovsky(1995)把这一机制分成了三类:
类型强制(typecoercion),选择约束(selectivebinding)和共同组合(co-composition)。
近年来,这一机制有了很大改变,主要是把类型强迫纳入了语法上的论元选择机制,这样,根据论元选择的具体情况,就有三种论元选择生成机制(GenerativeMechanismsofArgumentSelection)可以解释词项在组合中的句法和语用表现(Pustejovsky2005,2006;
AsherandPustejovsky2005,2006):
1)纯粹类型选择(pureselection):
函项(function)要求的类型能被论元直接满足。
2)类型调节(typeaccommodation):
函项要求的类型能从论元继承。
3)类型强迫(typecoercion):
函项要求的类型被强加到论元上,通过两种方式来实现:
(ⅰ)利用(exploitation):
选择论元类型结构的一部分来满足函项的要求。
(ⅱ)引入(introduction):
用函项要求的类型来包装论元。
表1是各种机制出现的环境:
只有当论元类型(argumenttype)与要求的类型(typeselected)匹配时,才可能是纯粹类型选择;
同样的,类型调节也只用于相同的类型域(typedomain);
如果类型域不一样,类型强迫就会起作用;
当论元类型比要求的类型复杂时,是类型利用,反之,则是类型引入(Pustejovsky2006)。
TypeSelected
ArgumentType
Natural
artifactual
Complex
Sel/Acc
Intro
Exploit
表1:
三种论元选择生成机制的出现环境
接下来略举数例来说明上述机制。
1)纯粹类型选择。
fall需要一个指物质实体的类型phys,rock能直接满足这个要求,(14)是一个纯粹类型选择的例子。
(14)Therockfell.(纯粹类型选择)
read要求与之组合的名词是合成类Phys•Info(物质实体•信息),book可以直接满足这个要求,(15)也是纯粹的类型选择:
(15)Johnreadthebook.(纯粹类型选择)
VP
VPhys•InfoNP:
Phys•Info
readDetN
thebook
2)类型调节。
(16)中的wipe要求宾语论元有surface(表面),hands虽然不能直接满足要求,却可以从它的上位类phys(物质实体)那儿继承一个surface,这就是类型调节。
(16)Marywipedherhands.(类型调节)
VsurfaceNP:
Phys
wipeDetN:
body_part
herhands
3)类型强迫。
burn要求与之组合的名词是自然类Phys(物质实体),合成类book(Phys•Info)不满足要求,但其类型结构中的一部分(Phys)能满足要求,(17a)是类型强迫中的类型利用;
believe要求与之组合的名词是Info(信息),也可以从book(Phys•Info)中选择一部分(Info)来满足,(17b)也是类型强迫中的类型利用:
(17)a.Thepoliceburnedthebook.(类型强迫:
利用)
b.Marybelievedthebook.(类型强迫:
VPhysNP:
burnDetN
VInfoNP:
believeDetN
read要求宾语论元是合成类Phys•Info,而rumor的类型是info,不能满足其要求,类型强迫机制就会给rumor引入一个新的类型Phys•Info,这是类型强迫中的类型引入。
(18)中的rumor一定有某种物质实体做载体,比如报纸。
(18)MaryreadarumoraboutJohn.(类型强迫:
引入)
VP
Phys•Info
arumor:
Info
begin是个事件动词(eventiveverb),要求其补足语(complement)是一个事件论元,句法上通常表现为一个动词短语VP(readthebook/writethebook),(19a)和(19b)能满足这种语义选择(s-selection),是纯粹类型选择;
而(19c)在句法层面却实现为一个指事物的名词短语NP(thebook),这样就会出现类型不匹配(type-mismatch),因此begin就会强迫(coerce)这个NP进行类型转换(typeshift),变成事件类型,这种强迫是通过名词book物性结构中的施成角色write或功用角色read实现的。
这也是类型强迫中的类型引入,为一个实体类型book引