面向自动句法分析的名词再分类研究.docx

资源描述

面向自动句法分析的名词再分类研究.docx

《面向自动句法分析的名词再分类研究.docx》由会员分享，可在线阅读，更多相关《面向自动句法分析的名词再分类研究.docx（6页珍藏版）》请在冰豆网上搜索。

面向自动句法分析的名词再分类研究.docx

面向自动句法分析的名词再分类研究

————————————————————————————————作者：

————————————————————————————————日期：

面向自动句法分析的名词再分类研究-汉语言文学

面向自动句法分析的名词再分类研究

摘　要：

词类划分是为句法分析服务的，名词的再分类也必须遵循这一原则。

但就现有的名词细类看，由于在分类时为句法分析考虑得不够充分，所以划出的小类对自动句法分析难以起到应有的作用。

鉴于此，本文一改过去那种为了把某词放到合适的词类中而找“特点”的做法，按照词的句法分布，详细描述每个词的句法功能。

按照句法功能总和相同即为一类的标准为名词进行再分类，以期为自动句法分析提供客观依据。

关键词：

句法结构句法分析句法功能词类

一、引言

自动句法分析是自然语言处理中的一个重要课题，其任务是将句子中的词之间的线性序列转换成具有结构的分析树。

一般来说，自动句法分析的操作对象是句子或短语的词类标记序列，要想使计算机能够准确地分析词类标记序列的内部关系，必须为它提供完备的语法知识。

对于简单的NP+VP→S这种模式的词类标记序列，现有的词类知识能够很好地为自动句法分析服务，但对于嵌套的名词结构如“经济体制改革”或者是在句法结构上存在远距离依存关系的短语等具有多层次较复杂的情况来说，必须为它提供更多的词类知识。

但遗憾的是，现有的语法知识中的词类知识是粗糙的和不完备的，难以支持自动句法分析。

以现有的名词细类为例，具体地说有以下几个问题：

名词究竟有哪些语法功能并不清楚，一般语法书只列举几条“语法特点”，例如，说名词可受数量结构修饰，不受副词修饰，可以作主语、宾语等等。

但即便是这几条语法特点，往往也缺乏普遍性；都标记为“N”的名词，有的词相互间的语法功能却相差很大，一般的名词可以作主语、宾语、定语、体词性偏正结构的中心语等，而“年间”“时”等只具有上述的最后一种功能；缺乏词的各种语法功能的定量描写，上述问题都给计算机进行自动句法分析带来一定的困难。

鉴于这种情况，我们主张“按照词的句法分布，根据其充当句法成分的功能来对名词进行分类，语法功能总和相同即为一类。

说一个词能充当主语，等于说它能在主谓结构里作第一个直接成分；说一个词能充当宾语，等于说它能在述宾结构里作第二个直接成分。

这样，我们就是用句法结构来作为名词归类的测试环境，换言之，是从句法结构推导出词类。

这种做法能使词类划分更直接地为句法分析服务。

”①

二、名词句法功能信息库的构建与实现

（一）名词句法功能信息库属性字段的确立

名词句法功能信息库旨在考察每一个名词具体的句法功能，然后根据句法功能的总和来确定词类的总数。

也就是说，只要句法功能的总和相同，这样的词就归为一类。

既然是从句法结构推导出词类，我们首先就要确定句法结构的种类以便统计列出句法成分的清单，然后详细考察每一个词。

只要能充当所列清单中的成分，我们就标记为“1”，如果不具备某项功能，就标为“0”。

我们为名词分类而采用的句法结构共8种，句法成分共21种，具体如下表：

关于这8种结构，有以下几点说明：

1.并列结构跟句法分析没有多大关系，即便是强调它也作句法成分，其功能已经包含在上述八种结构中，所以没有必要列出。

2.中心语用下标作区别的意义在于考察名词是否能直接受其他词的修饰。

3.对定语用下标作区分的意义在于考察名词是否能直接作定语，状1、状2也属于类似的情况，只不过句法成分是状语而已。

4.在“定‘的’中结构”里作第一直接成分的，绝大多数情况下也能在“的”字结构里作第一直接成分，所以没有列出“的”字结构这一项。

（二）句法功能统计的原则

要确定这么细致的句法成分，对于一些复杂情况的定类必须遵循一定的原则：

1.主谓结构作宾语时，只统计结构内部各成分的功能，不考虑整个结构的外部功能。

如“我们听说学校开除了两名夜不归宿的学生”这句中的“学校”看作主语，不考虑它在整个句子中的句法功能。

2.兼语记入宾语，如“这件事情让公司处理吧”，这里的“公司”看作宾语。

3.联合结构、同位语结构中的成分按其整体功能标记，如“老师学生同台演出”中的“学生”看作句子的主语；“在一架钳工工作台前，一位穿蓝大褂的中年人注视着孩子们，他是教师塔吉耶夫。

”这里的“教师”看作句子的宾语。

4.方位结构一律按定中结构处理，如“从电视上学到不少东西”中的“电视”看作“上”的定语。

5.“的”字结构作主语或者宾语的，按定语处理。

如“个人的利益要服从集体的”中的“集体”看作定语。

三、基于语料库统计的名词细分类及其对句法分析的作用

（一）名词的细分类

我们随机抽取了1998年《人民日报》语料中的高频名词100个，每个名词随机抽取100个例句进行句法分析，根据分析结果构建了一个小规模的语料库，下面略举几例以便说明

从上表的统计结果可以看出，名词的句法功能是复杂多样的，但并非如有些学者所想象的那样一词一类。

按照句法功能总和相同即可归为一类的原则，通过分析统计，这100个词分属于73类。

这个数目，对于我们人来说是太大了，掌握起来比较困难，但却给计算机自动句法分析带来了方便。

因为属于同一词类的词，其语法功能是完全相同的。

原有的名词细类的确在数量上要远远少于这种分类方法的结果，但是我们通过分析发现，原来归为不同小类的名词，其语法功能是完全相同的，我们不妨通过分类结果来剖析这个问题，句法功能完全相同的14类列举如下：

1.社会、企业、市民

2.行为、结构

3.危机、素质

4.工程、家庭、效益

5.区域、产品、群众、军队、专家

6.办法、成绩

7.内容、原因、经验

8.资源、土地

9.方法、现象

10.情况、条件、力量

11.事业、目标、成果

12.城市、价格、信息、学生、教师、农民

13.环境、人才

14.商品、理论、思想

按以前的标准，上述14类中有些功能相同的却分属不同的小类，而功能不同的却归为相同的类。

比如上面的第5小类中的5个名词，按彭睿先生的划分标准要分属三类：

“群众、军队、专家”属于群体类的；“区域”属于地域类的；“产品”属于实体类的。

这本该是句法功能完全相同的一类却分成三类，势必对句法分析带来困难，背离了词类为句法分析服务的宗旨。

100个词73类，对于人来说，分得是过于细致了，但对于机器来说分得越细提供的句法功能信息就越多，越有利于句法分析。

这73类并不是不可归并的，如果只是粗略地按照五大成分（谓语除外）来划分的话，这73个小类可以归并为5大类：

1.能作主语、宾语、定语的名词（占81％），如：

政府、设施、水平。

2.能作主语、定语的名词（占1％），如：

金融。

3.能作主语、宾语、定语和补语的名词（占9％），如：

地区、医院、市场。

4.能作主语、宾语、定语和状语的名词（占8％），如：

集体、电话、重点。

5.能作定语和状语的名词（占1％），如：

电子。

（二）名词细类对句法分析的作用

在谈划分出的名词细类对句法分析的作用之前，我们先看看利用原有的名词细类进行句法分析存在哪些困难。

前面已经提到，自动句法分析的操作对象是句子或短语的词类标记序列。

如果词类标记序列比较单一的话，传统的分类方法是能够很好地为句法分析服务的。

如：

“我喜欢音乐”这样一个线性序列，机器能够准确地把它转换成下面的分析树：

但对于嵌套的名词结构如前面所举的“经济体制改革”或者是在句法结构上存在远距离依存关系的短语、有歧义的结构等具有多层次较复杂的情况来说，仅有简单的词类标记序列机器是很难分析出正确的结构关系的。

如“经济体制改革”，仅凭“N+N+N”这样的标记序列，计算机很难确定究竟是第一个名词修饰后两个名词还是前两个先结合然后修饰第三个，因此它可能给出两种分析结果：

“经济/体制改革”或者是“经济体制/改革”。

而我们的名词细类，因为详细考察了每个词的语法功能，所以它可以解决原有的词类知识无法解决的问题，具体表现在以下几个方面：

1.可以正确分析多层嵌套的名词结构

汉语句子中，有许多名词嵌套的情况，连续的几个名词之间究竟是并列关系还是修饰关系，究竟是前一个修饰后几个，还是前几个修饰后一个，仅凭词性标记序列，系统很难作出正确地判断。

但我们的细类因为是在详细地考察了每个成员全部的句法功能后确定的，它给系统提供的不再是笼统的一个词类标记，而是每个词所有的句法功能，所以系统会根据每个词的具体功能以及前后词的句法功能信息进行正确地分析。

比如“学校生活丰富多彩”，其中的“学校生活”，人们一看就知道是定中结构的，但只给机器提供词类标记，它很难确定究竟是并列还是偏正，有了每个词的句法功能信息后就大不一样了。

首先，它会比对上表中有关“学校”的句法功能，发现它具有“中1定1”的功能，也就是说它可以直接修饰名词，然后再根据“生活”的句法功能信息进行选择，“生活”有“中1主”的功能，就是说它要求前面的一个词能作定语，它充当这个定语的中心语后作主语，利用这样一个互信息，我们就可以确定两者的关系是定中而不是其他的。

2.能够有效地分析句法上的歧义结构

我们知道，“N+V→NP”和“V+N→VP”这两条句法规则都可以有两种句法结构，前者可以是主谓结构和定中结构，后者可以是动宾结构和定中结构。

单纯地看词性标记序列，很难确定一句话中这样的规则究竟是什么结构关系，但是我们提供的名词细类，既给出了每一个词的所有的句法功能，也对每项句法功能进行了定量的描写。

有了这样的定量描写。

机器就可以根据具体词每一项句法功能的概率来确定其最终的句法关系，从而作出正确的句法分析。

例如“工程改造已经结束”中的“工程改造”，“工程”单独作主语的几率只有1％，而作定语的几率是7％，根据这个比率，我们会优先确定该结构是定中结构的而不是主谓结构。

如果量的分析还不能使其作出正确分析，再考虑其后的“改造”具有哪些功能，根据上面所说的利用前后词的句法功能的相互限制最终作出正确的分析。

3.对在句法结构上存在着远距离依存关系的句法成分能够进行有效地分析

在汉语句子中，有一些离中心词较远但又跟中心成分存在依存关系的成分，这样的成分，单靠词性标记序列，机器是难以作出正确的分析的。

如“这一举措具有十分深远的，不可磨灭的伟大的历史意义”这里的“意义”受四层修饰语的限制，它的词性标记序列为“r+m+n+v+d+a+u+d+v+u+a+u+n+n”，如果我们不看上面的原句，单看这一串词性序列，是很难对该句进行正确地句法分析的，更不用说缺少语法知识的机器了。

但是如果知道了“意义”具有“中1宾1”这项功能，我们就很容易地能分析出它在句中作宾语。

越长的句子，其相互限制的条件就越多，其结构的可选择性就越小，分析结果的正确率就越高。

四、结语

由于时间仓促，我们构建的语料库规模比较小，尽管如此，我们发现按这种方法划分词类是可行的，具有一定的可操作性。

虽然这100个词中有59个词是独成一类，但毕竟规模太小。

如果语料足够大，相信这种情况会大大减少，会做到“词有定类，类有定职”，这必将为句法分析带来很大的方便。

只有这种真正意义上的以句法功能为标准划分出的细类才能为句法分析服务。

这只是我们工作的开始，在后续的工作中，我们将遵照这种原则和方法，为自动句法分析重建词类体系，只要句法功能总和相同，不管是所谓的名词还是所谓的动词，都可以归为一类。

汉语的词类划分和词的归类问题，是中文信息处理领域的基础性研究问题，希望通过我们的工作，能对自动句法分析提供一定的依据。

（本文得到教育部人文社科基金项目“基于语法功能匹配的自动句法分析研究[11YJA740118]”的资助。

）

注释：

①陈小荷.从自动句法分析角度看汉语词类问题[J].语言教学与研究，1999，（3）.

参考文献：

[1]郭锐.现代汉语词类研究[M].北京：

商务印书馆，2003.

[2]胡明扬.词类问题考察[M].北京：

北京语言学院出版社，1996.

[3]胡明扬.语言学论文集[M].北京：

商务印书馆，2003.

[4]刘顺.现代汉语名词的多视角研究[M].上海：

学林出版社，2003.

[5]罗振声，袁毓林.计算机时代的汉语和汉字研究[M].北京：

清华大学出版社，1996.

[6]莫彭龄，单青.三大类实词句法功能的统计分析[J].南京师大学报（社会科学版），1985，（3）.

[7]彭睿.名词和名词的再分类[A].词类问题考察[C].北京：

北京语言学院出版社，1996.

[8]史存直.句本位语法论集[M].上海：

上海教育出版社，1996.

[9]张斌.汉语语法学[M].上海：

上海教育出版社，2003.

[10]朱德熙.语法讲义[M].北京：

商务印书馆，1982.

（徐艳华山东烟台鲁东大学文学院264025）

展开阅读全文