基于清华树库的有标记联合结构统计分析文档格式.docx
《基于清华树库的有标记联合结构统计分析文档格式.docx》由会员分享,可在线阅读,更多相关《基于清华树库的有标记联合结构统计分析文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
吴云芳[9]以中文信息处理为出发点,全面考察了现代汉语中的并列结构,但语料库的规模相对偏小并且语料加工的深度不够,在一定程度上导致了得出的结论量化性不强或覆盖面不全。
苗艳军等[10]从自动识别有标记联合结构的角度对该结构进行了初步的分类并总结了一些该结构的句法特征,但没有考有标记联合结构嵌套的情况。
在上述研究的基础上,本文基于大规模清华汉语树库,全面考察了组成有标记联合结构的词性序列和短语序列等内部特征,系统分析了有标记联合结构充当的句法成分和与其有关的左右边界特征词等外部特征。
这些有标记联合结构语言学特征的考察,一方面可以为研究有标记联合结构提供量化的数据,另一方面也可以为自动识别有标记联合结构提供详尽的语言学知识。
2本文的研究方法和所使用的语料库
本文在考察有标记联合结构的语言学特征的过程中所使用的方法主要是统计的方法,同时由于统计数据主要来源于清华汉语树库(TCT973),自然会用到语料库的方法。
下面简单介绍一下清华汉语树库[11]。
清华汉语树库的语料是从大规模的经过基本信息标注(切分和词性标注)的汉语平衡语料库中,提取出100万汉字规模的语料文本,经过自动断句、自动句法分析和人工校对,形成高质量的汉语句法树库语料。
具体的情况可以通过表1和表2来说明。
表1清华汉语树库的基本统计数据
文体
文件数
句子数
词项数
汉字数
平均词长(词/句)
文学
139
16335
340208
415040
20.83
新闻
154
6877
173942
246757
25.29
学术
15
5589
158780
240289
28.41
应用
195
3169
66586
97924
21.01
合计
503
31970
739516
23.13
表2清华汉语树库的句子长度分布数据
简单句子
复杂句子
平均长度
9692
102895
10.62
6643
237313
35.72
3025
34023
11.25
3852
139919
36.32
2021
24204
11.98
3568
134576
37.72
1870
16946
9.06
1299
49640
38.22
16608
178068
10.72
15362
561458
35.90
其中有标记联合结构在清华树库中被标成了“xx-LH”具体如下“[vp-PO参与/v[np-DZ[np-DZ[np-LH[np-DZ社会/n产品/n]和/c国民收入/n][np-LH分配/vN、/、再分配/n]]活动/n]]”,在这个例子中存在两个“np-LH”有标记联合结构,并且是嵌套关系。
3内部特征考察
本文考察有标记联合结构的内部特征,主要从下面这两个方面进行,有标记联合结构内部的词性序列分布和有标记联合结构内部的短语序列分布。
3.1有标记联合结构内部的词性序列分布
从100万字的清华语料中统计出了12362个有标记联合结构的词性序列,表3列出了频次居于前十四位的词性序列。
表3有标记联合结构内部词性序列分布
词性标记序列
频次
具体例子
名词+联合标记+名词(n+c+n)
1776
国家/n和/c民族/n
名词+联合标记+名词(n+w+n)
551
老专家/n、/w老朋友/n
动词+联合标记+动词(v+c+v)
533
产生/v和/c维持/v
动名词+联合标记+动名词(vN+c+vN)
358
交流/vN与/c合作/vN
名词+联合标记+名词+联合标记+名词(n+w+n+w+n)
250
技术/n、/w信息/n、/w产权/n
形容词+联合标记+形容词(a+c+a)
233
炎热/a与/c寒冷/a
名词+名词+联合标记+名词+名词(n+n+c+n+n)
219
战略/n思想/n和/c战术/n问题/n
名词+联合标记+名词+联合标记+名词(n+w+n+c+n)
157
价格/n、/w年限/n和/c用途/n
动词+联合标记+动词(v+w+v)
145
干预/v、/w控制/v
指人专名+联合标记+指人专名(nP+c+nP)
130
何其芳/nP和/c毕焕午/nP
名词+联合标记+名词+名词(n+c+n+n)
120
国债/n和/c金融/n债券/n
名词+联合标记+名词+联合标记+名词+联合标记+名词(n+w+n+w+n+w+n)
109
钙/n、/w磷/n、/w铁/n、/w锌/n
指人专名+联合标记+指人专名(nP+w+nP)
95
孙蔚如/nP、/w赵寿山/nP
形容词+联合标记+形容词(a+w+a)
93
直观/a、/w形象/a
从表3可以看出,频次在前十四位的有标记联合结构占据了整个有标记联合结构的37.83%,而在其他统计中频次为一次的为35.88%。
这两组数据说明了有标记联合结构的词性序列分布呈现两极化,一方面向频率高的靠拢,另一方面向频率极端低的接近。
从频次在前十四位的词性序列中可以观察出,有标记联合结构内部的词性主要是下面这些,名词(n)、指人专名(nP)、动词(v)、动名词(vN)、形容词(a)。
由此可以看出,在这些联合结构中,构成有标记联合结构的词语集中在名词、动词和形容词上,主要是名词上。
从频次在前十四位的有标记联合结构的词性序列中可以看出,单层单标记联合结构在整个语料库中占居了81.72%,并且这些单层单标记联合结构充分体现出了有标记联合结构的特征:
有标记联合结构中心语的相似性和有标记联合结构的结构平行性,例如:
“奢侈/a或/c节俭/a,动物界/n和/c植物界/n”,这些词性序列的分布,为用规则来识别有标记联合结构提供了充分的条件。
这些词性序列的分布,为用规则来识别联合结构提供了充分的条件。
词性序列频次低于93的有标记联合结构内部比较复杂,中心语相似和结构平行性的特征体现的不是很充分,由于语言现象的复杂性,有些根本就没有体现,例如:
“[np-LH[np-AD客观/a的/u]、/w[np-DZ[dj-ZW价值/n中立/v]的/u[np-DZ科学/n活动/n]]]”和“[vp-LH[vp-ZZ更/dD[vp-PO适/v[np-DZ[np-DZ人体/n[ap-LH卫生/a和/c美观/a]]要求/n]]]以及/c[dj-ZW[np-LH[np-DZ工农业/n生产/vN]、/w国防/n]特需/v]]”,这两个有标记联合结构的词性序列就没有特征可查、更无规则可循。
类似的有标记联合结构规则出现频次低,并且总量大,用基于规则的方法基本上无法识别,必须借助统计的方法来处理。
3.2有标记联合结构内部的短语序列分布
本文基于清华汉语树库,用统计的方法详尽地统计和分析了有标记联合结构内部的短语分布。
根据统计的结果,频次出现100次以上的有标记联合结构内部短语序列分布如表4所示。
表4有标记联合结构内部短语序列分布
短语序列
定中结构+定中结构(np-DZ+np-DZ)
2330
[np-DZ官营/b工商业/n]和/c[np-DZ产品/n专卖/vN]
定中结构(np-DZ)
1051
[np-DZ产品/n分配/vN]和/c再分配/n
定中结构+定中结构+定中结构(np-DZ+np-DZ+np-DZ)
360
[np-DZ农业/n发展史/n]、/w[np-DZ工业/n发展史/n]、/w[np-DZ银行/n发展史/n]
述宾结构+述宾结构(vp-PO+vp-PO)
290
[vp-PO有/v影响/n]、/w[vp-PO有/v名望/n]
附加结构+附加结构(np-AD+np-AD)
159
[np-AD当前/t的/u]和/c[np-AD长远/a的/u]
状中结构+状中结构(vp-ZZ+vp-ZZ)
150
[vp-ZZ双向/d选择/v]、/w[vp-ZZ合理/aD流动/v]
状中结构+状中结构(ap-ZZ+ap-ZZ)
[ap-ZZ极为/dD重要/a]、/w[ap-ZZ极其/dD复杂/a]
标号结构+标号结构(np-BH+np-BH)
115
[np-BH“/w度支/n”/w]、/w[np-BH“/w国用/n”/w]
述宾结构(vp-PO)
107
[vp-PO编写/v教材/n]和/c备课/v
根据表4的统计数据,频次在100次以上的短语序列占据了整个含短语的有标记联合结构的71.19%,因此有标记联合结构内部短语倾向于向高频的短语靠拢,分布相对比较集中。
从短语分布上看,联合结构内部短语主要是下面这些:
定中结构、述宾结构、附加结构、状中结构,定中结构是分布最广的一类结构,在表4中,占据了80.00%,其次是述宾结构,占据了8.70%。
因此,可以初步得出这样的结论,如果在识别有标记联合结构中引进搭配的知识,定中结构和述宾结构搭配的知识是最重要的。
短语组成的序列充分体现了有标记联合结构的结构平行性,例如:
“定中结构+联合标记+定中结构”和“述宾结构+联合标记+述宾结构”这类序列在结构上无论是前后两个短语还是前后两个成分基本上都是平行,这一特征有助于根据联合结构一边的边界进而确定另一边界,例如,如果知道“[np-DZ基础/n理论/n]和/c[np-DZ基础/n技术/n]”是由两个定中结构组成的序列,并且左边界已经知道,那么根据结构的平行性,就很容易确定另一个边界了。
根据统计结果,在6408个有标记联合结构短语序列中有396个有标记联合结构中嵌套着联合结构,占整个有标记联合结构短语序列的6.18%。
虽然嵌套的联合结构数量有限,但凡是有嵌套的联合结构,无论在结构上还是长度上都极其复杂,这势必给自动识别该类有标记联合结构造成一定的困难。
4外部特征考察
有标记联合结构内部特征考察主要是从有标记联合结构的微观角度分析联合结构的各种特征,而外部特征则是根据有标记联合结构所处的位置,从宏观的角度考察有标记联合结构,本文主要从有标记联合结构的句法功能分布和有标记联合结构左右边界特征词这两个方面考察。
4.1有标记联合结构的句法功能分布情况
陈小荷为实词分类拟定了一个含8种句法结构的考察框架[12],徐艳华在8种句法结构的基础上增加了一类介宾结构,考察了实词的14种句法功能[13]。
根据基于“语法功能匹配”的理论来实现句法自动分析的需要,不但考察了每一个实词的句法功能,而且考察了每类短语的句法功能,在考察功能时,由原来的9种句法结构,推广到27种句法结构,句法功能也从原来的14种推广到60种[14]。
有标记联合结构作为联合结构的重要组成部分也有其自身的句法功能分布,这里所说的有标记联合结构的句法功能是有标记联合结构在上一级句法结构中所充当的语法功能。
根据基于清华汉语树库的统计数据,表5列出了有标记联合结构充当的频次在20次以上的句法功能。
表5有标记联合结构充当的句法功能
句法功能
例证
宾语
1531
[vp-PO称为/v[np-LH[np-DZ[np-DZ信息/n处理/vN]产业/n]或/c[np-DZ信息/n服务业/n]]
定语
1293
np-DZ[vp-LH量入制出/iV与/c量出制入/iV]思想/n
带“的”定语
1286
[np-DZ[vp-LH[ap-PO公平/a负担/n]、/w[ap-PO轻/a税/n]和/c[vp-PO稳定/v税负/n]][np-DZ三/m原则/n]]
带“的”定语中心语
1261
[np-DZ计算机/n的/u[np-LH运行/vN和/c维护/vN]]
主语
1020
[dj-ZW[np-LH[np-BH“/w度支/n”/w]、/w[np-BH“/w国用/n”/w]][vp-PO指/v[np-DZ国家/n的/u[np-DZ费用/n开支/n]]]]
定语中心语
967
[np-DZ有关/b[np-LH理论/n和/c原则/n]
介词宾语
595
pp-JB在/p[tp-LH古希腊/nS、/w古罗马/nS以及/c[tp-DZ西欧/nS中世纪/t]]
状语中心语
575
[ap-ZZ颇为/dD[ap-LH失落/a和/c愤愤/a]]
枚举结构前成分
571
[np-MJ[np-LH[np-DZ官营/b工商业/n]和/c[np-DZ产品/n专卖/vN]]等/u]
谓语
[dj-ZW人们/n[vp-LH[vp-PO向往/v大别山/nS]、/w[vp-PO崇拜/v大别山/nS]]]
联合结构成分
380
[np-LH货币学派/n及其/c[np-LH政策/n主张/n]]
述宾述语
343
[vp-PO[vp-LH减少/v和/c[vp-ZZ不/dN加/v]]租税/n]
方位词前加成分
182
[dl-FZ[np-LH[np-AD当前/t的/u]和/c[np-AD长远/a的/u]]预期/vN]
状语
131
vp-ZZ[pp-LH[pp-JB与/p人民/n]、/w[pp-JB与/p时代/n]、/w[pp-JB与/p[np-DZ社会/n进步/vN]]][vp-ZZ相/d结合/v]]
连谓结构后成分
111
[vp-LW来/v[vp-LH完成/v或/c[vp-ZZ部分/d完成/v]]]
兼语后成份
59
[vp-JY促使/JY人们/n[vp-LH[vp-PO检查/v[np-DZ[np-DZ[np-DZ国民经济/n计划/n]比例/n]的/u[np-DZ协调/vN状况/n]]]和/c[vp-PO剖析/v[np-DZ[sp-FW[np-DZ计划/n执行/vN]中/f]的/u问题/n]]]]
带“地”状语
53
[vp-ZZ[vp-LH世代相袭/iV、/w潜移默化/iV]地/u熏陶/v]
兼语
51
[vp-JY依赖/v[np-LH个人/n或/c集团/n]承担/v]
附加结构前成分
41
[np-AD[np-LH物理/n、/w力学/n]的/u]
连谓结构前成分
38
[vp-LW[vp-LH[vp-PO建立/v[np-DZ社会学/n理论/n]]与/c[vp-ZZ[dp-AD历史/d地/u][vp-PO重构/v[np-DZ[np-DZ古典/b社会学/n]思想/n]]]][vp-ZZ相/d结合/v]]
框式结构中成分
37
[vp-KS是/vC[vp-LH[vp-ZZ互为/d联系/v]和/c[vp-ZZ相互/d作用/v]]的/u]
补语
26
[ap-SB红/a得/u[ap-LH[ap-ZZ那么/rD鲜/a]、/w[ap-ZZ那么/rD艳/a]]]
从表5可以看出,有标记联合结构主要出现在下面这些句法的位置上:
“宾语、定语、带‘的’定语、带‘的’定语中心语、主语、定语中心语、介词宾语”,占据了整个有标记联合结构句法分布的71.75%。
这些分布数据一方面描述了有标记联合结构本身在整个句法体系中充当的句法功能,另一个方面也为用搭配知识自动识别有标记联合结构提供了详细的数据依据,例如,基于介宾搭配实例的有标记联合结构边界识别,根据统计共有595个有标记联合结构位于介宾的位置,据观察联合结构的前半部分处于介词和联合标记之间,介词和联合标记可以形成一个框架,“对于/p【金融/n政策/n和/c财政/n政策/n】”这个例子,根据“‘对于’和‘和’”可以确定联合结构的前一部分,识别出左边界,然后根据联合结构对称性或语义相似性[15],进而可以确定后半部分的右边界。
如果文本中介宾短语识别的正确率和召回率比较高,在识别有标记联合结构的时候完全可以通过介宾短语识别出有标记联合结构。
由于有标记联合结构是一种离心结构,内部组织比较分散,虽然其整体上分布也像其他短语一样主要集中在常见的句法位置上,但在不常见的兼语、连谓、框式结构甚至联合结构中都有一定数量的分布,这些分布在一定程度上造成了联合结构识别的困难。
4.2有标记联合结构的左边界特征词及其分析
统计有标记联合结构左边界特征词的依据是有的词语经常出现在有标记联合结构左边界的外部而不经常出现在有标记联合结构的内部,即有标记联合结构的左边界一般不会跨越这些词。
根据这一观察到的语言学现象,把有标记联合结构的边界范围限定在以“。
!
?
”结尾的子句范围内,联合结构的左边界绝对不会跨越第一个联合标记,故此考察范围限定在从句子开始到第一个标记这么长的范围内,称为β,设W是任一个词,f(W_left_outside)表示W在β范围内,在有标记联合结构外部出现的频次,f(W_left)表示W在β范围内出现的频次,词W成为有标记联合结构左边界特征词的频率计算公式如下:
=
公式1
P的值越高,说明W成为左边界特征词的可能性就越大,由于本文统计时用的语料规模是100万字,所以本文给P的经验阈值为0.8,也就是当P≥0.8,W就可能成为有标记联合结构的左边界特征词,然后结合人工语言学知识的内省,从中确定有标记联合结构的左边界特征词。
表6给出了频率值在前十位并且经过人工语言学知识内省后的左边界特征词。
表6有标记联合结构左边界特征词
左边界特征词
频率值
是
0.99417
这/r将/d是/v{中国/ns