分词词性标注语料库计划任务完成情况中文语言资源联盟.docx
《分词词性标注语料库计划任务完成情况中文语言资源联盟.docx》由会员分享,可在线阅读,更多相关《分词词性标注语料库计划任务完成情况中文语言资源联盟.docx(12页珍藏版)》请在冰豆网上搜索。
分词词性标注语料库计划任务完成情况中文语言资源联盟
当代汉语文本语料库分词、词性标注工作报告
项目名称:
中文语料库建设
子项名称:
分词词性标注语料库
承担单位:
山西大学计算机科学系
负责人:
杨尔弘
分词词性标注语料库是进行汉语信息处理的重要基础资源。
而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。
2002年10月,我单位承担了中文语料库建设的子项目:
分词与词性标注语料库的研制任务。
按照研究目标:
建成带有完整词类标记的当代汉语通用语料库。
选取了2002年媒体上流通的文本,力求表现当代语言的最新面貌。
针对信息处理的特点,研究确定了本次加工的规范,按照规范采用人机结合的方法,加工完成了500万汉字语料的分词、标注任务,并对歧义切分、未登陆词语(专有名词与普通新词语)、兼类词进行了全面的检验。
经过近一年的工作,按计划完成了课题的任务。
我们主要进行了如下的研究工作:
1.完成了500万语料的收集、整理、分类工作。
2.研究制定了符合信息处理用的汉语分词与词性标注规范。
3.按照加工规范,全面审核了支持自动分词和自动词性标注的词表。
4.开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。
5.对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容
1.500万语料的收集、整理、分类工作
我们首先进行了语料的收集、选择、分类、预处理。
1)语料选材原则
·力求反映当代汉语的最新面貌。
·从主题、体裁、来源三个方面综合考虑
·以自然段落为准,而不是以文章长度为准。
避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。
这样作可以得到较完整的语言信息的内容。
2)语料来源
语料来源于电子报刊、电子杂志以及杂志的电子版
·文学网站
·普通网站
·特选专题
3)抽样原则与方法
·抽样原则
时间性:
2002年流通的文本
普遍性:
传播率较高,流通时间较长的文本
完整性:
2000字以下全篇采用,其余按比例、按自然段截取。
·具体的选材方法:
根据文本的属性特点,决定选择的部位及内容。
4)文本属性描述
·每个文本的属性:
主题、体裁、来源(媒体名称、所在位置)、时间、标题
5)语料的分布情况
按照上述选材原则和方法,目前产生的语料库包含的文本个数为3100篇,总共包含的字数为6,058,115个。
按体裁和主题分布情况如表1、表2
表1
体裁分类
包含文章数
包含的词语数
包含的汉字数
所占的比例
新闻报道
1176
1020645
1636660
27.02%
小说(故事、传说)
257
362980
776358
12.82%
散文
115
153236
233003
3.85%
剧本
14
19731
35736
0.59%
说明文(包括广告、公告、技术手册)
512
661154
1294232
21.36%
信函
1
1265
1738
0.02%
议论文(包括评论)
786
887870
1468218
24.24%
传记
74
93437
143965
2.38%
话语记录
138
212158
420109
6.93%
杂文
27
27772
48096
0.79%
合计
3100
3440248
6058115
100%
表2
主题分类
包含文章数
包含的词语数
包含的汉字数
所占的比例
公益
185
210383
362649
5.99%
教育
194
212396
415342
6.85%
习俗/风俗
70
71073
113267
1.87%
生活
367
414661
789000
13.02%
娱乐
172
178841
299872
4.95%
工程(土木、修路)
66
101728
199843
3.30%
政治
350
373084
608850
10.05%
经济
517
597666
1045429
17.26%
法律
108
104069
197808
3.27%
体育
184
159125
255411
4.22%
军事
83
93849
145844
2.41%
艺术
140
200319
397058
6.55%
人文科学(历史地理、哲学、宗教、)
209
292283
507179
8.37%
基础科学(数、理、化)
142
128354
207075
3.42%
应用技术
242
230728
402481
6.64%
交通
71
71698
111007
1.83%
合计
3100
3440248
6058115
100%
2.研究制定了符合信息处理用的汉语分词与词性标注的加工规范。
1)加工规范的制定
山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》《现代汉语语料库文本词性体系》。
这次承担973任务后,与语用所、清华大学、北京大学的有关专家进行了讨论,同时,参照国内已有的相关规范,制定出《973当代汉语文本语料库分词、词性标注加工规范》。
本规范吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
2)制定加工规范参考的资料
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年
2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布
3.《现代汉语语料库文本分词规范》(Ver3.0),1998年,北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系
4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年,北京大学计算语言学研究所
5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室
6.《现代汉语语料库文本分词规范说明》,2000年,山西大学计算机科学系山西大学计算机应用研究所
7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会
8.《信息处理用现代汉语分词词表》规范,2003年,清华大学
3)加工规范确定的词类标注体系
《973当代汉语文本语料库分词、词性标注加工规范》的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,增加了部分细类,特别是对人名、地名等进行了细致的分类标注。
具体词类如下:
(1)名词n:
普通名词(n)
时间名词(nt)
方位名词(nd)
处所名词(nl)
人名(nh)
汉族或类汉族人名(人名nhh:
姓nhf,名nhg)
音译名或类音译名(nhy)
日本人名(nhr)
其他(nhw):
如绰号,笔名,尊称等。
地名(ns)
中国地名(nsh)*
外国地名(nsy)*
族名(nn)
团体机构名(ni)
其他专有名词(nz)
(2)动词v:
能愿动词(vu)*
趋向动词(vd)*
系动词(vl)*
(3)形容词:
性质形容词(aq)
状态形容词(as)
(4)区别词f
(5)数词m
(6)量词q
(7)副词d
(8)代词r
(9)介词p
(10)连词c
(11)助词u
(12)叹词e
(13)拟声词o
(14)习用语i
动词性习用语(iv)*
名词性习用语(in)*
形容词性习用语(ia)*
连词性习用语(ic)*
(15)简称和略语j:
动词性简称(jv)*
名词性简称(jn)*
形容词性简称(ja)*
(16)前接成分h
(17)后接成分k
(18)语素字g
(19)非语素字x
(20)其它w:
标点符号(wp)
非汉字字符串(ws)
其他未知的符号(wu)
3.按照加工规范,全面审核了支持自动分词和词性标注的词表
本次语料加工任务使用的软件是山西大学开发的汉语自动分词和词性标注一体化软件——FC2000,支持该软件的词表规模为82501个词条。
为了更好的支持本次加工任务,我们按照加工规范,对分词词表进行了全面的审核。
收词原则遵循了清华大学《信息处理用现代汉语分词词表》规范。
词表的词类具体分布如下表:
词性
数量(条)
词性
数量(条)
词性
数量(条)
aq
3556
nd
131
nz
13
as
715
nh
o
271
c
166
nhf
9
p
46
d
804
nhg
3
q
224
e
37
nhh
5661
r
151
f
705
nhr
6
u
39
g
433
nhw
6
v
11985
h
3
nhy
46
x
0
i
7924
ni
4
j
1214
nl
424
k
9
nn
26
m
148
ns
n
42655
nt
916
注:
地名未包含在词表中,所有地名单独形成一个库。
词长分布如下:
词长
数量
一字词
3998
二字词
47011
三字词
20624
四字词
10223
五字词及五字以上
634
4.开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。
1)辅助校对软件
为了确保语料加工的质量,我们对所加工的语料逐词进行了两次人工校对,对歧义、专名、未登陆词、兼类词等进行了人工第三次校对。
并对词语的一致性问题进行了全面的检查,在保持词语切分一致性的基础上,对词语结构的一致性也作了一些工作,力求保证这500万语料中词语结构的一致。
为了保证人工校验的一致性,我们采用了机助人校的方式,为此开发了人工后处理校验平台,该平台具有如下的功能:
a)歧义字段的采集、检验与修改
b)词语切分和标注一致性检验
c)词语的语境提取及语境归类
d)实例提取及修改、替换
e)兼类词的特别显示与修改
2)人工校对后语料词语的分布情况
目前,语料库包含的总词次数为3,440,248。
词语数共计96160条。
其中未登陆的普通词语为26467条,其中普通名词16343条,普通动词5005条,形容词818条,习用语1834条,简称847条,兼类词语914条。
在未登陆的普通名词中,大体分为如下几类:
a)药名,如:
银翘解毒片、冻疮膏
b)某个国家+“人”等后缀,如:
希伯来文、阿尔及利亚裔、奥尔梅克人
c)食品名如:
莴笋蕃茄全麦包
d)与时事相关的词语,如:
足总杯、秀场、准驾证、洲际弹道导弹
e)术语,如:
译码器、胰高血糖素
f)一般词语,如:
榨汁率
未登陆的普通动词多为一般性词语,还有部分是带了后缀的,如:
参数化。
词性分布如下表:
词性
词条数
比例(%)
词次数
比例(%)
词性
词条数
比例(%)
词次数
比例(%)
aq
3235