ImageVerifierCode 换一换
格式:DOCX , 页数:12 ,大小:557.31KB ,
资源ID:1306567      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/1306567.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(分词词性标注语料库计划任务完成情况中文语言资源联盟.docx)为本站会员(b****4)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

分词词性标注语料库计划任务完成情况中文语言资源联盟.docx

1、分词词性标注语料库计划任务完成情况中文语言资源联盟当代汉语文本语料库分词、词性标注工作报告项目名称:中文语料库建设子项名称:分词词性标注语料库承担单位:山西大学计算机科学系负责人: 杨尔弘分词词性标注语料库是进行汉语信息处理的重要基础资源。而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。2002年10 月,我单位承担了中文语料库建设的子项目:分词与词性标注语料库的研制任务。按照研究目标:建成带有完整词类标记的当代汉语通用语料库。选取了2002年媒体上流通的文本,力求表现当代语言的最新面貌。针对信

2、息处理的特点,研究确定了本次加工的规范,按照规范采用人机结合的方法,加工完成了500万汉字语料的分词、标注任务,并对歧义切分、未登陆词语(专有名词与普通新词语)、兼类词进行了全面的检验。经过近一年的工作,按计划完成了课题的任务。我们主要进行了如下的研究工作:1. 完成了500万语料的收集、整理、分类工作。2. 研究制定了符合信息处理用的汉语分词与词性标注规范。3. 按照加工规范,全面审核了支持自动分词和自动词性标注的词表。4. 开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。5. 对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容1500万语料的收集、整

3、理、分类工作我们首先进行了语料的收集、选择、分类、预处理。1) 语料选材原则力求反映当代汉语的最新面貌。从主题、体裁、来源三个方面综合考虑以自然段落为准,而不是以文章长度为准。避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。这样作可以得到较完整的语言信息的内容。2) 语料来源 语料来源于电子报刊、电子杂志以及杂志的电子版文学网站普通网站特选专题3) 抽样原则与方法抽样原则 时间性:2002年流通的文本普遍性:传播率较高,流通时间较长的文本完整性:2000字以下全篇采用,其余按比例、按自然段截取。具体的选材方法:根据文本的属性特点,决定选择的部位及内容。4) 文本属性描述每个文本的属

4、性:主题、体裁、来源(媒体名称、所在位置)、时间、标题5) 语料的分布情况按照上述选材原则和方法,目前产生的语料库包含的文本个数为3100篇,总共包含的字数为6,058,115个。按体裁和主题分布情况如表1、表2表1体裁分类包含文章数包含的词语数包含的汉字数所占的比例新闻报道11761020645163666027.02%小说(故事、传说)25736298077635812.82%散文1151532362330033.85%剧本1419731357360.59%说明文(包括广告、公告、技术手册)512661154129423221.36%信函1126517380.02%议论文(包括评论)786

5、887870146821824.24%传记74934371439652.38%话语记录1382121584201096.93%杂文2727772480960.79%合计310034402486058115100%表2 主题分类包含文章数包含的词语数包含的汉字数所占的比例公益1852103833626495.99%教育1942123964153426.85%习俗/风俗70710731132671.87%生活36741466178900013.02%娱乐1721788412998724.95%工程(土木、修路)661017281998433.30%政治35037308460885010.05%经济

6、517597666104542917.26%法律1081040691978083.27%体育1841591252554114.22%军事83938491458442.41%艺术1402003193970586.55%人文科学(历史地理、哲学、宗教、)2092922835071798.37%基础科学(数、理、化)1421283542070753.42%应用技术2422307284024816.64%交通71716981110071.83%合计310034402486058115100%2研究制定了符合信息处理用的汉语分词与词性标注的加工规范。1) 加工规范的制定山西大学从1988 年开始进行汉语

7、语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了信息处理用现代汉语文本分词规范。经过多年研究和修改,2000年又制定出现代汉语语料库文本分词规范现代汉语语料库文本词性体系。这次承担973任务后,与语用所、清华大学、北京大学的有关专家进行了讨论,同时,参照国内已有的相关规范,制定出973当代汉语文本语料库分词、词性标注加工规范。本规范吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。2) 制定加工规范参考的资料973当代汉语文本语

8、料库分词、词性标注加工规范是根据以下资料提出的。1信息处理用现代汉语分词规范,中国国家标准GB13715,1992年2信息处理用现代汉语词类标记规范,中华人民共和国教育部、国家语言文字工作委员会2003年发布3现代汉语语料库文本分词规范(Ver 30),1998年,北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系4现代汉语语料库加工规范词语切分与词性标注,1999年,北京大学计算语言学研究所5信息处理用现代汉语词类标记规范,2002年,教育部语言文字应用研究所计算语言学研究室6现代汉语语料库文本分词规范说明,2000年,山西大学计算机科学系 山西大学计算机应用研究所7資讯处理用中

9、文分词标准,1996年,台湾计算语言学学会8信息处理用现代汉语分词词表规范,2003年,清华大学3) 加工规范确定的词类标注体系973当代汉语文本语料库分词、词性标注加工规范的词类标记集采用信息处理用现代汉语词类标记规范的大类,增加了部分细类,特别是对人名、地名等进行了细致的分类标注。具体词类如下:(1) 名词n:普通名词(n) 时间名词(nt)方位名词(nd)处所名词(nl) 人名(nh) 汉族或类汉族人名(人名 nhh:姓nhf, 名nhg) 音译名或类音译名(nhy) 日本人名(nhr) 其他(nhw):如绰号,笔名,尊称等 。 地名(ns) 中国地名(nsh)*外国地名(nsy)*族名

10、(nn) 团体机构名(ni) 其他专有名词(nz)(2) 动词v:能愿动词(vu)*趋向动词(vd)*系动词(vl)*(3) 形容词: 性质形容词(aq)状态形容词(as)(4)区别词f (5)数词m (6)量词q (7)副词d (8)代词r(9)介词p (10)连词c(11)助词u (12)叹词e (13)拟声词o(14)习用语i 动词性习用语(iv)* 名词性习用语(in)* 形容词性习用语(ia)* 连词性习用语(ic)*(15)简称和略语j: 动词性简称(jv)* 名词性简称(jn)* 形容词性简称(ja)*(16)前接成分h (17)后接成分k(18)语素字g (19)非语素字x (

11、20)其它w:标点符号 (wp) 非汉字字符串(ws)其他未知的符号(wu)3按照加工规范,全面审核了支持自动分词和词性标注的词表本次语料加工任务使用的软件是山西大学开发的汉语自动分词和词性标注一体化软件FC2000,支持该软件的词表规模为82501个词条。为了更好的支持本次加工任务,我们按照加工规范,对分词词表进行了全面的审核。收词原则遵循了清华大学信息处理用现代汉语分词词表规范。词表的词类具体分布如下表:词性数量(条)词性数量(条)词性数量(条)aq3556nd 131nz13as 715nh o271c 166nhf9p46d 804nhg3q224e 37nhh5661r151f 70

12、5nhr6u39g 433nhw6v11985h 3nhy46x0i 7924ni4j1214nl424k 9nn26m 148nsn 42655nt916注:地名未包含在词表中,所有地名单独形成一个库。词长分布如下:词长数量一字词3998二字词47011三字词20624四字词10223五字词及五字以上6344开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。1)辅助校对软件为了确保语料加工的质量,我们对所加工的语料逐词进行了两次人工校对,对歧义、专名、未登陆词、兼类词等进行了人工第三次校对。并对词语的一致性问题进行了全面的检查,在保持词语切分一致性的基础上,对词语结构

13、的一致性也作了一些工作,力求保证这500万语料中词语结构的一致。 为了保证人工校验的一致性,我们采用了机助人校的方式,为此开发了人工后处理校验平台,该平台具有如下的功能:a) 歧义字段的采集、检验与修改b) 词语切分和标注一致性检验c) 词语的语境提取及语境归类d) 实例提取及修改、替换e) 兼类词的特别显示与修改2)人工校对后语料词语的分布情况 目前,语料库包含的总词次数为3,440,248。词语数共计96160条。其中未登陆的普通词语为26467条,其中普通名词16343条,普通动词5005条,形容词818条,习用语1834条,简称847条,兼类词语914条。 在未登陆的普通名词中,大体分为如下几类:a) 药名,如:银翘解毒片、冻疮膏b) 某个国家+“人”等后缀,如:希伯来文、阿尔及利亚裔、奥尔梅克人 c) 食品名 如:莴笋蕃茄全麦包d) 与时事相关的词语,如:足总杯、秀场、准驾证、洲际弹道导弹e) 术语,如:译码器、胰高血糖素f) 一般词语,如:榨汁率未登陆的普通动词多为一般性词语,还有部分是带了后缀的,如:参数化。 词性分布如下表:词性词条数比例(%)词次数比例(%)词性词条数比例(%)词次数比例(%)aq3235

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1