ICTPOS汉语词性标记集文档格式.docx

上传人:b****5 文档编号:19753414 上传时间:2023-01-09 格式:DOCX 页数:7 大小:16.88KB
下载 相关 举报
ICTPOS汉语词性标记集文档格式.docx_第1页
第1页 / 共7页
ICTPOS汉语词性标记集文档格式.docx_第2页
第2页 / 共7页
ICTPOS汉语词性标记集文档格式.docx_第3页
第3页 / 共7页
ICTPOS汉语词性标记集文档格式.docx_第4页
第4页 / 共7页
ICTPOS汉语词性标记集文档格式.docx_第5页
第5页 / 共7页
点击查看更多>>
下载资源
资源描述

ICTPOS汉语词性标记集文档格式.docx

《ICTPOS汉语词性标记集文档格式.docx》由会员分享,可在线阅读,更多相关《ICTPOS汉语词性标记集文档格式.docx(7页珍藏版)》请在冰豆网上搜索。

ICTPOS汉语词性标记集文档格式.docx

6. 

形容词(1个一类,4个二类) 

7. 

区别词(1个一类,2个二类) 

8. 

状态词(1个一类) 

9. 

代词(1个一类,4个二类,6个三类) 

10. 

数词(1个一类,1个二类) 

4

11. 

量词(1个一类,2个二类) 

12. 

副词(1个一类) 

13. 

介词(1个一类,2个二类) 

14. 

连词(1个一类,1个二类) 

15. 

助词(1个一类,15个二类) 

16. 

叹词(1个一类) 

17. 

语气词(1个一类) 

5

18. 

拟声词(1个一类) 

19. 

前缀(1个一类) 

20. 

后缀(1个一类) 

21. 

字符串(1个一类,2个二类) 

22. 

标点符号(1个一类,16个二类) 

1.说明

计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。

本标记集主要参考了以下词性标记集:

2.北大《人民日报》语料库词性标记集;

3.北大2002新版词性标记集(草稿);

4.清华大学汉语树库词性标记集;

5.教育部语用所词性标记集(国家推荐标准草案2002版);

6.美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;

由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本

词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。

本标记集在制定过程中主要考虑了以下几方面的因素:

1.有助于提高汉语词法分析器的切分和标注正确率;

2.有助于提高汉语句法分析器的正确率;

3.有助于汉英机器翻译系统进行翻译;

4.易于从北大《人民日报》语料库词性标记集进行转换;

5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。

基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。

例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。

因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。

在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。

又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。

对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。

另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。

1.名词 

(1个一类,7个二类,5个三类)

名词分为以下子类:

n名词

nr人名

nr1汉语姓氏

nr2汉语名字

nrj日语人名

nrf音译人名

ns地名

nsf音译地名

nt机构团体名

nz其它专名

nl名词性惯用语

ng名词性语素

2.时间词(1个一类,1个二类)

t时间词

tg时间词性语素

3.处所词(1个一类)

s处所词

4.方位词(1个一类)

f方位词

5.动词(1个一类,9个二类)

v动词

vd副动词

vn名动词

vshi动词“是”

vyou动词“有”

vf趋向动词

vx形式动词

vi不及物动词(内动词)

vl动词性惯用语

vg动词性语素

6.形容词(1个一类,4个二类)

a形容词

ad副形词

an名形词

ag形容词性语素

al形容词性惯用语

7.区别词(1个一类,2个二类)

b区别词

bl区别词性惯用语

8.状态词(1个一类)

z状态词

9.代词(1个一类,4个二类,6个三类)

r代词

rr人称代词

rz指示代词

rzt时间指示代词

rzs处所指示代词

rzv谓词性指示代词

ry疑问代词

ryt时间疑问代词

rys处所疑问代词

ryv谓词性疑问代词

rg代词性语素

10.数词(1个一类,1个二类)

m数词

mq数量词

11.量词(1个一类,2个二类)

q量词

qv动量词

qt时量词

12.副词(1个一类)

d副词

13.介词(1个一类,2个二类)

p介词

pba介词“把”

pbei介词“被”

14.连词(1个一类,1个二类)

c连词

cc并列连词

15.助词(1个一类,15个二类)

u助词

uzhe着

ule了喽

uguo过

ude1的底

ude2地

ude3得

usuo所

udeng等等等云云

uyy一样一般似的般

udh的话

uls来讲来说而言说来

uzhi之

ulian连(“连小学生都会”)

16.叹词(1个一类)

e叹词

17.语气词(1个一类)

y语气词(deleteyg)

18.拟声词(1个一类)

o拟声词

19.前缀(1个一类)

h前缀

20.后缀(1个一类)

k后缀

21.字符串(1个一类,2个二类)

x字符串

xx非语素字

xu网址URL

22.标点符号(1个一类,16个二类)

w标点符号

wkz左括号,全角:

(〔 

[ 

{ 

《【 

〖〈 

半角:

([{<

wky右括号,全角:

)〕 

]}》 

】〗〉半角:

)]{>

wyz左引号,全角:

“‘『 

wyy右引号,全角:

”’』

wj句号,全角:

ww问号,全角:

?

wt叹号,全角:

!

wd逗号,全角:

,半角:

wf分号,全角:

;

wn顿号,全角:

wm冒号,全角:

:

ws省略号,全角:

…… 

wp破折号,全角:

—— 

-- 

——- 

--- 

----

wb百分号千分号,全角:

%‰ 

%

wh单位符号,全角:

¥$£ 

°

 

℃ 

$

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 公共行政管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1