汉语词性标注.docx

上传人:b****8 文档编号:30678355 上传时间:2023-08-19 格式:DOCX 页数:16 大小:357.41KB
下载 相关 举报
汉语词性标注.docx_第1页
第1页 / 共16页
汉语词性标注.docx_第2页
第2页 / 共16页
汉语词性标注.docx_第3页
第3页 / 共16页
汉语词性标注.docx_第4页
第4页 / 共16页
汉语词性标注.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

汉语词性标注.docx

《汉语词性标注.docx》由会员分享,可在线阅读,更多相关《汉语词性标注.docx(16页珍藏版)》请在冰豆网上搜索。

汉语词性标注.docx

汉语词性标注

湖南文理学院课程设计报告

 

课程名称:

计算机软件技术基础

系部:

电信系

专业班级:

通信工程T09103班

学生姓名:

刘程程

指导教师:

完成时间:

2011.12.28

报告成绩:

评阅意见:

评阅教师日期

目录

中文摘要I

AbstractII

第一章引言1

1.1背景和意义1

1.2词性标注定义及其困难1

1.2.1词性的定义2

1.2.2词性标注的难点2

第二章基础理论介绍3

2.1隐马尔科夫模型(H1ddenMarkovModel,HM)3

2.2HMM用于词性标注4

第三章改进HMM标注模型与参数估计4

3.1改进HMM模型词性标注4

3.2参数估计5

3.2.1训练语料库5

3.2.2当用数据库5

第四章改进Viterbi算法标注7

4.1标注过程7

4.2改进后的Viterbi算法的具体描述7

第五章实验结果与分析8

5.1评价标准8

5.2实验结果9

5.3错误分析10

参考文献11

中文摘要

汉语词性标注是中文信息处理技术中的一项基础性课题。

一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。

因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。

词性标注的方法主要有基于规则和基于统计的两大类。

由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。

在基于统计的方法中,隐马尔科夫模型是最主要的算法模型之一。

在本文中,我们以汉语的词性自动标注为研究对象,提出了一种基于改进的隐马尔科夫模型汉语词性标注方法。

该方法在原有隐马尔科夫模型的基础上,加入了更多的上下文信息,用于汉语词性的自动标注问题,取得了较好的效果。

主要的研究内容有以下几方面:

1.虽然隐马尔科夫模型有很好的标注效果,但是它在对当前词词语出现概率的估计只与其词性有关。

2.获得上下文信息的多少和数据平滑程度是评价统计词性标注模型性能的两个重要参数。

本文详细介绍了现阶段几种平滑算法,针对该模型数据稀疏现象,采用性能稳定指数线性插值方法来平滑HMM的概率参数。

3.对HMM参数估计模型的修改,只是改进模型的第一步,为了更有效的使用训练所得到的参数,需要对Viterbi算法进行修改。

由于传统的Viterbi算法不适合本模型,所以对Viterbi算法进行了拓展。

4.对于自然语言来讲不存在完备的可计算的词性信息,如何确定未登录词的词性是除兼类问题之外词性标注所面临的另一个关键问题。

本文对未登录词处理提出了具体处理方法。

关键词:

中文信息处理;汉语词性标注;隐马尔科夫模型;平滑算法;

Abstract

ChinesePart-of-SpeechTaggingisafundamentalproblemtomanyChineseInformationProcessingtasks.ThetaskofPart-of-SpeechTaggingistodesignsoftwarethatcanidentifyPart-of-Speechinasentenceautomatically.Oneside,theperformanceofmanyrealisticapplicationssuchasinformationextraction,informationretrieval,andmachinetranslationwouldbeimprovediftherightPart-of-Speechwereavailable.Andontheotherhand,itisindispensableprocessingcomponentinChineselexicalanalysissystem,Chinesesyntaxanalysissystem,andetc.Therefore,itsresearchisofgreatoftheoreticalimportanceaswellaspracticability.

ThemodelofPart-of-SpeechTaggingincludesbothruleandstatisticstechnique.Becauseofthestatisticstechniquerequiresnomanualrulesofnaturallanguageandhasahighlevelaccuracy,thestatisticallanguagemodelhasgraduallybecomeahotresearchtopic.Foritsbetterperformance,HiddenMakovModel(HMM),oneofthestatisticalmodels,hasbeentherecenttrendinPart-of-SpeechTagging.

WeproposeamethodofChinesePart-of-SpeechTaggingbasedonamelioratedHiddenMakovModel,takingmoreinformationofcontextintothemodeltodescribelanguagephenomena.Theresultofamelioratedmodelissatisfying.Themainworksofthispaperincludesfourparts:

1.AlthoughHMMarehighperformance,theprobabilityoftheworddependsonitsowntag.2.TwokeyfactorscanbeusedinevaluatingtheperformanceofstatisticalmodelofPart-of-SpeechTagging.3.ForthesakeofmakingeffectiveuseofparameterstrainedfromamelioratedHiddenMakovModel;wefittheViterbialgorithmforthenewparameter.4.FortheimperfectionofcomputableinformationoneachwordinHowtosolvenewwordsisantherkeyprobleminstatisticallanguageInthispaper,weproposeaconcretedmethodinnewwords.

Keywords:

ChineseInformationProcessing;ChinesePart-of-Speech

Tagging;HiddenMakovModel;SmoothingAlgorithm

第一章引言

1.1背景和意义

随着Internet上中文网页的急剧膨胀和中文电子出版物、中文数字图书馆的迅速普及,以非受限文本为主要对象的中文自然语言处理研究的重要性日益显著。

分析和处理语言的基本方法,是将语言分为词法、句法、语义等不同层次来加以认识的,在自然语言处理领域,相应建立了词法分析、句法分析、语义分析等课题。

当前汉字编码和输入方法的研究已比较成熟,中文自然语言处理的重点已从“字”层面转移到“词”层面。

汉语的词性标注研究,主要是从词层面进行的研究,这一问题在70年代末就受到了广泛的关注,目前,许多标注方法方法已得到了实现。

在这一长期的研究和实践过程中,尽管有这些难题的长期困扰,汉语的词性标注仍得到很多现实应用。

因此具体如下:

a)为更高层次的自然语言文本加工提供素材,例如:

利用词性标注结果对部分句法进行对名次短语的识别。

b)为语言学的研究提供翔实的资料,例如:

利用词性标注实现信息理解,数据抽取或文本数据挖掘。

c)从加工过的文本中获取词类及频度的词性标注知识。

例如:

文本分类等。

一方面,它的研究成果可以直接融入到机器翻译[z1、信息检索、语音识别等诸多实际应用系统当中,另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。

因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。

1.2词性标注定义及其困难

词性也叫词类,是根据一个词的本意及在短语或句子中的作用划分的。

从语言学的角度,汉语词汇可分为实词和虚词两大类。

实词是意义比较具体的词,包括:

名词(含方位词)、动词、形容词(含颜色词)、数词、量词、代词六大类。

虚词主要指没有完整的词汇意义,但有文法意义或功能意义的词,包括:

副词、介词、连词、助词、象声词六大类。

需要注意的是,上述的分类方法不是唯一的。

一种语言的词汇应该划分为多少类以及每一类都应该包含那些词汇都没有一个统一的标准。

在语言学研究中,这个问题通常是由人们的语一言感觉、应用需求、工程可操作性三个因素共同决定。

1.2.1词性的定义

词性也叫词类,是根据一个词的本意及在短语或句子中的作用划分的。

从语言学的角度,汉语词汇可分为实词和虚词两大类。

实词是意义比较具体的词,包括:

名词(含方位词)、动词、形容词(含颜色词)、数词、量词、代词六大类。

虚词主要指没有完整的词汇意义,但有文法意义或功能意义的词,包括:

副词、介词、连词、助词、象声词六大类。

需要注意的是,上述的分类方法不是唯一的。

一种语言的词汇应该划分为多少类以及每一类都应该包含那些词汇都没有一个统一的标准。

在语言学研究中,这个问题通常是由人们的语一言感觉、应用需求、工程可操作性三个因素共同决定。

1.2.2词性标注的难点

所谓词性标注就是根据句子中的上下文信息给句中的每个词确定一个最为合适的词性标记。

比如给定一个句子:

“我中了一张彩票。

”对其的标注结果可以是:

“我/代词中/动词了/助词一/数词张/量词彩票/名词。

/标点’,。

词性标注的难点主要是由词性兼类[3]所引起的,词性兼类是指自然语言中一个词语的词性多余一个的语言现象。

词性兼类是自然语言中一个非常普遍的现象,例如下面的句子:

S1二“他是山西大学的教授。

”S2=“他在山西大学教授计算语言学。

”句子S1中,“教授”是一个表示职称的名词,而句子52中“教授”是一个动词。

对人来说,这样的词性歧义现象比较容易排除,但是对于没有先验知识的机器来说是比较困难的。

词性兼类在汉语中很突出,据不完全统计,常见的词性兼类现象有几十种,这些兼类现象具有以下分布特征:

l)在汉语词汇中,兼类词的数量不多,约占总词条的5一11%。

2)兼类词的实际使用频率很高,约占总词次的40一45%。

也就是说,也是常用的词,其词性兼类现象越严重。

3)兼类词现象分布不均:

在孙茂松等的统计中,仅动名兼类就占全部兼类现象的49.8%;在张民门的统计中,动名兼类和形副兼类就占全部113种兼类现象的62.5%。

词性兼类的消歧常采用概率的方法,如隐马尔科夫模型叫,这些方法的有效性依赖于兼类词性的概率分布。

但是有些兼类的词性的概率分布近似,特别是高频的词性兼类现象,如汉语的动词名词兼类,对于这些兼类现象,传统的概率方法很难奏效,如何解决这个问题目前词性标注面临的主要困难之一。

第二章基础理论介绍

2.1隐马尔科夫模型(H1ddenMarkovModel,HM)

HMM模型是一双重随机过程,其中模型的状态转移过程是不可观察(隐蔽)的。

而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数。

也可以这样理解:

HMM是指内部状态外界不可见,外界只能看到各个时刻的输出值。

HMM是经典的描述随机过程的统计方法,在自然语言处理中得到了广泛的应用。

HMM模型可以看作一种特定的BayesNet,等价于概率正规语法或概率有限状态自动机,可以用一种特定的神经网络模型来模拟。

HMM模型的优点主要有:

研究已经非常透彻,算法成熟,效率高,效果好,易于训练。

察序列求出最优的状态序列(例如,从词串求出最合理的词性标一记串);第三,如何调整模型参数,使得观察序列的概率最大。

2.2HMM用于词性标注

由此我们可以建立HMM模型,模型的状态是词性集合已,。

,模型的输出符号是砰l,。

,训练过程实际就是统计词性转移矩阵【伽」和词性到单词的输出矩阵,其中参数A,B和n可通过已标注训练语料估计得到。

而求解的过程实际上就是一个用Viterbi算法求可能性最大的状态序列。

 

第三章改进HMM标注模型与参数估计

3.1改进HMM模型词性标注

上一章提到HMM模型进行词性标注时,P(wi|ci)描述了词语w,被标注为词性c,的概率大小。

而P(ci|ci一l)描述了词语wi一1被标注为词性ci一l的条件下,wi被标注为ci

的概率。

即词w‘的词性标注概率依赖于前词w一1的词性标注(称为向前依赖性)。

但在上下文环境中词wi的词性标注也可能依赖于其后词wi+1的词性标注(称为向后依赖性)。

改进后模型的参数HMM虽然能很好地进行词性标注,但是在参数获取过程中,捕获上下文的信息有限。

在传统HMM基础上给出了一种改进的HMM的汉语词性标注方法。

l.N为词性标注系统中所用到标一记集词性的个数。

2.M为词汇集W中词汇的个数。

这里的词汇概率与HMM的不同之处在于:

它引入了更多的上下文信息,表示在。

Cm状态ti,且cm+1的状态tj条件下,输出为wk的概率。

这样就能更进步获取词汇的上下文信息。

这正是本文对HMM的改进之处。

3.2参数估计

3.2.1训练语料库

本文所采用的训练语料是可以公开得到的由北京大学和富士通公司合作开发的《人民日报》语料库上进行的,这是目前可以公开获得的规模最大的分词词性标注语料库。

该语料含七百余万词次,本文采用的为一级标注集有26个基本词类标一记,如名词n、动词v、形容词a等等。

《人民日报》语料库中的句子不但进行了分词和词性标注,而且还以括号的形式标记出了专有名词短语,由于专有名词短语的识别己经超出了本章的研究范围,因此在实验中我们把《人民日报》语料库中的专有名词短语标记都全部去掉了。

且本文采用的是一级标注集进行标注,所以对nr、ns都作了相应处理,只保留二级标注中的第一个字母作为此词的词性。

例如:

中央/n人民/n电视台/n、香港/n特别/a行政区/n。

本文在训练过程中和模型的测试过程中,都不再把专有名词短语考虑在内。

3.2.2当用数据库

词表库词表库用来存放读入的训练语料中的每个词语,以及这个词语出现的词频。

词表库得三个字段分别为:

word(词语),wfreq(出现次数),wid(词语代号)。

图3一1是读入总词数为306930的训练语料后,词表库中部分词语以及频率状况。

词性表库用来存放读入的训练语料中的每个词语的词性以及他的后词词性,以及出现频率。

词性表库得五个字段分别为:

wid(词语代号),pos(当前词词性),nextPos(后词词性),pfreq(出现次数),pid(词性代号)。

如图示4一2。

第四章改进Viterbi算法标注

 

第四章改进Viterbi算法标注

4.1标注过程

我们的总体思想就是在训练过程中抽取参数。

在标注阶段对所给定的进行过正确切分的分词语料,即待标注语料,划分成一个个的SPan。

然后利用改进的viterbi算法寻找能使产生每个词的词性标记的概率最大的状态序列,然后生成标注后的文本。

如果待标注词串中含有单标一记词(包括标点,因为每个标点也是只有一个标记),那么这个词的标一记的选择不受前一个词的影响;但它会影响下一个词的标记的选择,可是这个影响是固定的,因为它只有这个词性标记。

根据这个原理我们可以把含有n个单标记的词串划分为n+1个更小的、中间不含单标记词的、首尾相接的词串来标注,不会影响原来词串标注的正确性。

我们把这种小词串称为作为基于本标注模型的基本单位。

4.2改进后的Viterbi算法的具体描述

利用前面得出改进HMM参数,对给定词性标记对(观察值序列),要寻找其概率最

大的边界状态序列。

本文用Viterbi算法来解决这一问题,即解决了HMM的第二个

问题:

解码问题。

Viterbi算法是一种动态规划方法(dynamicprogramming),用它来

确定最佳意义上的一个状态序列,其基本思想是把求解整个问题的最佳解归结为求

解其子问题的最佳解。

词性转移概率和词汇发射概率的修改只是改进HMM模型的第一步,为了更有

效的使用训练所得到的参数,需要对改进Viterbi算法。

第五章实验结果与分析

词性标注方法的好坏最终还是要通过在大规模数据上的实验来进行评价。

根据上文方法我们构建了一个汉语词性自动标注器。

训练语料训练和封闭开放测试均采用北京大学的人民日报1998年1月的语料,以下是实验的结果与分析。

5.1评价标准

本文的目的是为了说明采用改进的隐马尔科夫模型以及相应平滑之后,对实验结果的影响以及提高程度。

本文采用了三个评估函数:

词性标注精确率,词性标注召回率,和F一值。

分别如式(5.1),式(52)和式(53)所述。

为了方便,用a表示正确标注的词的个数,b表示所识别的词的总数,。

表示文本中词的总数。

5.2实验结果

其中表5一1和表5一2是随着训练集从20万词次递增到30万词次的开放与封闭测试结果。

从表中可以看出无论是封闭测试还是开放测试,随着训练集大小的增加,模型标注效果会越来越好,正确率逐渐增大,但是增大的趋势是减小的。

训练集的大小与标注正确率的提高是成非线性分布的,这与文献结论相符。

由表5一2所示,在开放测试中随着语料库规模的不断增大,词性标注精确率分别提高了0.67%和0.35%,词性标注的召回率分别提高了0.69%和0.16%,F一值分别提高了0.69%和0.26%。

表5一3和表5一4是在30万词的训练语料下传统HMM模型和改进后的HMM模型在封闭与开放测试的结果比较。

由表5一4所示,在开放测试中,改进模型较传统HMM模型,词性标注的精确率提高了1.06%,词性标注的召回率提高了1.05%,F一值提高了1.05%。

传统HMM模型在参数评估时与改进后的HMM模型在参数评估方案的唯一不同处在于:

前者在评估词的出现概率时,只考虑了当前词的词性:

而后者在评估词的出现概率时,不仅仅考虑当前词的词性,而且考虑了后词的词性。

这两种评估方法评估出的参数的封闭测试和开放测试实验结果可由表5一3和表5一4得出。

很明显,后者在精确率,召回率和F一值三方面均要高于前者。

5.3错误分析

HMM的消歧性能依赖于词性转移概率和词汇概率。

因此,当目标兼类词的兼类词性的概率分布相似时,就会产生错误的标注结果。

(Church1988)和(Franz1995)等人曾对基于HMM的英文词性标注系统的错误进行了分析,其结果表明:

基于HMM的词性标注方法处理某些特定的上下文是很容易出错。

从本系统的输出结果来看,可得出以下结论:

1.标注集26个词性标记中最容易被标错的五个词性标记依次为动词v、名词n、副词d、介词p和形容词a,其中动词被标错的比率最大,这五种词性被标错的比率占了全部错的80%以上。

2.概率分布近似的兼类现象是基于HMM的汉语词性标注错误的主要来源。

例如,汉语中的名词和动词的概率分布近似,标注中最常出现的错误就是动词v被错误标注为名词n,其次是名词n被错误标注成动词v。

3.汉语的某些特定语言现象导致标注结果的错误。

例如在汉语中的名次短语中,形容词和名次都可以作为中心词的修饰语,且两者实际使用的频度相差不大,从而导致了名词n被标注成形容词a和形容词a被标注成名词n的错误出现频次均较高。

4.分词的错误直接影响了词性标注的结果。

参考文献

[1」愈士汉.语法知识在语言信息处理中的作用[[J].语言文字应用,1997(4):

81-87

[2]赵铁军.机器翻译原理【M].哈尔滨工业大学出版社,2000:

156-200.

[3]刘开瑛,中文文本自动分析和标注〔M],商务印刷馆,2000:

162-222.

[4}魏欧,孙玉芳.基于非监督训练的汉语词性标注的实验与分析.计算机研究与发

展,2000,37(4):

71一73.

[5]曹海龙.基于词汇化统计模型的汉语句法分析研究[D].哈尔滨工业大学博士论

文,2006:

1-96.

[6」孙茂松,黄昌宁.汉语中的兼类词、同行词类组及其处理策略【J].中文信息学报,

1989,3(4):

11-23,

[7]张民,李生,赵铁军.统计与规则并举的汉语词性自动标注算〔J].软件学报,1998

9

(2):

134-138.

[8]房玉清.实用汉语语法【M].北京语言学院出版社,2000:

5-22.

 

实习心得:

通过这两个礼拜的对隐马尔科夫模型有一定的了解,刚一开始我对这一课题一无所知,经过我仔细阅读文章后对这课题有了稍微的了解,汉语词性标注是中文信息处理技术中的一项基础性课题。

一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。

因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。

因此我以后得加强这一方面的了解和学习。

分析和处理语言的基本方法,是将语言分为词法、句法、语义等不同层次来加以认识的,在自然语言处理领域,相应建立了词法分析、句法分析、语义分析等。

在这学习的期间,我要感谢我的老师和我的同学给我的帮助,才让我在这一方面有一定的进步。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 林学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1