ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:149.72KB ,
资源ID:30277189      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/30277189.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(地字结构识别.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

地字结构识别.docx

1、地字结构识别地”字结构识别地”摘要 “地”字结构是汉语中有标记的状语结构, 字结构的自动识别作为浅层句法分析的任务之一可以减少 自动句法分析的歧义。本文在分析“地”字结构性质的基础 上,利用规则与统计相结合的方法,基于分词文本对“地” 字结构进行了对比性的识别研究。实验利用 200 万字的语料 进行训练, 将获取的数据用于自动识别, 获得了较好的效果。关键词 “地”字结构 句法分析 规则 概率 汉语是一种缺乏形态变化的语言,传达了较少的形式化信息,增加了自然语言处理的歧义。在自动句法分析的过程 中,汉语缺少可直接利用的形式信息,增加了分析的难度。20世纪80年代末,国外开始了关于组块 (Chu

2、nk)的研究,并提出了浅层句法分析的概念,希望通过语块的识别和 语块之间依附关系的分析来实现对完全句法分析任务的分解。90 年代以来, 国内学者在汉语的浅层句法分析方面也做 的结构和边界。王立霞、吴云芳使用概率模型识别了介词短 语的边界。赵军提出了基于转换的汉语基本名词短语(baseNP)识别模型。周强利用边界概率分布和内部结构组合对最长名词短语(MNP)进行了较为全面的识别分析。这 些研究主要集中于对名词短语和介词短语的识别,为汉语的 自动处理做出了有益的探索。作为浅层句法分析的任务之一, “地”字结构的自动识别可以有效地减少句法分析的歧义。由于“地”字结构在句 中处于状语的位置,对于一些简

3、单的单句而言,该结构的自 动识别常常可以帮助找到谓语中心,划定句子的基本结构, 我们可以给出这样的形式化表示:S=SZ+Subj+SZ+DS+P+Obj其中,S表示单句,SZ表示句首或小句状语,DS表示“地”字结构, P 表示谓语中心, Subj 表示主语, Obj 表示宾语, 表示可以出现也可以不出现, +表示语法分隔。本文分为四个部分,第一部分对“地”字结构进行定义和分类,第二部分介绍统计与规则相结合的“地”字结构识 别算法,第三部分分析实验结果,第四部分结语。1.“地”字结构的定义及分类1.1“地”字结构的定义地”字结构是以结构助词“地”为右边界标志,在句中动词前作状语,直接修饰动词或谓

4、语中心语的一种句法结构。我们把“地”字结构定义为“修饰语 +地”的形式。1.2“地”字结构分类地”字结构内部存在多种句法关系,表现为修饰语部分可以是单个词语,也可以是句法组合,包括状中组合、并句法层次和句法关系对它进一步细分。构。构。简单“地”字结构的修饰语是单元的,即内部只有一个元素,不存在句法组合关系,如:新 的 游客 【源源不断 地】 涌 来 。复杂“地”字结构的修饰语有多个元素组合而成,这些元素之间满足一定的句法组合关系。根据这些关系,可以将 复杂“地”字结构进一步细分为多元修饰型、多元并列型、 多元主谓型以及多元述宾型等:多元修饰型:修饰语为“状语 +中心语”形式的“地字结构,如“很

5、 努力 地”。多元并列型:修饰语为“并列成分 +连接成分 +并列成多元主谓型:修饰语为“主语 +谓语”形式的“地”字结构,如“程度 不同 地”。多元述宾型:修饰语为“述语 +宾语”形式的“地”字结构,如“有 计划 地”。2.统计与规则相结合的“地”字结构识别策略2.1识别目标地”字结构识别的目标是准确地确定“地”字结构的左右边界。本研究以“ 【”作为“地”字结构左界标志,以 结果格式如下:中国认为 , 伊拉克应 【全面 、 切实 地】 履行 联合国 有关 决议。2.2识别算法 根据“地”字结构的特点,在语料统计分析的基础上,我们确定采用规则匹配、概率加权选择和上下文调整相结合 的策略进行识别。

6、2.2.1规则匹配 我们以人民日报 1998年 1月份的标记语料(记为98O1.tag)作为训练语料,对其中的“地”字结构进行人工标注,并提取出每一个具体的“地”字结构的词性标记串及 其出现概率,组成“地”字结构的标记串规则集,此规则集 中包含了 100 条规则,其中任意一条规则的出现概率 P(rulei)的计算公式如下:我们应用此标记串规则集的具体规则对每一个“地”字结构进行可能匹配:对于每一条标记串规则,获取相同长度 的“地”字结构词串,并通过查词典的方式取得该词串所有 的可能标记串,如果存在某条可能标记串与标记串规则匹配, 则该标记串规则作为一条可能匹配规则;如此记录下所有的 可能匹配规

7、则,并统计其出现概率。2.2.2概率加权选择 由于面对的是分词文本,规则的长度和词串所对应的标记串都是不确定的,在实际标注过程中有两种选择:一种选 择是长规则优先匹配, 规则长度相同时, 高频规则优先匹配; 另一种选择是通过规则的出现概率进行优选。实验表明,第种选择不能体现语料中的自然比例关系,造成了短规则匹 配概率低下,影响标注正确率;第二种方法具有更大的可行 性和优越性。但是,通过统计得到的规则集还不能直接用于 标注:第一,用上文使用得最大似然估计法估计参数会造成严重的数据稀疏问题,低概率事件常常被忽略。,规则的出现概率受到其长度的制约。实验发现,短规则出现概率通常高于长规则,但规则的出现

8、概率高不等 于该规则作为“地”字结构的概率高,甚至有相反的趋势。我们使用一种简单的加权方法,并将权值转化为费用:Feeweighti = P (rulei) x Fee(rulei) x (Len(rulei)-1)公式 2其中,Fee(rulei)表示 rulei的费用,Len(rulei)表示规则 rulei 的长度。为解决数据稀疏的问题,采用了一阶马尔 可夫过程计算规则费用:transij 是指从“地”字结构内部获取的词性 tagi 到 tagj的转移概率。对于某一条具体的规则 rulei ,Feeweighti 值越大,它用于“地”字结构标注的概率越小。当某一个字符串能匹配 多条规则时

9、,优先选择费用最低的规则进行标注。2.2.3上下文信息 对标记串的概率优选只利用了词性信息,一些词语上下文信息对识别也非常有帮助。我们制定了三张词表来进行概率标注后的微调。左界外词表记录常常仅作为 DS左界外词的词语,如“等”,左界内词表记录常常仅作为 DS左界内词的词语,如“很”,非DS左词词表记录常常只出现在名 词“地”左邻,而不出现在助词“地”左邻的词语。3.实验结果及分析3.1实验结果分析 我们应用 9801.tag 作训练语料, 1 月份和 2月份的切分语料(分别记为 9801.cut 和 9802.cut )作测试语料,进行了 多次实验。3.1.1相异词表实验 考虑到词表对于“地”

10、字结构标注的影响,分别应用从9801.tag 的“地”字结构中提取的封闭的小词表 (917词条), 并使用开放的先验大词表(约 155000 词条)进行测试,其召回率(Recall)和调和平均值(F)可计算如下:测试结果如表 1 和表 2 所示:词表对于标注的影响非常明显。从“地”字结构中提取出的小词表减少了词语的词性选择维度,有利于提高精确率, 但词语数量不够的问题,降低了召回率。先验的大词表基本 能够保证词语数量的充足,有利于提高召回率,但加剧了词 性标记的竞争,降低了正确率。另外,大词表中可能存在的 错误,也会对识别产生影响。综合正确率、召回率和调和平均值可以看出,使用大词表的开放测试取

11、得了比较好的结果。3.1.2相异规模实验 为考察算法的有效性和健壮性,我们使用先验的大词表对 9802p.cut 和 9802.cut 进行了对比性的开放测试,测试结 果如表 3 和表 4 所示:从测试结果可以看出,我们所采用的算法具有较好的健壮性,对于大词表开放测试, 9802.cut 的正确率甚至略优于9802p.cut 的测试数据。3.2错误分析 大词表测试数据表明:实验中最主要的错误类型是错误识别(Fw)和多余识别(Fm)的问题。错误识别即因该识别的结 构定界不准确而导致的错误,这些错误涉及到以上提到的各种语法结构,主要包含以下几种情况:在DS中,也可以作谓语的修饰语:考虑到句 a 存

12、在的可能性,我们没有将“又”列入左界外词表,带来了如句 b 的标注错误(用 *号表示,下同) 。事 实上,在 9802.cut 中并没有出现 a 所示的情况。因此标志词词表如何制定还需要进一步考虑和完善。3.2.2标点分隔的并列结构作状语,以上算法缺乏识别能力,如:c.*从而全面 、【完整 、准确 地】回答 了 什么是 社会主义 。3.2.3语料问题,如分词问题。d.*她 还 把 学 到 的 技术 毫无 【保留 地】 传教给 别人 。毫无保留”作为一个词切分更合适,例 d 切分为两个词,造成了识别错误。324固定结构,如“般地”,“像般地”。e.*像 【洪流 般 地】向前 移动 。多余识别,即

13、名词“地”被作为助词处理,是另一个重要的错误来源,从识别算法可以看出,我们使用的统计方法 对多余识别的错误缺乏辨别能力,因此名词“地”的排歧任 务主要由非 DS 左词词表完成,虽然名词“地”前一词具有定的特征,如量词“亩” ,完全收录这部分词仍然困难,如:地”字结构的自动识别可以减少句法分析的歧义,是概率选择的识别方法,取得了比较好的效果。在今后的研究 中,我们将逐步进行改进和提高参考文献:京语言文化大学出版社, 2000 年。2郭志立:用统计方法研究“的”字短语的结构和边界计算机时代的汉语和汉字研究, 1997 年。3王立霞:现代汉语介词短语边界识别研究息学报, 2005 年第 3 期。4吴云芳:汉语介词结构的自动标注北京语言文化大学硕士论文, 1998 年。5赵军,黄昌宁:基于转换的汉语基本名词短语识别6周强、孙茂松、黄昌宁:汉语最长名词短语的自动识别软件学报, 2000 年。钱小飞,南京师范大学文学院)

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1