地字结构识别.docx-资源下载

地字结构识别.docx

1、地字结构识别地”字结构识别地”摘要 “地”字结构是汉语中有标记的状语结构，字结构的自动识别作为浅层句法分析的任务之一可以减少自动句法分析的歧义。本文在分析“地”字结构性质的基础上，利用规则与统计相结合的方法，基于分词文本对“地” 字结构进行了对比性的识别研究。实验利用 200 万字的语料进行训练，将获取的数据用于自动识别，获得了较好的效果。关键词 “地”字结构句法分析规则概率汉语是一种缺乏形态变化的语言，传达了较少的形式化信息，增加了自然语言处理的歧义。在自动句法分析的过程中，汉语缺少可直接利用的形式信息，增加了分析的难度。20世纪80年代末，国外开始了关于组块 (Chu

2、nk)的研究，并提出了浅层句法分析的概念，希望通过语块的识别和语块之间依附关系的分析来实现对完全句法分析任务的分解。90 年代以来，国内学者在汉语的浅层句法分析方面也做的结构和边界。王立霞、吴云芳使用概率模型识别了介词短语的边界。赵军提出了基于转换的汉语基本名词短语(baseNP)识别模型。周强利用边界概率分布和内部结构组合对最长名词短语（MNP）进行了较为全面的识别分析。这些研究主要集中于对名词短语和介词短语的识别，为汉语的自动处理做出了有益的探索。作为浅层句法分析的任务之一， “地”字结构的自动识别可以有效地减少句法分析的歧义。由于“地”字结构在句中处于状语的位置，对于一些简

3、单的单句而言，该结构的自动识别常常可以帮助找到谓语中心，划定句子的基本结构，我们可以给出这样的形式化表示：S=SZ+Subj+SZ+DS+P+Obj其中，S表示单句，SZ表示句首或小句状语，DS表示“地”字结构， P 表示谓语中心， Subj 表示主语， Obj 表示宾语，表示可以出现也可以不出现， +表示语法分隔。本文分为四个部分，第一部分对“地”字结构进行定义和分类，第二部分介绍统计与规则相结合的“地”字结构识别算法，第三部分分析实验结果，第四部分结语。1.“地”字结构的定义及分类1.1“地”字结构的定义地”字结构是以结构助词“地”为右边界标志，在句中动词前作状语，直接修饰动词或谓

4、语中心语的一种句法结构。我们把“地”字结构定义为“修饰语 +地”的形式。1.2“地”字结构分类地”字结构内部存在多种句法关系，表现为修饰语部分可以是单个词语，也可以是句法组合，包括状中组合、并句法层次和句法关系对它进一步细分。构。构。简单“地”字结构的修饰语是单元的，即内部只有一个元素，不存在句法组合关系，如：新的游客【源源不断地】涌来。复杂“地”字结构的修饰语有多个元素组合而成，这些元素之间满足一定的句法组合关系。根据这些关系，可以将复杂“地”字结构进一步细分为多元修饰型、多元并列型、多元主谓型以及多元述宾型等：多元修饰型：修饰语为“状语 +中心语”形式的“地字结构，如“很

5、努力地”。多元并列型：修饰语为“并列成分 +连接成分 +并列成多元主谓型：修饰语为“主语 +谓语”形式的“地”字结构，如“程度不同地”。多元述宾型：修饰语为“述语 +宾语”形式的“地”字结构，如“有计划地”。2.统计与规则相结合的“地”字结构识别策略2.1识别目标地”字结构识别的目标是准确地确定“地”字结构的左右边界。本研究以“ 【”作为“地”字结构左界标志，以结果格式如下：中国认为，伊拉克应【全面、切实地】履行联合国有关决议。2.2识别算法根据“地”字结构的特点，在语料统计分析的基础上，我们确定采用规则匹配、概率加权选择和上下文调整相结合的策略进行识别。

6、2.2.1规则匹配我们以人民日报 1998年 1月份的标记语料(记为98O1.tag)作为训练语料，对其中的“地”字结构进行人工标注，并提取出每一个具体的“地”字结构的词性标记串及其出现概率，组成“地”字结构的标记串规则集，此规则集中包含了 100 条规则，其中任意一条规则的出现概率 P(rulei)的计算公式如下：我们应用此标记串规则集的具体规则对每一个“地”字结构进行可能匹配：对于每一条标记串规则，获取相同长度的“地”字结构词串，并通过查词典的方式取得该词串所有的可能标记串，如果存在某条可能标记串与标记串规则匹配，则该标记串规则作为一条可能匹配规则；如此记录下所有的可能匹配规

7、则，并统计其出现概率。2.2.2概率加权选择由于面对的是分词文本，规则的长度和词串所对应的标记串都是不确定的，在实际标注过程中有两种选择：一种选择是长规则优先匹配，规则长度相同时，高频规则优先匹配；另一种选择是通过规则的出现概率进行优选。实验表明，第种选择不能体现语料中的自然比例关系，造成了短规则匹配概率低下，影响标注正确率；第二种方法具有更大的可行性和优越性。但是，通过统计得到的规则集还不能直接用于标注：第一，用上文使用得最大似然估计法估计参数会造成严重的数据稀疏问题，低概率事件常常被忽略。，规则的出现概率受到其长度的制约。实验发现，短规则出现概率通常高于长规则，但规则的出现

8、概率高不等于该规则作为“地”字结构的概率高，甚至有相反的趋势。我们使用一种简单的加权方法，并将权值转化为费用：Feeweighti = P (rulei) x Fee(rulei) x (Len(rulei)-1)公式 2其中，Fee(rulei)表示 rulei的费用，Len(rulei)表示规则 rulei 的长度。为解决数据稀疏的问题，采用了一阶马尔可夫过程计算规则费用：transij 是指从“地”字结构内部获取的词性 tagi 到 tagj的转移概率。对于某一条具体的规则 rulei ，Feeweighti 值越大，它用于“地”字结构标注的概率越小。当某一个字符串能匹配多条规则时

9、，优先选择费用最低的规则进行标注。2.2.3上下文信息对标记串的概率优选只利用了词性信息，一些词语上下文信息对识别也非常有帮助。我们制定了三张词表来进行概率标注后的微调。左界外词表记录常常仅作为 DS左界外词的词语，如“等”，左界内词表记录常常仅作为 DS左界内词的词语，如“很”，非DS左词词表记录常常只出现在名词“地”左邻，而不出现在助词“地”左邻的词语。3.实验结果及分析3.1实验结果分析我们应用 9801.tag 作训练语料， 1 月份和 2月份的切分语料（分别记为 9801.cut 和 9802.cut ）作测试语料，进行了多次实验。3.1.1相异词表实验考虑到词表对于“地”

10、字结构标注的影响，分别应用从9801.tag 的“地”字结构中提取的封闭的小词表（917词条），并使用开放的先验大词表（约 155000 词条）进行测试，其召回率（Recall）和调和平均值（F）可计算如下:测试结果如表 1 和表 2 所示：词表对于标注的影响非常明显。从“地”字结构中提取出的小词表减少了词语的词性选择维度，有利于提高精确率，但词语数量不够的问题，降低了召回率。先验的大词表基本能够保证词语数量的充足，有利于提高召回率，但加剧了词性标记的竞争，降低了正确率。另外，大词表中可能存在的错误，也会对识别产生影响。综合正确率、召回率和调和平均值可以看出，使用大词表的开放测试取

11、得了比较好的结果。3.1.2相异规模实验为考察算法的有效性和健壮性，我们使用先验的大词表对 9802p.cut 和 9802.cut 进行了对比性的开放测试，测试结果如表 3 和表 4 所示：从测试结果可以看出，我们所采用的算法具有较好的健壮性，对于大词表开放测试， 9802.cut 的正确率甚至略优于9802p.cut 的测试数据。3.2错误分析大词表测试数据表明：实验中最主要的错误类型是错误识别（Fw）和多余识别（Fm）的问题。错误识别即因该识别的结构定界不准确而导致的错误，这些错误涉及到以上提到的各种语法结构，主要包含以下几种情况：在DS中，也可以作谓语的修饰语:考虑到句 a 存

12、在的可能性，我们没有将“又”列入左界外词表，带来了如句 b 的标注错误（用 *号表示，下同）。事实上，在 9802.cut 中并没有出现 a 所示的情况。因此标志词词表如何制定还需要进一步考虑和完善。3.2.2标点分隔的并列结构作状语，以上算法缺乏识别能力，如：c.*从而全面、【完整、准确地】回答了什么是社会主义。3.2.3语料问题，如分词问题。d.*她还把学到的技术毫无【保留地】传教给别人。毫无保留”作为一个词切分更合适，例 d 切分为两个词，造成了识别错误。324固定结构，如“般地”,“像般地”。e.*像【洪流般地】向前移动。多余识别，即

13、名词“地”被作为助词处理，是另一个重要的错误来源，从识别算法可以看出，我们使用的统计方法对多余识别的错误缺乏辨别能力，因此名词“地”的排歧任务主要由非 DS 左词词表完成，虽然名词“地”前一词具有定的特征，如量词“亩” ，完全收录这部分词仍然困难，如：地”字结构的自动识别可以减少句法分析的歧义，是概率选择的识别方法，取得了比较好的效果。在今后的研究中，我们将逐步进行改进和提高参考文献：京语言文化大学出版社， 2000 年。2郭志立：用统计方法研究“的”字短语的结构和边界计算机时代的汉语和汉字研究， 1997 年。3王立霞：现代汉语介词短语边界识别研究息学报， 2005 年第 3 期。4吴云芳：汉语介词结构的自动标注北京语言文化大学硕士论文， 1998 年。5赵军，黄昌宁：基于转换的汉语基本名词短语识别6周强、孙茂松、黄昌宁：汉语最长名词短语的自动识别软件学报， 2000 年。钱小飞，南京师范大学文学院）

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？