1、基于改进编辑距离的中文相似句子检索基于改进编辑距离的中文相似句子检索 车万翔 刘挺 秦兵 李生(哈尔滨工业大学计算机学院信息检索研究室 哈尔滨 150001car, tliu摘要 中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域, 具有非常广泛 的应用背景。 本文提出的基于改进编辑距离的中文相似句子检索方法, 在使用信息检索技术 提高检索效率的同时, 以普通编辑距离算法为基础, 加入了词汇的语义信息, 使之更加符合 中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相 比, 具有便于扩展, 准确率高等优点。 在基于大规模双语句对检索的英文辅助写作系统中使
2、用该算法进行中文句子检索,最后获得了 81.33%的查准率和 95.31%的查全率。关键词:改进编辑距离、相似句子检索、英文辅助写作0 引言相似句子检索, 在自然语言处理领域具 有非常广泛的应用背景, 如信息过滤技术中 的句子模糊匹配, 基于实例机器翻译的原语 言检索, 自动问答技术中常问问题集的检索 以及问题与答案的匹配, 基于双语语料库的 英文辅助写作等。因此长期以来,相似句子 检索问题,一直为人们所热衷。目前句子相似度计算一般分为三个等 级 1,分别为语法相似度、语义相似度和语 用相似度。计算句子之间的语用相似度,一 直是人们的目标, 但是其计算具有相当的难 度, 效果还不尽如人意。 而
3、在一般的应用中, 只计算句子的语义相似度就能够达到我们 的需要。句子的语义相似,指的是两个句子 之间结构类似并且词汇使用同义或者近义 词代替。例如:“我喜欢吃苹果”与“我爱 吃香蕉”就是一对语义相似的句子。目前对句子语义相似度计算的研究方 法主要有:基于相同词汇的方法 1、使用语义词典的方法 23、使用编辑距离 4的方法,以及基于统计的方法 5等。其中, 基于相同词汇的方法有很明显的局限性, 对 于同义词之间的替换则无能为力。 而使用语 义词典的方法,可以很好的解决这一问题, 但是单纯的使用语义词典的方法, 并没有考 虑到句子内部的结构和词语之间的相互作 用关系,准确率不高。编辑距离通常被用于
4、句子的快速模糊 匹配领域,但是其规定的编辑操作不够灵 活,也没有考虑词语的同义替换。最后基于 统计的方法,需要构造大量的训练语料,工 作量是十分巨大的, 而且还存在着数据稀疏 的问题。我们所提出的改进编辑距离的方法, 吸 取了基于语义词典的方法和编辑距离方法 的优点,同时克服了它们的一些不足。与普 通编辑距离算法不同, 改进编辑距离方法同 时使用了 HowNet 6和同义词词林 7两种 语义资源,计算词汇之间的语义距离,同时 赋予不同编辑操作不同的权重, 在不用经过 词义消歧和句法分析的情况下, 兼顾了词汇 的顺序和语义等信息,最终获得了 81.33%的查准率和 95.31%的查全率。本文的第
5、 1部分描述了英文辅助写作系统框架以及各 个模块的算法。第 2部分给出了测试结果。 第 3部分讨论该系统的优点和缺点。 第 4部 分给出了最后的结论。1.相似句子检索863计划(2002AA147020-11、国家自然科学基金(60203020资助项目。 男, 1980年生,博士生;研究方向为自然语言处理,信息检索;联系人。相似句子检索过程如图 1所示。 核心的相似句子检索算法由候选句子 粗匹配和句子相似度计算两部分组成。其 中, 候选句子粗匹配模块首先到句库中找到 可能与输入为相似句的候选句子, 目的是提 高检索效率。 句子相似度计算模块将每一个 候选句子与输入句进行仔细的相似度计算, 并按
6、照相似度的大小排序, 获得最终的输出 结果。1.1候选句子粗匹配候选句子粗匹配由词扩展和快速检索 两个子部分构成。首先为了获得较高的召回率, 必须对分 词以后的各个词汇进行适当的同义词扩展。 在此,对同义词的定义即不能太宽泛,又不 能太严格。如果太宽泛,将检索到许多无关 的句子,降低了系统的准确率和效率;而如 果太严格,又可能漏掉许多有用的句子,降 低了系统的召回率。在此使用 HowNet 语义辞典作为同义词 扩展的资源。 HowNet 中同义词的定义为具 有 相 同 的 英 语 译 文 (W_E 和 语 义 定 义 (DEF 的词汇。例如“我”和“俺” ,简 化词条如下:NO.=085498
7、 W_C=我W_E=IDEF=firstPerson|我 NO.=000701 W_C=俺W_E=IDEF=firstPerson|我可见, “我”和“俺”具有相同的英语 译 文 (W_E “ I ” 和 语 义 定 义 (DEF “ firstPerson|我” , 是一对同义词。 在表 1中, 我们给出了使用 HowNet 进行词扩展的一些 例子。从中可以看出,使用 HowNet 进行词 的扩展,效果是比较理想的。表 1. HowNet进行词扩展示例 原词 扩展词俺 本人 鄙人 我 吾俺们 我方 我们 吾 吾侪 咱 咱们 按 按捺 把持 扼制 管束 收 束 压 压制 抑制 制 制约 羁 按
8、键 按钮 电键其次,为提高系统的效率,首先对整个 语料库进行初步的筛选, 确定数量不多但有 可能与用户的需求相似的候选句, 然后对这 些候选句进行精确的语义相似度计算, 得出 最终的结果。选择候选句的依据是, 如果一个句子中 与用户的需求相同或同义的词越多, 越有可 能与用户的需求相匹配,即权重越大。我们 采用信息检索中常用的倒排文档索引 8的 方法进行检索。在此, 并不需要对用户输入句子中的词 进行词义消歧, 而直接对所有扩展后的词进 行检索。这是由于输入的词并非孤立,当与 其余的词共同检索的时候, 能达到消歧的目 的。以“打”为例,当输入“打毛衣”时, “打”被扩展为“打击” , “编织”
9、等。一个 句子中同时含有“编织”和“毛衣”的可能 性很大,而“打击”和“毛衣”几乎不可能 同时出现在一个句子中。 于是, 含有 “编织” 和“毛衣”的句子更容易成为候选句。按照 句子权重由大到小的顺序,我们选择前 100个句子作为候选句。1.2语义相似度计算本文采用改进编辑距离的算法计算句 子之间的语义相似度。 在介绍改进编辑距离 的算法之前, 首先介绍两个句子之间的编辑 距离以及如何进行计算。编辑距离指从一个以字为单位的句子 变为另一个以字为单位的句子所需要最小 的编辑操作个数。 编辑操作共有 “插入” 、 “ 删 除”和“替换”三种。图 2(a显示了“爱吃 苹果”与“喜欢吃香蕉”之间的编辑
10、距离为 4,如四条虚线所显示。从该计算过程可以看出, 单纯使用以字 为单位编辑距离的方法, 计算出的语义距离 和实际情况是有很大的出入的。首先,编辑 距离算法以字为基本计算单位,而在汉语 中,单个的字往往是不具备意义的。例如上 面的“苹” 、 “果”等字,并不能反映其所合 成词的意义。其次,词语之间的替换操作的 代价并非都是相同的。例如, “爱”被“喜 欢”替换,代价不应该很大。最后,如果在 被检索句子或短语中间加入为数不多的词, 语义也不会有太大改变。例如“爱吃苹果” 与“爱吃甜苹果”就非常相似。 (a编辑距离的 (b改进编辑距离 图 2. 编辑距离与改进编辑距离的比较基于以上的观点, 我们
11、提出了改进编辑 距离算法,即以词汇为基本的计算单位,同 时以 HowNet 和同义词词林作为语义距 离的计算资源,并减小插入操作的代价。HowNet 定义的同义词如前所述。下面 介绍如何使用同义词词林进行语义距离 计算。在同义词词林中,将词的词义分为 大、中、小类描述了一个由上到下,由宽泛 概念到具体词义的语义分类体系, 并将所收 的词按词义分门别类组织在其中。于是,每 个汉语词都按照其语义, 赋予了一个或多个 3位的语义代码,与此分类体系相对应的是 一个词义的编码体系,描述如下: := := := := 例如:“苹果” Bh07, “香蕉” Bh07, “西 红柿” Bh06,。则 A, B
12、两词之间的语 义距离为:, (min , (, b a dist B A Dist b a B=其中, A , B 分别为 A , B 两词具有语义的集合,语义 a , b 之间的距离为:4(2 , (n b a dist =其中 n 为它们之间的语义代码从第 n 类 开始不同,全部相同语义距离为 0。可见 Dist (苹果, 香蕉 =0, Dist (苹果, 西红柿 =2。 这种代数操作要较之使用 HowNet 计算语义 相似度方便、快捷的多。在此,也没有进行词义消歧工作,而使 用两个词之间的最短语义距离作为它们之 间的语义距离。 这是因为我们在候选句子粗 匹配时, 检索到的句子中的词与用户
13、输入句 中的词具有相似的语义, 起到了词义消歧的 目的。表 2规定了词“ A ”与“ B ”进行各种 编辑操作后编辑距离由小到大改变的顺序, 其中, “ *”代表 1至 4个词, “ A ”与“ B ” 为用户输入的两个连续的词, X 为 HowNet 定义的 X 的同义词, X 为同义词词林 定义的 X 的近义词。表 2. 编辑距离改变的次序级别模式据此, 我们可以定义改进编辑距离计算 语义相似度方法中各种编辑操作的代价, 如 表 3所示,其中“ ”代表替换操作。 表 3. 改进编辑距离编辑操作代价定义编辑操作 操作代价A A 0 插入 A A 0.4A ADist (A, A/10 + 0
14、.5其它根据以上对编辑距离的重新定义, “爱 吃苹果”与“喜欢吃香蕉”之间的改进编辑 距离计算如图 2(b所示,其中“爱” “喜欢”代价为 0.5, “苹果” “香蕉”代价 为 0.7。最后改进编辑距离结果为 1.2,要较 之普通编辑距离计算的距离 4,更符合实际 情况。与计算普通的编辑距离相同, 也使用动 态规划算法计算改进编辑距离。 图 3为计算 两个句子 S1与 S2改进编辑距离的算法。 图 3. 改进编辑距离算法最后, 经快速检索步骤检索出来的每个 句子都与用户输入的句子计算出改进编辑 距离,然后按照由小到大的顺序进行排列, 取出前几个作为最终的结果。 本文选择前 10个结果。2.测试
15、结果在现今机器翻译效果不令人满意的情 况下,辅助写作系统逐渐引起了人们的重 视。我们使用基于相似度的句子检索技术, 以大规模的双语句对语料库为资源建立的 英文辅助写作系统, 容许用户输入中文整句 或者短语, 系统在双语句对库中快速的检索 与之相似的中文句子, 对应给出这些句子的 英语翻译。 具有翻译准确, 示例性强等优点。 并且随着收集的双语语料库的增加, 覆盖面 的扩大,辅助写作的效果也会越来越好。目 前,我们收集的双语句对已达到 25万对。 英文辅助写作系统首先将用户输入的 中文整句或者短语分成单独的词汇。在此, 我们采用最大概率分词算法 9。由于输入中 一般不会有未登录词, 因此采用最大
16、概率分 词算法即可达到 95%以上的准确率, 足以满 足系统的要求。我 们 采 用 国 际 上 通 用 的 MMR(Mean Reciprocal Rank评分机制对算法进行评价, 即第一个结果匹配,分数为 1,第二个匹配 分数为 0.5, 第 n 个匹配分数为 1/n, 如果没 有匹配的句子分数为 0。最终的分数为所有 得分之和。我们随机测试了 150个句子或短语, 使 用全部 25万句对双语语料库,最终的平均 分数为:1.254。 其中 122句输入能够找到相 匹配的结果。 在没有给出相应匹配结果的 28个测试句子中,有 22个是在语料库中就没 有相匹配的中文句子, 6个是系统没有给出 相
17、匹配的正确句子。在表 4中,列出了一些 系统输入和输出的最终结果。表 4. 系统输入输出结果示例用户需求 系统输出属于那种人他是那种随波逐流的人。 He is the kind of person who swim with the tide.同那种人打交道得随机应变。 about you when youre dealing with a man like that.挤进了大礼堂大家拥进了房间。Everyone piled into the room. 人们一起挤进了一个小房间。 People were packed together in a small room.同时, 我们又将基于改进
18、编辑距离的中 文相似句子检索方法与单纯基于语义辞典 的方法进行比较。比较结果如表 5所示。其 中,查准率 P 和查全率 R 的定义如下所示:测试句子数含有相匹配的句子数=P子数 语料库中有相匹配的句含有相匹配的句子数 =R可以看到, 改进编辑距离的方法比基于 语义词典的方法在辅助写作系统中, 取得了 更好的效果。 基于语义词典的方法除了进行 语义距离的计算过程中使用单纯的语义词典进行语义距离的计算外, 其余步骤与改进 编辑距离的方法完全相同。另外, 我们建立的英文辅助写作在线演 示系统 , 目前已经收集了超过 5000个真实 有效的翻译查询。经过分析可知,其中主要 的查询为短语和短句, 抽样检
19、查系统的查准 率在 80%以上。表 6. 改进编辑距离的方法与基于语义词典 的方法比较结果方法 改进编辑距离基于语义词 典的方法测试句子数含有正确匹配句子数系统没有给出正确匹配的句子数语料库中没有相匹配的句子数查准率 P查全率 R3.讨论以上测试结果说明, 在英文辅助写作系 统中, 使用改进的编辑距离进行中文相似句 子检索取得了较为理想的效果, 查准率达到 了 81.33%。对匹配不正确的例子进行分析可知, 该 方法目前的问题是如果用户需求的句子较 长,就很难找到与之完全匹配的句子,例如 输入 “顺利到达职场生涯的顶峰” 与输出 “他 当选为总统是他职业生涯的顶峰” ,虽然匹 配了后半部分,但
20、是前面的“顺利到达”并 没有体现出来, 这就需要对句子进行恰当的 分割,然后分别查询。通过使用改进编辑距离的方法与基于 语义的方法相比较可知, 改进编辑距离的方 法考虑了较多的词汇顺序以及距离的信息, 例如对于输入句子S input =“匆匆忙忙交给她”改进编辑距离方法首选结果为: S edit =“她急忙把孩子交给她妹妹照管”而基于语义方法首选结果为:S sem =“她就 匆匆忙忙 挑了一件店里最贵重的衣服,把它 交给 售货员,此人为 她 尽快包好”虽然 S sem 与 S input 中所有的词都匹配,可是并非最好的结果,反而是 S edit 这个与原句词匹配不多的句子更加符合需求。可见,
21、改进编辑距离的方法比基于语义的方法更能反映句子中词汇顺序和距离的信息, 最终取得了更好的效果。4.结论基于改进编辑距离的中文相似句子检索方法在英文辅助写作系统中获得了较好的结果。随着双语语料库的增加,覆盖面的增大, 系统的效果也将有一定的提高。 同时,又具有易于扩展的优点, 我们可以方便的将该方法应用到其它的领域中,如:基于实例的机器翻译中的原语言搜索, 自动问答中的常问问题库检索以及问题与答案匹配等等。为了进一步提高基于改进编辑距离的中文相似句子检索算法的性能, 我们以后需要将句子分成较小的独立子结构分别查询,因为一个较长的句子往往不容易匹配, 这需要使用较复杂的句法分析技术。参考文献1Ni
22、renburg S. Two Approaches of Matching in Example-Based Machine Translation, Proc. TMI-93, Kyoto, Japan,19932秦兵 , 刘挺 , 王洋等 . 基于常问问题集的中文问答系统研究 . 哈尔滨工业大学学报 , 2003, 35(10: 11793Li S, Zhang J, et al. Semantic Computation in Chinese Question-Answering System. 2002, Journal of Computer Science and Technolo
23、gy, 17(6: 9334Ristad E S and Yianilos P N Learningstring-edit distance. 1998, IEEE PAMI, 20(5: 522 5 Chatterjee N, A Statistical Approach for Similarity Measurement Between Sentences for EBMT, 1999 6 董 振 东 , 董 强 . 知 网 . 7 梅家驹, 竺一鸣, 高蕴琦, 殷鸿翔编, 同义词词林第二版, 上海: 上海辞 书出版社, 1996 年 8 Frakes W and Baeza-Yates
24、 R. Information Retrieval: Data Structures and Algorithms. Prentice Hall, Englewood Cliffs, N J, 1992. 9 刘挺, 吴岩, 王开铸. 最大概率分词问 题及其解法. 哈尔滨工业大学学报, 1998, 30(6: 37 Similar Chinese Sentence Retrieval based on Improved Edit-Distance CHE Wan-xiang, LIU Ting, QIN Bing, LI Sheng Information Retrieval Lab, Sch
25、ool of Computer Science and Technology of HIT Harbin 150001 Abstract The approach of similar Chinese sentence retrieval has been used widely in the field of Chinese information processing, such as Example Based Machine Translation (EBMT and so on. The approach of similar Chinese sentence retrieval b
26、ased on improved edit-distance not only uses the technology of information retrieval to improve the efficiency of retrieval, but also adds the semantic information of words into the normal edit-distance approach. The new approach is more consistent with the computation of Chinese sentence similarity
27、. The approach of improved edit-distance has more advantages than original edit-distance algorithm, such as easily extending, high precision and so on. The new approach was used in the English writing assistant system based on a large bilingual sentences pairs and achieved 81.33% precision and 95.31% recall. Keywords: improved edit-distance; similar sentence retrieval; English writing assistant
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1