基于分离模型的中文关键词提取算法研究.docx-资源下载

基于分离模型的中文关键词提取算法研究.docx

1、基于分离模型的中文关键词提取算法研究基于分离模型的中文关键词提取算法研究Vol . 23 , No . 1 第 23 卷第 1 期中文信息学报J a n. , 2009 2009 年 1 月J O U RN AL O F C H IN ES E IN FO RMA T IO N P RO C ESS IN G () 文章编号 : 100320077 20090120063208 基于分离模型的中文关键词提取算法研究罗准辰 ,王挺 ()国防科学技术大学计算机学院 ,湖南长沙 410073 摘要 : 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常

2、所说的关键词实际上有相当一部分是关键的短语和未登录词 ,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理 : 关键单词提取和关键词串提取 ,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明 ,相对于传统的关键词提取算法 ,基于分离模型的中文关键词提取算法效果更好。关键词 : 计算机应用 ;中文信息处理 ;关键词提取 ;关键词串 ;分离模型 ;互信息 ;词串边界参数表中图分类号 : T P391 . 1文献标识码 : AResearc h on the Chine

3、se Key word Extraction Algorithm Ba sed on Separate Model s L U O Zhun2chen , WA N G Ti ng ( )School of Co mp uter , Natio nal U niver sit y of Def ense Technolo gy , Cha ngsha , H unan 410073 , China Abstract : Keywo r d ext ractio n plays a n impo rta nt role in info r matio n ret rieval , a uto m

4、atic summa rizing , text cl uste2 ring , and text cla ssificatio n , etc . A significant po rtio n of keywo r ds usuall y ext ract ed a re act ually key p hra se s o r t he wo r ds no t reco r ded yet , w hich ma ke s t he keywo r d ext ractio n mo re difficult . Thi s p aper a r gue s t hat t he ke

5、ywo r d ex2 t ractio n can be t reated a s t wo p ro blems : ext racting key wo r ds and ext racting key p hra se s. A keywo r d ext ractio n al2 go rit hm ba sed o n sep a rate mo del s wa s p ropo sed , wit h diff erent f eat ure s develop ed fo r t he t wo mentio ned p ro blems so a s to imp ro v

6、e t he accuracy of keywo r ds ext racted f ro m t he Chinese document s. The experiment result s sho w t hat t he p ropo sed algo rit hm ha s a bet ter p erfo r ma nce co mpa red wit h t he t raditio nal keywo r d ext ractio n algo rit hms. Key words : co mp uter applicatio n ; Chine se info r matio

7、 n p roce ssing ; keywo r d ext ractio n ; keyp hra se s ; sep arate mo d2 el ; mut ual info r matio n ; wo rd2sequence bo unda r y 而这些研究都涉及到一个关键的基础性问题 ,即如何从文本中提取关键词。关键词高度概括了文本1 引言的主要内容 ,易于使不随着信息时代的发展 ,信息的表达方式日益多同的读者判断出文本是否是自己需要的内容。不仅如此 ,由于关键词十分精练 ,故可以利用关键词以很样化 ,其中文本信息是一种不可替代的方式。随着小的计算代价进行文本相

8、关性度量 ,从而高效地进网络上文本信息的爆炸式增长 ,手工获取所需的文行信息检索、文本聚类和分类等处理。在这方面应本信息的难度日益增大 ,如何提高信息访问的效率用最广泛的还是文本检索。用户在搜索引擎中输入成了一个越来越重要的课题。为了对海量文本信息关键词 ,系统将出现此关键词的所有文本返回给用进行有效地组织和处理 ,研究人员在自动文摘、信息户。国外对于关键词的研究起步较早 ,已经建立了检索、文本分类、文本聚类等方面进行了大量研究 , 投稿日期 : 2008204218 定稿日期 : 2008209226 () ( )基金项目 : 国家自然科学基金资助项目 60403050

9、;新世纪优秀人才支持计划资助项目 N C E T20620926 () ( ) 作者简介 : 罗准辰 1984 ,男 ,硕士生 ,研究方向为自然语言处理 ; 王挺 1970 ,男 ,教授 ,博士生导师 ,研究方向为自然语言处理。 1 一些实用或实验系统。Tur ney 等设计了 Ge n Ex键词串的定义详细介绍了基于分离模型的关键词提系统 ,它将遗传算法和 C4 . 5 决策树机器学习方法 ;第 4 部分说明了对分离取算法以及特征选取的问题 2 用于关键短语的提取 ; Wit t e n 等开发了系统模型进行评估的实验方法 ; 第 5 部分给出了实验结果 ,并

10、进行了比较和分析 ;最后对全文进行了总结。 KEA ,它采用朴素贝叶斯技术对短语离散的特征值进行训练 ,获取模型的权值 ,以完成下一步从文档中提取关键短语的任务。在实际研究和应用中 ,通常 2 关键词串的定义所说的关键词实际上有相当一部分是短语。短语比严格意义上的关键词仅含一个词 ,而关键词短词更具有概括能力 ,包含的信息更加丰富 ,研究关键 3 语至少含两个词 ,但人们通常习惯把关键词与关键词短语的提取具有更加重要的意义。Tur ney 和 () 词短语统称为关键词有时统称为关键短语。为了 Wit t e n 的研究都把文本中连续出现的几个词序列对不同意义的关键词加以区别 ,我

11、们在本文以“关键看成候选关键词短语 ,但并未充分考虑这些词序列单词”表示仅含一个词的关键词 ,仍然以“关键词”表是否符合人们习惯认可的短语形式。一种比较常见示通常意义上的关键词 ,即包括关键单词与关键词的研究方法是通过统计 N2gra m 词性匹配模式的方短语。汉语文本中词无天然的分割符 ,而关键词提法来提取关键词短语 ; 另外一个相关的研究领域是取技术大都先依赖词典分词 ,结果造成一些未登录 Ch unk 的自动识别 ,但 A net t e helt h 指出通过自动词被切分成多个词典中的词。本文把这些未登录词识别的方法难以获得符合人们习惯的关键词短语 , 以及短语统称为

12、词串。汉语中的关键词则可分为关为此她人工总结了 56 个词性匹配模式 ,用于英文关 4 键单词与关键词串。未登录词与短语有相同的特键词短语的自动提取。从国内看 ,由于汉语语言点 ,它们在分词时都被切分成由几个词典中的词组本身的特点 ,没有显式的词边界 ,为关键词自动标引成的词序列。与其他词序列相比 ,词串在相邻词之任务又增加了一定的难度。目前主要的工作包括 : 间结合更加紧凑。但未登录词与短语又是不同的 ,基于 PA T Tree 结构获取新词 ,并采用互信息等统短语有一定的语法结构 ,而未登录词本质上还是一计方法对文档的关键词进行标引 , 但获取候选词个词。基于未登录词

13、与短语的相同点与不同点 ,本选用的 PA T Tree , 它的建立用计算机实现时需 5 6 文采用互信息与构造词串边界参数表的方法识别要大量的空间消耗; 李素建等提出的利用最词串。大熵模型进行关键词自动标引的方法 , 由于特征选择和特征参数估计时不够准确 , 造成关键词自 2 . 1 互信息 7 动标引应用时不够理想 ; 王军提出了一种用于 ( ) 互信息 M I M ut ual Info r matio n是统计模型中自动标引的文献主题关键词抽取方法 , 它限于从衡量两个随机变量 X 和 Y 之间关联程度的常用参已标引的结构化语料库中元数据的标题中抽取 8 数 , 它反映

14、了两变量之间结合的紧密程度 , 互信息越关键词 ; 索红光等提出了利用知网知识库构大说明 X 和 Y 之间存在比较紧密的二元搭配关系 , 建词汇链的方法 , 但这种方法只适用于收录在互信息越小说明 X 和 Y 之间基本没有结合关系。知网中的关键词。虽然国内外研究关键词提直观上可以根据互信息对任意长度的词序列紧取的方法很多 ,但存密程度进行度量 , 具体如下 :在的难点依然是“关键”的度量与“词”的选择上。其 ( ) M I wwww w 1 2 3n- 1 n 中对于一些“关键”的度量方法无法应用于短语是研 ( ( ) ( )( ) ) = Mi n

15、 M I ww, M I ww M I w w 1 2 2 3 n- 1 n 究者普遍遇到的问题。通常所说的关键词实际上有 ( )1 相当一部分是关键的短语和未登录词 ,而这部分关键 ( ) P w w i - 1 i 词的抽取是十分困难的问题。本文提出将关键词提 ( ) ( ) 2 M I w i - 1 w i = lo g( ) ( ) p w p w i - 1 i 取分为两个问题进行处理 : 关键单词提取和关键词 ( )n w w i - 1 i 串提取 ,设计了一种基于分离模型的中文关键词提取 ( ) ( ) p w w =3 i - 1 i ( )n w 算法。该算法并针对关键

16、单词提取和关键词串提取 )( n w i - 1 ) ( ( )p w i - 1 =4 这两个问题设计了不同的特征以提高抽取的准确性。 ( )n w 本文第 2 部分介绍了关键词串的定义以及如何 ( ) n w i ) ( ( )p w i =5 ( )通过互信息与词串参数表识别词串 ;第 3 部分结合关n w 1 期罗准辰等 : 基于分离模型的中文关键词提取算法研究 65 ) ( 其中 M I wwww w 表示词序列词。利用机器学习的方法 ,通过输入一批已标注是1 2 3n - 1 n www w w 的结合的紧密程度 , w 表示词 ,1 2 3否为关键词的训练样本 ,训练一

17、个关键词分类模型 , n - 1 n i ( ) ( ) 通过此模型对新的候选关键词进行是否为关键词的 n w 表示 w 在文本中出现次数 , n w 表示文本中i i 的词数。词串是一种结合紧密的词序列。如果词判断。序列结 3 . 1 生成候选关键单词与候选关键词串合得越紧密 ,则该词序列越有可能是词串。词序列类似于一种链式结构 ,链的强度由链中最薄弱的环汉语中的关键词提取必须首先分词。但不是所有的词都适合作为候选关键单词 ,其中数字、标点符节确定。因此词序列结合的紧密程度由所有相邻两号都应该过滤。而对于候选的关键词串来说 ,同样个词之间互信息的最小值决定。并不是每个词串都

18、适合作为候选关键词串。我们选取词数大于 1 小于 5 的词串作为候选关键词串 ,删 2 . 2 词串边界参数表词串是由一些连续出现的词典词组成 ,而词串的除其中存在标点、开头词或结尾词是数字的词串。串头词与串尾词都有一些共同的特点。比如 ,经常以 ,把英文中的关键词提取技术在选择候选关键词时 2 副词、助词形式存在的词典中的词很少作为词串的串开头词或结尾词是停用词的候选关键词过滤。我头词与串尾词 ,而有部分词典词却经常作为词串的串们以同样的方法对中文中候选关键词的选择问题进头与串尾。因此 ,我们构造了词串边界参数表 ,近似行了实验 ,实验结果表明此方法在过滤掉 45 %左右评估

19、了所有词典词作为词串串头和串尾的可能性。的非关键词的情况下 ,关键词的丢失率不到 1 . 5 % 。如果某个词在串头参数表中权值越大 ,则该词作为词因此在中文中我们采用此方法选择候选关键单词与候选关键词串。串串头词的可能性越大 ,权值越小 ,则该词作为词串串头词的可能性越小。串尾参数表同样如此。 3 . 2 分离模型传统的关键词抽取研究中 ,关键单词样本与关键词串样本是不加区别的。通过同时对所有标注好的关键单词样本与关键词串样本进行训练形成一个整体模型。然后以此模型来判断其他未标注的候选关键单词与候选关键词串。然而正如我们在第 2 部分介绍的那样 ,词串类似一种链式结构 ,其

20、本身具有图 1 词串边界参数表构造过程一定的结构特点 ,不应简单地把词与词串等同 ,而应该把它们分开考虑。正是因为传统的研究中把词与如图 1 所示 ,我们把一个拥有 548 387 个词条词串一同训练 ,使得许多“关键”特征无法在词与词的词典作为大型词典 A ; 标准分词器 S 中的词典作串上通用 ,或者忽略了词与词串各自所特有的有效为原始词典 B ,此词典拥有 108 750 个词条 ,标准分特征。因此我们针对词和词串的不同特性设计相应词器 S 采用最长逆向匹配算法进行分词。词典 A的特征 ,并把关键单词样本集合与关键词串样本集不仅包含所有词典 B 中的词条 ,还包含许多

21、人们日合分别进行学习和训练 ,以获得关键单词模型与关常生活经常用到的词串。我们从词典 A 中过滤掉键词串模型。在应用这两个模型抽取文本关键单词所有出现在词典 B 中的词条 ,得到近似的词串词典和关键词串时 ,将根据两个不同的模型分别对候选 C 。接着利用分词器 S 对词典 C 中所有词条进行分关键单词与候选关键词串进行判断。此分离模型不词 ,统计词典 B 中所有词条作为词典 C 中串头词与但可以根据词与词串的不同特点添加不同的“关键” 串尾词的数目 ,依次作为词典词的权值 ,从而生成串( ,而且在相同的条件下比整体模型效果更好本特征头参数表 D 和串尾参数表 E 。)

22、文第 5 部分的实验结果证实了这一点。3 基于分离模型的关键词提取算法 3 . 3 特征选取由于分离模型是对词与词串分别建立模型 ,所 ,即文本我们把关键词提取看成一个分类问题中每个候选关键词是属于关键词还是属于非关键以在“关键”特征的选取上 ,两个模型可以选取不同 2 的特征。在 Wit t e n 等开发的 KEA 系统中 ,候选密程度 ,互信息值越大 ,词序列结合得越紧密且越可关键词的 T F ID F 值与首次出现的位置 PO S 是判能成为词串 ,成为词串的可能性越大 ,则该候选关键断候选关键词是否为关键词最有效的特征 ,我们同词串成为关键词串的可能性越大 ,反之亦然 ;

23、样选取这两个特征并都应用于词和词串两个模型的 () ? HB 与 TB : 串头与串尾参数第 2 部分,候 ( ) 建立。但特征 T F ID F 有两个缺点 : 1对于需要选关键词串中串头词或串尾词在词串边界参数表中提取关键词的短文本来说 , 它们的候选关键词的权值越大 ,则候选关键词串作为词串可能性越大 ,因 T F ID F 值相对比长文本小 ,这是因为同一个候选 ( ) 关键词在短文本中的词频比长文本小 ; 2 由于此该候选关键词串作为关键词串的可能性也越大 ; ) (ID F 反转文档频率是数据集中出现该候选关键词反之亦然。的文档数目的倒数 ,可能一些无意义的候选关键

24、词由于相对集中出现在少量文档中而使得 ID F 值过 4 实验方法大 , 影响了文本中候选关键词的提取。针对 T F ID F 的不足 ,我们另外选取了两个特征 : 前面介绍了关键词串的定义以及分离模型的( ) ? N W T N umbe r Wo r d s of Te xt : 文本中所本质 ,即把关键词提取分成关键单词提取与关键含的词数 ,通过该特征可以解决小文本中候选关键词串提取两个问题。如何更好地利用分离模型完词 T F ID F 值相对较小的问题 ; 成关键词提取任务 ,我们做了一些探索 , 提出了两 ( ? T F IF Ter m F

25、reque ncy Inver se种以分离模型为基础的实验方法 : 分类实验、评分 ) 实验。下面对两种方法的具体实现过程分别进行 Freque ncy: 候选关键词在一篇文档中出现的频率介绍。与它在整个数据文档集中词频倒数的积 ,通过该特征克服了 T F ID F 的第二个缺点。如表 1 所示 ,对于候选关键单词与候选关键词 4 . 1 分类实验串来说 ,以上四个特征都能作为判断它们是否为关选取一批已手工标注关键词的文档作为训练键单词或关键词串的属性特征 ,并以此构造分类模集。同时对每一个文档生成候选关键单词与候选关型。另外长度 L EN 、互信息 M I 、串头参数 H

26、B 、串尾键词串 ,并以此作为每一个文档的关键单词候选项参数 TB 可以单独作为候选关键词串的属性特征 ,集合与关键词串候选项集合。每一个候选项按照表具体如下 :1 计算特征 ,形成特征向量。如果候选关键单词或() ? L EN L e ngt h: 词串所含词数 ;候选关键词串属于手工标注的关键词 ,则为正例 ,否 () ( ) ? MIMut ual Info rmatio n: 互信息2. 1 节,通则为反例。选取所有的候选关键单词样本作为关键过该特征可以度量候选关键词串中词序列结合的紧单词模型训练样本集合 ,选取所有的候选关键词串表 1 特征基本信息样本作为关键词串

27、模型训练样本集合。选取所有的候选关键单词样本与候选关键词串样本作为整体模型训练样本集合。当然候选关键单词与候选关键词特征编号特征名称特征意义适用模型串生成的特征向量长度是不同的。因为整体模型中词频与反转文关键单词模型、 T F ID F 的候选关键单词无法抽取对应的 L EN 、M I 、HB 和 ()1 档频率的积关键词串模型 TB 特征 ,而整体模型又必须能判定候选关键单词 , 关键单词模型、首次出现位置 ()2 PO S 所以候选关键单词在抽取这几个特征时选定默认关键词串模型值。我们假定每个候选关键单词样本的 L EN 为 1 、关键单词模型、文本所含

28、词数 ()3 N W T 9 关键词串模型 M I 为 0 、HB 与 TB 为 0 。接着我们利用 L IB SV M 关键单词模型、词频与反转频对三个训练样本集合进行训练 ,获得关键单词模型、T F IF ()4 关键词串模型率的积关键词串模型、整体模型。词串所含词数关键词串模型 ()5 L EN 对于新文档 ,首先自动获得候选关键单词集合与候选关键词串集合。然后对于每一个候选关键单互信息关键词串模型 ()6 M I 词分别假设其为关键单词 ,并根据该候选关键单词串头参数关键词串模型 ()7 HB 的特征获得特征向量 ,最后利用关键单词模型对候串尾参数关键词串

29、模型 ()8 TB 选关键单词进行是否为关键单词的判断。候选关键 1 期罗准辰等 : 基于分离模型的中文关键词提取算法研究 67 词串同样也如此。而整体模型可以同时判断候选关签 ,可以看成作者手工标注的关键词。我们选取了键单词与候选关键词串。其中拥有 5 个 tag 标签的中文博客 ,总共有 2 096 篇。每篇博客的平均词数为 1 270 。由于很多 t a g 标签 4 . 2 评分实验并没有出现在它自己的博客中 ,因此所有语料总共只拥有 9 339 个 t a g 标签。我们选取其中 1 572 篇在 L IB SV M 的二分类问题中 ,新样本的分类是博客作为训练集 ,剩下的

30、524 篇博客作为测试集。通过模型中的分类器评分判定的。基于 L IB SV M 我们利用 L IB SV M 对训练集中的候选关键单词的实现原理 ,我们修改了 L IB SV M 的部分代码 , 使与候选关键词串按照表 1 选取的特征进行训练 , 但得 L IB SV M 训练出的分类模型可以对新样本成为由于每篇文本的非关键词数目远远多于关键词数正例的可能性评分。目 ,使得训练样本的正例与反例极不平衡。为此我 10 与分类实验中构造训练模型方法一样 ,我们同们采用 Cho ng H ua ng的方法 ,随机地在反例样本集合中选取样本 ,使得训练集中正例与反例的数目样选取一批已

31、手工标注关键词的文档作为训练集构造了关键单词评分器、关键词串评分器、整体评分基本为 1 ?1 ,具体数目见表 2 。器。对于新文档中的候选关键单词 ,计算该候选关键表 2 分类实验训练集中正例与反例的具体数目单词的特征并形成特征向量 ,利用关键单词评分器对其评分 ,分值越高 ,该候选关键单词越可能是关键单关键单词模型关键词串模型整体模型词 ;分值越低 ,则越可能是非关键单词。利用关键词串评分器对候选关键词串评分类似 ,而整体评分器可正例数目反例数目正例数目反例数目正例数目反例数目以同时对候选关键单词与候选关键词串评分。 5 478 5 516 1 154

32、1 128 6 632 6 644 5 实验结果及分析按照分类实验的方法训练出关键单词模型、关键词串模型、整体模型。然后分别对测试集进行测 We b 网站中抓取了博客网页作为关键我们从试 ,结果如表 3 、表 4 。词提取测试的语料。因为每篇博客中都有 t a g 标表 3分类实验候选关键单词测试结果关键单词模型整体模型特征选取整体 F1 整体 F1 正例准确反例准确整体准确正例准确反例准确整体准确 ()编号表示值/ %值/ % 率/ % 率/ % 率/ % 率/ % 率/ % 率/ % () ()12 80 . 091 0 90 . 085 5 90 . 005 9 84 . 759 5 81 . 114 9 88 . 708 3 88 . 646 8 84 . 713 8 () () ()

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？