ImageVerifierCode 换一换
格式:DOCX , 页数:15 ,大小:115.77KB ,
资源ID:6077148      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/6077148.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于分离模型的中文关键词提取算法研究.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

基于分离模型的中文关键词提取算法研究.docx

1、基于分离模型的中文关键词提取算法研究基于分离模型的中文关键词提取算法研究Vol . 23 , No . 1 第 23 卷 第 1 期中文信息学报J a n. , 2009 2009 年 1 月J O U RN AL O F C H IN ES E IN FO RMA T IO N P RO C ESS IN G () 文章编号 : 100320077 20090120063208 基于分离模型的中文关键词提取算法研究罗准辰 ,王 挺 ()国防科学技术大学 计算机学院 ,湖南 长沙 410073 摘 要 : 关键词提取在自动文摘 、信息检索 、文本分类 、文本聚类等方面具有十分重要的作用 。通常

2、所说的关键词实际上有相当一部分是关键的短语和未登录词 ,而这部分关键词的抽取是十分困难的问题 。该文提出将关键词提 取分为两个问题进行处理 : 关键单词提取和关键词串提取 ,设计了一种基于分离模型的中文关键词提取算法 。该 算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明 ,相对于 传统的关键词提取算法 ,基于分离模型的中文关键词提取算法效果更好 。 关键词 : 计算机应用 ;中文信息处理 ;关键词提取 ;关键词串 ;分离模型 ;互信息 ;词串边界参数表 中图分类号 : T P391 . 1文献标识码 : AResearc h on the Chine

3、se Key word Extraction Algorithm Ba sed on Separate Model s L U O Zhun2chen , WA N G Ti ng ( )School of Co mp uter , Natio nal U niver sit y of Def ense Technolo gy , Cha ngsha , H unan 410073 , China Abstract : Keywo r d ext ractio n plays a n impo rta nt role in info r matio n ret rieval , a uto m

4、atic summa rizing , text cl uste2 ring , and text cla ssificatio n , etc . A significant po rtio n of keywo r ds usuall y ext ract ed a re act ually key p hra se s o r t he wo r ds no t reco r ded yet , w hich ma ke s t he keywo r d ext ractio n mo re difficult . Thi s p aper a r gue s t hat t he ke

5、ywo r d ex2 t ractio n can be t reated a s t wo p ro blems : ext racting key wo r ds and ext racting key p hra se s. A keywo r d ext ractio n al2 go rit hm ba sed o n sep a rate mo del s wa s p ropo sed , wit h diff erent f eat ure s develop ed fo r t he t wo mentio ned p ro blems so a s to imp ro v

6、e t he accuracy of keywo r ds ext racted f ro m t he Chinese document s. The experiment result s sho w t hat t he p ropo sed algo rit hm ha s a bet ter p erfo r ma nce co mpa red wit h t he t raditio nal keywo r d ext ractio n algo rit hms. Key words : co mp uter applicatio n ; Chine se info r matio

7、 n p roce ssing ; keywo r d ext ractio n ; keyp hra se s ; sep arate mo d2 el ; mut ual info r matio n ; wo rd2sequence bo unda r y 而这些研究都涉及到一个关键的基础性问题 ,即如何从文本中提取关键词 。 关键词高度概括了文本1 引言的主要内容 ,易于使不 随着信息时代的发展 ,信息的表达方式日益多同的读者判断出文本是否是自己需要的内容 。不仅如此 ,由于关键词十分精练 ,故可以利用关键词以很 样化 ,其中文本信息是一种不可替代的方式 。随着 小的计算代价进行文本相

8、关性度量 ,从而高效地进 网络上文本信息的爆炸式增长 ,手工获取所需的文 行信息检索 、文本聚类和分类等处理。在这方面应 本信息的难度日益增大 ,如何提高信息访问的效率 用最广泛的还是文本检索。用户在搜索引擎中输入 成了一个越来越重要的课题。为了对海量文本信息 关键词 ,系统将出现此关键词的所有文本返回给用 进行有效地组织和处理 ,研究人员在自动文摘、信息 户。国外对于关键词的研究起步较早 ,已经建立了 检索、文本分类 、文本聚类等方面进行了大量研究 , 投稿日期 : 2008204218 定稿日期 : 2008209226 () ( )基金项目 : 国家自然科学基金资助项目 60403050

9、;新世纪优秀人才支持计划资助项目 N C E T20620926 () ( ) 作者简介 : 罗准辰 1984 ,男 ,硕士生 ,研究方向为自然语言处理 ; 王挺 1970 ,男 ,教授 ,博士生导师 ,研究方向为自 然语言处理 。 1 一些实用或实验系统。Tur ney 等设计了 Ge n Ex键词串的定义详细介绍了基于分离模型的关键词提系统 ,它将遗传算法和 C4 . 5 决策树机器学习方法 ;第 4 部分说明了对分离 取算法以及特征选取的问题 2 用于 关 键 短 语 的 提 取 ; Wit t e n 等开 发 了 系 统 模型进行评估的实验方法 ; 第 5 部分给出了实验结 果 ,并

10、进行了比较和分析 ;最后对全文进行了总结。 KEA ,它采用朴素贝叶斯技术对短语离散的特征值 进行训练 ,获取模型的权值 ,以完成下一步从文档中 提取关键短语的任务。在实际研究和应用中 ,通常 2 关键词串的定义所说的关键词实际上有相当一部分是短语 。短语比 严格意义上的关键词仅含一个词 ,而关键词短词更具有概括能力 ,包含的信息更加丰富 ,研究关键 3 语至少含两个词 ,但人们通常习惯把关键词与关键 词短语的提取具有更加重要的意义。Tur ney 和 () 词短语统称为关键词 有时统称为关键短语。为了 Wit t e n 的研究都把文本中连续出现的几个词序列 对不同意义的关键词加以区别 ,我

11、们在本文以“关键 看成候选关键词短语 ,但并未充分考虑这些词序列 单词”表示仅含一个词的关键词 ,仍然以“关键词”表是否符合人们习惯认可的短语形式。一种比较常见 示通常意义上的关键词 ,即包括关键单词与关键词 的研究方法是通过统计 N2gra m 词性匹配模式的方 短语。汉语文本中词无天然的分割符 ,而关键词提 法来提取关键词短语 ; 另外一个相关的研究领域是 取技术大都先依赖词典分词 ,结果造成一些未登录 Ch unk 的自动识别 ,但 A net t e helt h 指出通过自动 词被切分成多个词典中的词。本文把这些未登录词 识别的方法难以获得符合人们习惯的关键词短语 , 以及短语统称为

12、词串 。汉语中的关键词则可分为关 为此她人工总结了 56 个词性匹配模式 ,用于英文关 4 键单词与关键词串。未登录词与短语有相同的特 键词短语的自动提取。从国内看 ,由于汉语语言 点 ,它们在分词时都被切分成由几个词典中的词组 本身的特点 ,没有显式的词边界 ,为关键词自动标引 成的词序列 。与其他词序列相比 ,词串在相邻词之任务又增加了一定的难度 。目前主要的工作包括 : 间结合更加紧凑。但未登录词与短语又是不同的 ,基于 PA T Tree 结构获取新词 ,并采用互信息等统 短语有一定的语法结构 ,而未登录词本质上还是一 计方法对文档的关键词进行标引 , 但获取候选词 个词。基于未登录词

13、与短语的相同点与不同点 ,本 选用的 PA T Tree , 它的建立用计算机实现时 需 5 6 文采用互信息与构造词串边界参数表的方法识别 要大量的空间消耗; 李素建等提出的利用最 词串。 大熵模型进行关键词自动标引的方法 , 由于特征 选择和特征参数估计时不够准确 , 造成关键词自 2 . 1 互信息 7 动标引应用时不够理想 ; 王军提出了一种用于 ( ) 互信息 M I M ut ual Info r matio n是统计模型中自动标引的文献主题关键词抽取方法 , 它限于从 衡量两个随机变量 X 和 Y 之间关联程度的常用参 已标引的结构化语料库中元数据的标题中抽取 8 数 , 它反映

14、了两变量之间结合的紧密程度 , 互信息越 关键词 ; 索红光等提出了利用知网知识库构 大说明 X 和 Y 之间存在比较紧密的二元搭配关系 , 建词汇 链 的 方 法 , 但 这 种 方 法 只 适 用 于 收 录 在互信息越小说明 X 和 Y 之间基本没有结合关系。 知网中的关键词 。 虽然国内外研究关键词提直观上可以根据互信息对任意长度的词序列紧 取的方法很多 ,但存 密程度进行度量 , 具体如下 :在的难点依然是“关键”的度量与“词”的选择上。其 ( ) M I wwww w 1 2 3n- 1 n 中对于一些“关键”的度量方法无法应用于短语是研 ( ( ) ( )( ) ) = Mi n

15、 M I ww, M I ww M I w w 1 2 2 3 n- 1 n 究者普遍遇到的问题 。通常所说的关键词实际上有 ( )1 相当一部分是关键的短语和未登录词 ,而这部分关键 ( ) P w w i - 1 i 词的抽取是十分困难的问题。本文提出将关键词提 ( ) ( ) 2 M I w i - 1 w i = lo g( ) ( ) p w p w i - 1 i 取分为两个问题进行处理 : 关键单词提取和关键词 ( )n w w i - 1 i 串提取 ,设计了一种基于分离模型的中文关键词提取 ( ) ( ) p w w =3 i - 1 i ( )n w 算法。该算法并针对关键

16、单词提取和关键词串提取 )( n w i - 1 ) ( ( )p w i - 1 =4 这两个问题设计了不同的特征以提高抽取的准确性。 ( )n w 本文第 2 部分介绍了关键词串的定义以及如何 ( ) n w i ) ( ( )p w i =5 ( )通过互信息与词串参数表识别词串 ;第 3 部分结合关n w 1 期罗准辰等 : 基于分离模型的中文关键词提取算法研究 65 ) ( 其 中 M I wwww w 表 示 词 序 列词。利用机器学习的方法 ,通过输入一批已标注是1 2 3n - 1 n www w w 的结合的紧密程度 , w 表示词 ,1 2 3否为关键词的训练样本 ,训练一

17、个关键词分类模型 , n - 1 n i ( ) ( ) 通过此模型对新的候选关键词进行是否为关键词的 n w 表示 w 在文本中出现次数 , n w 表示文本中i i 的词数。 词串是一种结合紧密的词序列。如果词判断。 序列结 3 . 1 生成候选关键单词与候选关键词串合得越紧密 ,则该词序列越有可能是词串。词序列 类似于一种链式结构 ,链的强度由链中最薄弱的环 汉语中的关键词提取必须首先分词。但不是所有的词都适合作为候选关键单词 ,其中数字、标点符 节确定。因此词序列结合的紧密程度由所有相邻两 号都应该过滤。而对于候选的关键词串来说 ,同样 个词之间互信息的最小值决定 。 并不是每个词串都

18、适合作为候选关键词串。我们选 取词数大于 1 小于 5 的词串作为候选关键词串 ,删 2 . 2 词串边界参数表词串是由一些连续出现的词典词组成 ,而词串的除其中存在标点 、开头词或结尾词是数字的词串 。串头词与串尾词都有一些共同的特点。比如 ,经常以 ,把英文中的关键词提取技术在选择候选关键词时 2 副词、助词形式存在的词典中的词很少作为词串的串 开头词或结尾词是停用词的候选关键词过滤。我 头词与串尾词 ,而有部分词典词却经常作为词串的串 们以同样的方法对中文中候选关键词的选择问题进 头与串尾。因此 ,我们构造了词串边界参数表 ,近似 行了实验 ,实验结果表明此方法在过滤掉 45 %左右评估

19、了所有词典词作为词串串头和串尾的可能性。 的非关键词的情况下 ,关键词的丢失率不到 1 . 5 % 。如果某个词在串头参数表中权值越大 ,则该词作为词 因此在中文中我们采用此方法选择候选关键单词与候选关键词串。 串串头词的可能性越大 ,权值越小 ,则该词作为词串 串头词的可能性越小。串尾参数表同样如此。 3 . 2 分离模型传统的关键词抽取研究中 ,关键单词样本与关键词串样本是不加区别的。通过同时对所有标注好 的关键单词样本与关键词串样本进行训练形成一个 整体模型 。然后以此模型来判断其他未标注的候选 关键单词与候选关键词串。然而正如我们在第 2 部 分介绍的那样 ,词串类似一种链式结构 ,其

20、本身具有 图 1 词串边界参数表构造过程一定的结构特点 ,不应简单地把词与词串等同 ,而应 该把它们分开考虑。正是因为传统的研究中把词与 如图 1 所示 ,我们把一个拥有 548 387 个词条词串一同训练 ,使得许多“关键”特征无法在词与词 的词典作为大型词典 A ; 标准分词器 S 中的词典作 串上通用 ,或者忽略了词与词串各自所特有的有效 为原始词典 B ,此词典拥有 108 750 个词条 ,标准分 特征。因此我们针对词和词串的不同特性设计相应 词器 S 采用最长逆向匹配算法进行分词 。词典 A的特征 ,并把关键单词样本集合与关键词串样本集 不仅包含所有词典 B 中的词条 ,还包含许多

21、人们日 合分别进行学习和训练 ,以获得关键单词模型与关 常生活经常用到的词串 。我们从词典 A 中过滤掉 键词串模型 。在应用这两个模型抽取文本关键单词 所有出现在词典 B 中的词条 ,得到近似的词串词典 和关键词串时 ,将根据两个不同的模型分别对候选 C 。接着利用分词器 S 对词典 C 中所有词条进行分 关键单词与候选关键词串进行判断 。此分离模型不词 ,统计词典 B 中所有词条作为词典 C 中串头词与 但可以根据词与词串的不同特点添加不同的“关键” 串尾词的数目 ,依次作为词典词的权值 ,从而生成串( ,而且在相同的条件下比整体模型效果更好 本特征 头参数表 D 和串尾参数表 E 。)

22、文第 5 部分的实验结果证实了这一点。3 基于分离模型的关键词提取算法 3 . 3 特征选取由于分离模型是对词与词串分别建立模型 ,所 ,即文本我们把关键词提取看成一个分类问题 中每个候选关键词是属于关键词还是属于非关键以在“关键”特征的选取上 ,两个模型可以选取不同 2 的特征 。在 Wit t e n 等开发的 KEA 系统中 ,候选密程度 ,互信息值越大 ,词序列结合得越紧密且越可关键词的 T F ID F 值与首次出现的位置 PO S 是判 能成为词串 ,成为词串的可能性越大 ,则该候选关键 断候选关键词是否为关键词最有效的特征 ,我们同 词串成为关键词串的可能性越大 ,反之亦然 ;

23、样选取这两个特征并都应用于词和词串两个模型的 () ? HB 与 TB : 串头与串尾参数 第 2 部分,候 ( ) 建立。但特征 T F ID F 有两个缺点 : 1对于需要 选关键词串中串头词或串尾词在词串边界参数表中 提取关键词的短文本来说 , 它们的候选关键词的 权值越大 ,则候选关键词串作为词串可能性越大 ,因 T F ID F 值相对比长文本小 ,这是因为同一个候选 ( ) 关键词在短文本中的词频比长文本小 ; 2 由于 此该候选关键词串作为关键词串的可能性也越大 ; ) (ID F 反转文档频率是数据集中出现该候选关键词 反之亦然 。 的文档数目的倒数 ,可能一些无意义的候选关键

24、词 由于相对集中出现在少量文档中而使得 ID F 值过 4 实验方法大 , 影 响 了 文 本 中 候 选 关 键 词 的 提 取 。针 对 T F ID F 的不足 ,我们另外选取了两个特征 : 前面介绍了关键词串的定义以及分离模型的( ) ? N W T N umbe r Wo r d s of Te xt : 文本中所 本质 ,即把关键词提取分成关键单词提取与关键 含的词数 ,通过该特征可以解决小文本中候选关键 词串提取两个问题 。如何更好地利用分离模型完 词 T F ID F 值相对较小的问题 ; 成关键词提取任务 ,我们做了一些探索 , 提出了两 ( ? T F IF Ter m F

25、reque ncy Inver se种以分离模型为基础的实验方法 : 分类实验 、评分 ) 实验 。下面对两种方法的具体实现过程分别进行 Freque ncy: 候选关键词在一篇文档中出现的频率 介绍 。 与它在整个数据文档集中词频倒数的积 ,通过该特 征克服了 T F ID F 的第二个缺点。如表 1 所示 ,对于候选关键单词与候选关键词 4 . 1 分类实验串来说 ,以上四个特征都能作为判断它们是否为关 选取一批已手工标注关键词的文档作为训练键单词或关键词串的属性特征 ,并以此构造分类模 集。同时对每一个文档生成候选关键单词与候选关 型。另外长度 L EN 、互信息 M I 、串头参数 H

26、B 、串尾 键词串 ,并以此作为每一个文档的关键单词候选项 参数 TB 可以单独作为候选关键词串的属性特征 ,集合与关键词串候选项集合。每一个候选项按照表 具体如下 :1 计算特征 ,形成特征向量 。如果候选关键单词或() ? L EN L e ngt h: 词串所含词数 ;候选关键词串属于手工标注的关键词 ,则为正例 ,否 () ( ) ? MIMut ual Info rmatio n: 互信息2. 1 节,通 则为反例 。选取所有的候选关键单词样本作为关键 过该特征可以度量候选关键词串中词序列结合的紧 单词模型训练样本集合 ,选取所有的候选关键词串 表 1 特征基本信息 样本作为关键词串

27、模型训练样本集合。选取所有的 候选关键单词样本与候选关键词串样本作为整体模 型训练样本集合。当然候选关键单词与候选关键词 特征编号 特征名称 特征意义 适用模型 串生成的特征向量长度是不同的 。因为整体模型中 词频与反转文 关键单词模型 、 T F ID F 的候选关键单词无法抽取对应的 L EN 、M I 、HB 和 ()1 档频率的积 关键词串模型 TB 特征 ,而整体模型又必须能判定候选关键单词 , 关键单词模型 、 首次出现位置 ()2 PO S 所以候选关键单词在抽取这几个特征时选定默认 关键词串模型 值。我们假定每个候选关键单词样本的 L EN 为 1 、关键单词模型 、 文本所含

28、词数 ()3 N W T 9 关键词串模型 M I 为 0 、HB 与 TB 为 0 。接着我们利用 L IB SV M 关键单词模型 、 词频与反转频 对三个训练样本集合进行训练 ,获得关键单词模型 、T F IF ()4 关键词串模型率的积 关键词串模型、整体模型。 词串所含词数 关键词串模型 ()5 L EN 对于新文档 ,首先自动获得候选关键单词集合 与候选关键词串集合 。然后对于每一个候选关键单 互信息 关键词串模型 ()6 M I 词分别假设其为关键单词 ,并根据该候选关键单词 串头参数 关键词串模型 ()7 HB 的特征获得特征向量 ,最后利用关键单词模型对候 串尾参数 关键词串

29、模型 ()8 TB 选关键单词进行是否为关键单词的判断。候选关键 1 期罗准辰等 : 基于分离模型的中文关键词提取算法研究 67 词串同样也如此。而整体模型可以同时判断候选关签 ,可以看成作者手工标注的关键词。我们选取了键单词与候选关键词串。 其中拥有 5 个 tag 标签的中文博客 ,总共有 2 096 篇。每篇博客的平均词数为 1 270 。由于很多 t a g 标签 4 . 2 评分实验并没有出现在它自己的博客中 ,因此所有语料总共 只拥有 9 339 个 t a g 标签 。我们选取其中 1 572 篇 在 L IB SV M 的二分类问题中 ,新样本的分类是博客作为训练集 ,剩下的

30、524 篇博客作为测试集。 通过模型中的分类器评分判定的。基于 L IB SV M 我们利用 L IB SV M 对训练集中的候选关键单 词的实现原理 ,我们修改了 L IB SV M 的部分代码 , 使 与候选关键词串按照表 1 选取的特征进行训练 , 但得 L IB SV M 训练出的分类模型可以对新样本成为 由于每篇文本的非关键词数目远远多于关键词数 正例的可能性评分。 目 ,使得训练样本的正例与反例极不平衡。为此我 10 与分类实验中构造训练模型方法一样 ,我们同们采用 Cho ng H ua ng的方法 ,随机地在反例样本 集合中选取样本 ,使得训练集中正例与反例的数目 样选取一批已

31、手工标注关键词的文档作为训练集构 造了关键单词评分器 、关键词串评分器、整体评分 基本为 1 ?1 ,具体数目见表 2 。 器。对于新文档中的候选关键单词 ,计算该候选关键 表 2 分类实验训练集中正例与反例的具体数目 单词的特征并形成特征向量 ,利用关键单词评分器对 其评分 ,分值越高 ,该候选关键单词越可能是关键单 关键单词模型 关键词串模型 整体模型 词 ;分值越低 ,则越可能是非关键单词。利用关键词 串评分器对候选关键词串评分类似 ,而整体评分器可 正例数目 反例数目 正例数目 反例数目 正例数目 反例数目 以同时对候选关键单词与候选关键词串评分。 5 478 5 516 1 154

32、1 128 6 632 6 644 5 实验结果及分析 按照分类实验的方法训练出关键单词模型、关键词串模型 、整体模型。然后分别对测试集进行测 We b 网站中抓取了博客网页作为关键我们从 试 ,结果如表 3 、表 4 。 词提取测试的语料。因为每篇博客中都有 t a g 标表 3分类实验候选关键单词测试结果关键单词模型 整体模型 特征选取 整体 F1 整体 F1 正例准确 反例准确 整体准确 正例准确 反例准确 整体准确 ()编号表示 值/ %值/ % 率/ % 率/ % 率/ % 率/ % 率/ % 率/ % () ()12 80 . 091 0 90 . 085 5 90 . 005 9 84 . 759 5 81 . 114 9 88 . 708 3 88 . 646 8 84 . 713 8 () () ()

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1