基于分离模型的中文关键词提取算法研究.docx
《基于分离模型的中文关键词提取算法研究.docx》由会员分享,可在线阅读,更多相关《基于分离模型的中文关键词提取算法研究.docx(15页珍藏版)》请在冰豆网上搜索。
![基于分离模型的中文关键词提取算法研究.docx](https://file1.bdocx.com/fileroot1/2023-1/3/3ce2bc17-287e-4615-8182-03debab6c709/3ce2bc17-287e-4615-8182-03debab6c7091.gif)
基于分离模型的中文关键词提取算法研究
基于分离模型的中文关键词提取算法研究
Vol.23,No.1第23卷第1期中文信息学报
Jan.,20092009年1月JOURNALOFCHINESEINFORMATIONPROCESSING
()文章编号:
10032007720090120063208
基于分离模型的中文关键词提取算法研究
罗准辰,王挺()国防科学技术大学计算机学院,湖南长沙410073
摘要:
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。
通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。
该文提出将关键词提取分为两个问题进行处理:
关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。
该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。
实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。
关键词:
计算机应用;中文信息处理;关键词提取;关键词串;分离模型;互信息;词串边界参数表
中图分类号:
TP391.1文献标识码:
A
ResearchontheChineseKeywordExtractionAlgorithmBasedonSeparateModels
LUOZhun2chen,WANGTing
()SchoolofComputer,NationalUniversityofDefenseTechnology,Changsha,Hunan410073,ChinaAbstract:
Keywordextractionplaysanimportantroleininformationretrieval,automaticsummarizing,textcluste2ring,andtextclassification,etc.Asignificantportionofkeywordsusuallyextractedareactuallykeyphrasesorthewordsnotrecordedyet,whichmakesthekeywordextractionmoredifficult.Thispaperarguesthatthekeywordex2tractioncanbetreatedastwoproblems:
extractingkeywordsandextractingkeyphrases.Akeywordextractional2gorithmbasedonseparatemodelswasproposed,withdifferentfeaturesdevelopedforthetwomentionedproblemssoastoimprovetheaccuracyofkeywordsextractedfromtheChinesedocuments.Theexperimentresultsshowthattheproposedalgorithmhasabetterperformancecomparedwiththetraditionalkeywordextractionalgorithms.Keywords:
computerapplication;Chineseinformationprocessing;keywordextraction;keyphrases;separatemod2el;mutualinformation;word2sequenceboundary
而这些研究都涉及到一个关键的基础性问题,即如
何从文本中提取关键词。
关键词高度概括了文本1引言
的主要内容,易于使不
随着信息时代的发展,信息的表达方式日益多同的读者判断出文本是否是自己需要的内容。
不仅
如此,由于关键词十分精练,故可以利用关键词以很样化,其中文本信息是一种不可替代的方式。
随着
小的计算代价进行文本相关性度量,从而高效地进网络上文本信息的爆炸式增长,手工获取所需的文行信息检索、文本聚类和分类等处理。
在这方面应本信息的难度日益增大,如何提高信息访问的效率用最广泛的还是文本检索。
用户在搜索引擎中输入
成了一个越来越重要的课题。
为了对海量文本信息关键词,系统将出现此关键词的所有文本返回给用
进行有效地组织和处理,研究人员在自动文摘、信息户。
国外对于关键词的研究起步较早,已经建立了
检索、文本分类、文本聚类等方面进行了大量研究,
投稿日期:
2008204218定稿日期:
2008209226
()()基金项目:
国家自然科学基金资助项目60403050;新世纪优秀人才支持计划资助项目NCET20620926
()()作者简介:
罗准辰1984—,男,硕士生,研究方向为自然语言处理;王挺1970—,男,教授,博士生导师,研究方向为自
然语言处理。
[1]一些实用或实验系统。
Turney等设计了GenEx键词串的定义详细介绍了基于分离模型的关键词提
系统,它将遗传算法和C4.5决策树机器学习方法;第4部分说明了对分离取算法以及特征选取的问题
[2]用于关键短语的提取;Witten等开发了系统模型进行评估的实验方法;第5部分给出了实验结
果,并进行了比较和分析;最后对全文进行了总结。
KEA,它采用朴素贝叶斯技术对短语离散的特征值
进行训练,获取模型的权值,以完成下一步从文档中
提取关键短语的任务。
在实际研究和应用中,通常2关键词串的定义
所说的关键词实际上有相当一部分是短语。
短语比
严格意义上的关键词仅含一个词,而关键词短词更具有概括能力,包含的信息更加丰富,研究关键
[3]语至少含两个词,但人们通常习惯把关键词与关键词短语的提取具有更加重要的意义。
Turney和
()词短语统称为关键词有时统称为关键短语。
为了Witten的研究都把文本中连续出现的几个词序列
对不同意义的关键词加以区别,我们在本文以“关键看成候选关键词短语,但并未充分考虑这些词序列
单词”表示仅含一个词的关键词,仍然以“关键词”表是否符合人们习惯认可的短语形式。
一种比较常见
示通常意义上的关键词,即包括关键单词与关键词的研究方法是通过统计N2gram词性匹配模式的方
短语。
汉语文本中词无天然的分割符,而关键词提法来提取关键词短语;另外一个相关的研究领域是
取技术大都先依赖词典分词,结果造成一些未登录Chunk的自动识别,但Anettehelth指出通过自动
词被切分成多个词典中的词。
本文把这些未登录词识别的方法难以获得符合人们习惯的关键词短语,
以及短语统称为词串。
汉语中的关键词则可分为关为此她人工总结了56个词性匹配模式,用于英文关[4]键单词与关键词串。
未登录词与短语有相同的特键词短语的自动提取。
从国内看,由于汉语语言
点,它们在分词时都被切分成由几个词典中的词组本身的特点,没有显式的词边界,为关键词自动标引
成的词序列。
与其他词序列相比,词串在相邻词之任务又增加了一定的难度。
目前主要的工作包括:
间结合更加紧凑。
但未登录词与短语又是不同的,基于PATTree结构获取新词,并采用互信息等统
短语有一定的语法结构,而未登录词本质上还是一计方法对文档的关键词进行标引,但获取候选词
个词。
基于未登录词与短语的相同点与不同点,本选用的PATTree,它的建立用计算机实现时需[5][6]文采用互信息与构造词串边界参数表的方法识别要大量的空间消耗;李素建等提出的利用最
词串。
大熵模型进行关键词自动标引的方法,由于特征
选择和特征参数估计时不够准确,造成关键词自2.1互信息[7]动标引应用时不够理想;王军提出了一种用于
()互信息MIMutualInformation是统计模型中自动标引的文献主题关键词抽取方法,它限于从
衡量两个随机变量X和Y之间关联程度的常用参已标引的结构化语料库中元数据的标题中抽取[8]数,它反映了两变量之间结合的紧密程度,互信息越关键词;索红光等提出了利用《知网》知识库构
大说明X和Y之间存在比较紧密的二元搭配关系,建词汇链的方法,但这种方法只适用于收录在
互信息越小说明X和Y之间基本没有结合关系。
《知网》中的关键词。
虽然国内外研究关键词提
直观上可以根据互信息对任意长度的词序列紧取的方法很多,但存
密程度进行度量,具体如下:
在的难点依然是“关键”的度量与“词”的选择上。
其
()MIwwwww123n-1n中对于一些“关键”的度量方法无法应用于短语是研
(()()())=MinMIww,MIwwMIww1223n-1n究者普遍遇到的问题。
通常所说的关键词实际上有
()1相当一部分是关键的短语和未登录词,而这部分关键
()Pwwi-1i词的抽取是十分困难的问题。
本文提出将关键词提()()2MIwi-1wi=log()()pw×pwi-1i取分为两个问题进行处理:
关键单词提取和关键词()nwwi-1i串提取,设计了一种基于分离模型的中文关键词提取()()pww=3i-1i()nw算法。
该算法并针对关键单词提取和关键词串提取)(nwi-1)(()pwi-1=4这两个问题设计了不同的特征以提高抽取的准确性。
()nw
本文第2部分介绍了关键词串的定义以及如何()nwi)(()pwi=5()通过互信息与词串参数表识别词串;第3部分结合关nw
1期罗准辰等:
基于分离模型的中文关键词提取算法研究65)(其中MIwwwww表示词序列词。
利用机器学习的方法,通过输入一批已标注是123n-1n
wwwww的结合的紧密程度,w表示词,123否为关键词的训练样本,训练一个关键词分类模型,n-1ni
()()通过此模型对新的候选关键词进行是否为关键词的nw表示w在文本中出现次数,nw表示文本中ii
的词数。
词串是一种结合紧密的词序列。
如果词判断。
序列结3.1生成候选关键单词与候选关键词串合得越紧密,则该词序列越有可能是词串。
词序列
类似于一种链式结构,链的强度由链中最薄弱的环汉语中的关键词提取必须首先分词。
但不是所
有的词都适合作为候选关键单词,其中数字、标点符节确定。
因此词序列结合的紧密程度由所有相邻两号都应该过滤。
而对于候选的关键词串来说,同样个词之间互信息的最小值决定。
并不是每个词串都适合作为候选关键词串。
我们选
取词数大于1小于5的词串作为候选关键词串,删2.2词串边界参数表
词串是由一些连续出现的词典词组成,而词串的除其中存在标点、开头词或结尾词是数字的词串。
串头词与串尾词都有一些共同的特点。
比如,经常以,把英文中的关键词提取技术在选择候选关键词时
[2]副词、助词形式存在的词典中的词很少作为词串的串开头词或结尾词是停用词的候选关键词过滤。
我
头词与串尾词,而有部分词典词却经常作为词串的串们以同样的方法对中文中候选关键词的选择问题进
头与串尾。
因此,我们构造了词串边界参数表,近似行了实验,实验结果表明此方法在过滤掉45%左右
评估了所有词典词作为词串串头和串尾的可能性。
的非关键词的情况下,关键词的丢失率不到1.5%。
如果某个词在串头参数表中权值越大,则该词作为词因此在中文中我们采用此方法选择候选关键单词与
候选关键词串。
串串头词的可能性越大,权值越小,则该词作为词串
串头词的可能性越小。
串尾参数表同样如此。
3.2分离模型
传统的关键词抽取研究中,关键单词样本与关
键词串样本是不加区别的。
通过同时对所有标注好
的关键单词样本与关键词串样本进行训练形成一个
整体模型。
然后以此模型来判断其他未标注的候选
关键单词与候选关键词串。
然而正如我们在第2部
分介绍的那样,词串类似一种链式结构,其本身具有图1词串边界参数表构造过程一定的结构特点,不应简单地把词与词串等同,而应
该把它们分开考虑。
正是因为传统的研究中把词与如图1所示,我们把一个拥有548387个词条
词串一同训练,使得许多“关键”特征无法在词与词的词典作为大型词典A;标准分词器S中的词典作
串上通用,或者忽略了词与词串各自所特有的有效为原始词典B,此词典拥有108750个词条,标准分
特征。
因此我们针对词和词串的不同特性设计相应词器S采用最长逆向匹配算法进行分词。
词典A
的特征,并把关键单词样本集合与关键词串样本集不仅包含所有词典B中的词条,还包含许多人们日
合分别进行学习和训练,以获得关键单词模型与关常生活经常用到的词串。
我们从词典A中过滤掉
键词串模型。
在应用这两个模型抽取文本关键单词所有出现在词典B中的词条,得到近似的词串词典
和关键词串时,将根据两个不同的模型分别对候选C。
接着利用分词器S对词典C中所有词条进行分
关键单词与候选关键词串进行判断。
此分离模型不词,统计词典B中所有词条作为词典C中串头词与
但可以根据词与词串的不同特点添加不同的“关键”串尾词的数目,依次作为词典词的权值,从而生成串
(,而且在相同的条件下比整体模型效果更好本特征头参数表D和串尾参数表E。
)文第5部分的实验结果证实了这一点。
3基于分离模型的关键词提取算法3.3特征选取
由于分离模型是对词与词串分别建立模型,所,即文本我们把关键词提取看成一个分类问题
中每个候选关键词是属于关键词还是属于非关键以在“关键”特征的选取上,两个模型可以选取不同
[2]的特征。
在Witten等开发的KEA系统中,候选密程度,互信息值越大,词序列结合得越紧密且越可关键词的TF×IDF值与首次出现的位置POS是判能成为词串,成为词串的可能性越大,则该候选关键断候选关键词是否为关键词最有效的特征,我们同词串成为关键词串的可能性越大,反之亦然;样选取这两个特征并都应用于词和词串两个模型的()?
HB与TB:
串头与串尾参数第2部分,候()建立。
但特征TF×IDF有两个缺点:
1对于需要选关键词串中串头词或串尾词在词串边界参数表中提取关键词的短文本来说,它们的候选关键词的
权值越大,则候选关键词串作为词串可能性越大,因TF×IDF值相对比长文本小,这是因为同一个候选
()关键词在短文本中的词频比长文本小;2由于此该候选关键词串作为关键词串的可能性也越大;
)(IDF反转文档频率是数据集中出现该候选关键词反之亦然。
的文档数目的倒数,可能一些无意义的候选关键词
由于相对集中出现在少量文档中而使得IDF值过4实验方法大,影响了文本中候选关键词的提取。
针对
TF×IDF的不足,我们另外选取了两个特征:
前面介绍了关键词串的定义以及分离模型的()?
NWTNumberWordsofText:
文本中所本质,即把关键词提取分成关键单词提取与关键含的词数,通过该特征可以解决小文本中候选关键词串提取两个问题。
如何更好地利用分离模型完词TF×IDF值相对较小的问题;成关键词提取任务,我们做了一些探索,提出了两
(?
TF×IFTermFrequency×Inverse种以分离模型为基础的实验方法:
分类实验、评分
)实验。
下面对两种方法的具体实现过程分别进行Frequency:
候选关键词在一篇文档中出现的频率
介绍。
与它在整个数据文档集中词频倒数的积,通过该特
征克服了TF×IDF的第二个缺点。
如表1所示,对于候选关键单词与候选关键词4.1分类实验
串来说,以上四个特征都能作为判断它们是否为关
选取一批已手工标注关键词的文档作为训练键单词或关键词串的属性特征,并以此构造分类模
集。
同时对每一个文档生成候选关键单词与候选关型。
另外长度LEN、互信息MI、串头参数HB、串尾
键词串,并以此作为每一个文档的关键单词候选项参数TB可以单独作为候选关键词串的属性特征,
集合与关键词串候选项集合。
每一个候选项按照表具体如下:
1计算特征,形成特征向量。
如果候选关键单词或()?
LENLength:
词串所含词数;
候选关键词串属于手工标注的关键词,则为正例,否()()?
MIMutualInformation:
互信息2.1节,通
则为反例。
选取所有的候选关键单词样本作为关键过该特征可以度量候选关键词串中词序列结合的紧
单词模型训练样本集合,选取所有的候选关键词串表1特征基本信息
样本作为关键词串模型训练样本集合。
选取所有的
候选关键单词样本与候选关键词串样本作为整体模
型训练样本集合。
当然候选关键单词与候选关键词特征编号特征名称特征意义适用模型串生成的特征向量长度是不同的。
因为整体模型中词频与反转文关键单词模型、TF×IDF的候选关键单词无法抽取对应的LEN、MI、HB和()1档频率的积关键词串模型TB特征,而整体模型又必须能判定候选关键单词,关键单词模型、首次出现位置()2POS所以候选关键单词在抽取这几个特征时选定默认关键词串模型值。
我们假定每个候选关键单词样本的LEN为1、关键单词模型、文本所含词数()3NWT[9]关键词串模型MI为0、HB与TB为0。
接着我们利用LIBSVM关键单词模型、词频与反转频对三个训练样本集合进行训练,获得关键单词模型、TF×IF()4关键词串模型率的积关键词串模型、整体模型。
词串所含词数关键词串模型()5LEN对于新文档,首先自动获得候选关键单词集合与候选关键词串集合。
然后对于每一个候选关键单互信息关键词串模型()6MI词分别假设其为关键单词,并根据该候选关键单词串头参数关键词串模型()7HB的特征获得特征向量,最后利用关键单词模型对候串尾参数关键词串模型()8TB选关键单词进行是否为关键单词的判断。
候选关键
1期罗准辰等:
基于分离模型的中文关键词提取算法研究67
词串同样也如此。
而整体模型可以同时判断候选关签,可以看成作者手工标注的关键词。
我们选取了键单词与候选关键词串。
其中拥有5个tag标签的中文博客,总共有2096篇。
每篇博客的平均词数为1270。
由于很多tag标签4.2评分实验并没有出现在它自己的博客中,因此所有语料总共
只拥有9339个tag标签。
我们选取其中1572篇在LIBSVM的二分类问题中,新样本的分类是博客作为训练集,剩下的524篇博客作为测试集。
通过模型中的分类器评分判定的。
基于LIBSVM我们利用LIBSVM对训练集中的候选关键单词的实现原理,我们修改了LIBSVM的部分代码,使与候选关键词串按照表1选取的特征进行训练,但得LIBSVM训练出的分类模型可以对新样本成为由于每篇文本的非关键词数目远远多于关键词数正例的可能性评分。
目,使得训练样本的正例与反例极不平衡。
为此我[10]与分类实验中构造训练模型方法一样,我们同们采用ChongHuang的方法,随机地在反例样本
集合中选取样本,使得训练集中正例与反例的数目样选取一批已手工标注关键词的文档作为训练集构
造了关键单词评分器、关键词串评分器、整体评分基本为1?
1,具体数目见表2。
器。
对于新文档中的候选关键单词,计算该候选关键表2分类实验训练集中正例与反例的具体数目单词的特征并形成特征向量,利用关键单词评分器对
其评分,分值越高,该候选关键单词越可能是关键单
关键单词模型关键词串模型整体模型词;分值越低,则越可能是非关键单词。
利用关键词
串评分器对候选关键词串评分类似,而整体评分器可正例数目反例数目正例数目反例数目正例数目反例数目以同时对候选关键单词与候选关键词串评分。
547855161154112866326644
5实验结果及分析按照分类实验的方法训练出关键单词模型、关
键词串模型、整体模型。
然后分别对测试集进行测Web网站中抓取了博客网页作为关键我们从试,结果如表3、表4。
词提取测试的语料。
因为每篇博客中都有tag标
表3分类实验候选关键单词测试结果
关键单词模型整体模型特征选取整体F1整体F1正例准确反例准确整体准确正例准确反例准确整体准确()编号表示值/%值/%率/%率/%率/%率/%率/%率/%()()1280.091090.085590.005984.759581.114988.708388.646884.7138()()()