信息检索2词典PPT文档格式.ppt

上传人:b****1 文档编号:14325641 上传时间:2022-10-22 格式:PPT 页数:75 大小:1.17MB
下载 相关 举报
信息检索2词典PPT文档格式.ppt_第1页
第1页 / 共75页
信息检索2词典PPT文档格式.ppt_第2页
第2页 / 共75页
信息检索2词典PPT文档格式.ppt_第3页
第3页 / 共75页
信息检索2词典PPT文档格式.ppt_第4页
第4页 / 共75页
信息检索2词典PPT文档格式.ppt_第5页
第5页 / 共75页
点击查看更多>>
下载资源
资源描述

信息检索2词典PPT文档格式.ppt

《信息检索2词典PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《信息检索2词典PPT文档格式.ppt(75页珍藏版)》请在冰豆网上搜索。

信息检索2词典PPT文档格式.ppt

)查询:

LIMIT!

/3STATUTEACTION/SFEDERAL/2TORT/3CLAIM/3=within3words,/S=insamesentence,12,13,Google中是否使用布尔模型?

Google默认是与(AND)操作,输入查询w1w2.wn意味着w1ANDw2AND.ANDwn当返回文档不包含某个词wi时,可能是如下情形:

指向该页面的锚文本包含wi页面包含wi的变形(不同形态的同一词,拼写校对,同义等等)长查询(nlarge)布尔表达式返回的结果少简单的布尔检索vs.结果的排序简单的布尔检索只返回匹配上的文档,不考虑结果顺序Google和其他大部分精心设计的布尔引擎均对结果进行排序,以使好的结果排在差的结果的前面,13,本讲的内容,索引构建过程(特别是预处理)如何对索引文档进行处理来得到词典理解文档(document)的概念词条化(Tokenization),理解词条(token)的概念词项生成,理解词项(term)的概念倒排记录表更快的合并算法:

跳表法(skiplist)短语查询的处理及带位置信息的倒排索引,提纲,15,上一讲回顾文档词项通常做法+非英语处理英语跳表指针短语查询,回顾倒排索引构建,待索引文档,Friends,Romans,countrymen.,词条化工具,语言分析工具,词典,文档分析,文档格式处理pdf/word/excel/html?

文档语言识别文档编码识别,文档语言识别和编码识别理论上都可以看成分类问题,基于后面章节的分类方法可以处理。

但是实际中,常常采用启发式方法,多格式/语言并存,待索引文档集可能同时包含多种语言的文档在同一索引中词汇表中包含来自多个语言的词项有时文档或者其部件中包含多种语言/格式法语邮件中带一个德语的pdf格式附件如何确定索引的单位?

文件为单位?

邮件为单位?

如果邮件带有5个附件,怎么办?

一组文件?

(比如采用html格式写的某个PPT文档),提纲,19,上一讲回顾文档词项通常做法+非英语处理英语跳表指针短语查询,TOKENSANDTERMS,词条和词项,词条化(Tokenization),输入:

“Friends,RomansandCountrymen”输出:

词条(Token)FriendsRomansCountrymen词条就是一个字符串实例词条在经过进一步处理之后将放入倒排索引中的词典中后面会讲词条化中的问题-词条如何界定?

词条化,一系列问题:

FinlandscapitalFinland?

Finlands?

Hewlett-Packard:

是看成Hewlett和Packard两个词条还是一个词条?

state-of-the-art:

co-educationlowercase,lower-case,lowercase?

SanFrancisco:

到底是一个还是两个词条?

如何判断是一个词条?

词条化中数字的处理,3/20/91Mar.12,199120/3/9155B.C.B-52【B-52轰炸机,美国的一种轰炸机】PGP密钥:

324a3df234cb23e【PGP是一个基于RSA公匙加密体系的邮件加密软件】

(800)234-2333通常中间有空格早期的IR系统可能不索引数字但是数字却常常很有用:

比如在Web上查找错误代码(一种处理方法是采用n-gram:

见第三讲)元数据是分开还是一起索引创建日期、格式等等,语言问题:

法语和德语,法语Lensemble【全部】到底是一个还是两个词条?

L?

Le?

但是常常希望lensemble能和unensemble【一组】匹配至少在2003年以前,Google没有这样处理国际化问题!

德语中复合名词连写Lebensversicherungsgesellschaftsangestellterlifeinsurancecompanyemployee【人寿保险公司员工】德语检索系统往往要使用一个复合词拆分的模块,而且该模块对检索结果的提高有很大帮助(可以提高15%),语言问题:

中文和日文,中文和日文词之间没有间隔:

莎拉波娃现在居住在美国东南部的佛罗里达。

分词结果无法保证百分百正确,“和尚”毕业和尚未毕业的,结婚和尚未结婚的。

日文中可以同时使用多种类型的字母表日期/数字可以采用不同的格式,500社情報不足時間$500K(約6,000万円),而终端用户可能完全用平假名方式输入查询!

中文分词(ChineseWordSegmentation),对于中文,分词的作用实际上是要找出一个个的索引单位例子:

李明天天都准时上班索引单位字:

李明天天都准时上班索引量太大,查全率百分百,但是查准率低,比如查“明天”这句话也会出来词:

李明天天都准时上班索引量大大降低,查准率较高,查全率不是百分百,而且还会受分词错误的影响,比如上面可能会切分成:

李明天天都准时上班,还有:

他和服务人员照相字词混合方式/k-gram/多k-gram混合一般原则,没把握的情况下细粒度优先,26,中文分词,中文分词是很多中文文本处理的第一步我国科学家近日研制出一套水下反恐监控系统我国科学家近日研制出一套水下反恐监控系统分词方法基于是否使用词典:

基于词典的方法:

给出一部词典,根据这部词典进行匹配无词典的方法:

不需要词典,根据某种人工构词规则或者统计规则从字生成词。

规则或者统计方法:

基于规则的方法:

通过某种判定规则,确定是否为词统计方法:

基于语料库统计+机器学习,27,中文分词,正向最大匹配(基于词典的方法)假设只考虑一元和二元词项二元词典的确,确实,实在,在理,28,0123456,他,说,的,确,实,在,理,中文分词,逆向最大匹配(基于词典的方法)二元词典的确,确实,实在,在理,29,0123456,他,说,的,确,实,在,理,中文分词,分词中遇到的两大难题:

未登录词问题(OutofVocabulary,OOV):

出现词典中没有的词,如:

人名、地名、机构名、一些新词等等歧义问题(Ambiguition):

同一句子有多种可能的分词结果交叉性歧义:

我们小组合成氢气我们/小组/合成/氢气或我们/小/组合/成/氢气组合性歧义:

他/从/马/上/下/来;

我/马上/就/来/了,30,中文分词,解决歧义和未登录词识别的基本方法:

规则方法:

分词过程中或者分词结束后根据规则进行处理;

统计方法:

分词过程中或者分词结束后根据统计训练信息进行处理。

规则+统计,31,中文分词和检索,以下是当前某些研究的结论或猜测,仅供参考并非分词精度高一定检索精度高评价标准不同分词规范问题:

鸡蛋、鸭蛋、鹌鹑蛋目标不同检索中的分词:

查询和文档切分采用一致的分词系统速度快倾向细粒度,保证召回率多粒度并存搜索引擎中的分词方法猜想:

大词典+统计+启发式规则,32,语言问题:

阿拉伯文,阿拉伯文(或希伯来文)通常从右到左书写,但是某些部分(如数字)是从左到右书写词之间是分开的,但是单词中的字母形式会构成复杂的连接方式开始Algeriaachieveditsindependencein1962after132yearsofFrenchoccupation.在Unicode编码方式下,表面的表示方式很复杂,但是存储上倒是十分直接,停用词,根据停用词表(stoplist),将那些最常见的词从词典中去掉。

比如直观上可以去掉:

一般不包含语义信息的词:

the,a,and,to,be汉语中的“的”、“得”、“地”等等。

这些词都是高频词:

前30个词就占了30%的倒排记录表空间现代信息检索系统中倾向于不去掉停用词:

在保留停用词的情况下,采用良好的压缩技术(第五章)后,停用词所占用的空间可以大大压缩,最终它们在整个倒排记录表中所占的空间比例很小采用良好的查询优化技术(第七章)基本不会增加查询处理的开销所谓的停用词并不一定没用,比如:

短语查询:

“KingofDenmark”、歌曲名或者台词等等:

“Letitbe”,“Tobeornottobe”、“关系型”查询“flightstoLondon”,词条归一化(Normalization)成词项,将文档和查询中的词归一化成同一形式:

U.S.A.和USA归一化的结果就是词项,而词项就是我们最终要索引的对象可以采用隐式规则的方法来表示多个词条可以归一成同一词项,比如剔除句点U.S.A.,USAUSA剔除连接符anti-discriminatory,antidiscriminatoryantidiscriminatory,归一化中的语言问题,重音符:

如法语中rsumvs.resume.日耳曼语系中的元音变化:

如德语中的Tuebingenvs.Tbingen【德国地名】应该是一致的最重要的准则:

用户在输入查询时遇到这些词如何输入?

即使在有重音符号的语言中,用户也往往不输入这些符号常常归一化成不带重音符号的形式Tuebingen,Tbingen,TubingenTubingen,归一化中的语言问题,时间格式7月30日vs.7/30日语中用假名或者汉字表示日期词条化和归一化都可能与语言相关,因此必须要做语言识别另外,谨记要将文档和查询中的同义词归一化成同一形式,MorgenwillichinMIT,提纲,38,上一讲回顾文档词项通常做法+非英语处理英语跳表指针短语查询,大小写问题,可以将所有字母转换成小写形式例外:

句中的大写单词?

e.g.,GeneralMotors(GM,通用公司)Fed(美联储)vs.fed(饲养)SAIL(印度钢铁管理局)vs.sail(航行)通常情况下将所有字母转成小写是一种很合适的方式,因为用户倾向于用小写方式输入Google的例子:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 图表模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1