ImageVerifierCode 换一换
格式:PPT , 页数:75 ,大小:1.17MB ,
资源ID:14325641      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/14325641.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(信息检索2词典PPT文档格式.ppt)为本站会员(b****1)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

信息检索2词典PPT文档格式.ppt

1、)查询:LIMIT!/3 STATUTE ACTION/S FEDERAL/2 TORT/3 CLAIM/3=within 3 words,/S=in same sentence,12,13,Google中是否使用布尔模型?,Google默认是与(AND)操作,输入查询w1 w2.wn意味着 w1 AND w2 AND.AND wn当返回文档不包含某个词wi 时,可能是如下情形:指向该页面的锚文本包含wi页面包含 wi 的变形(不同形态的同一词,拼写校对,同义等等)长查询(n large)布尔表达式返回的结果少简单的布尔检索 vs.结果的排序简单的布尔检索只返回匹配上的文档,不考虑结果顺序Go

2、ogle和其他大部分精心设计的布尔引擎均对结果进行排序,以使好的结果排在差的结果的前面,13,本讲的内容,索引构建过程(特别是预处理)如何对索引文档进行处理来得到词典理解文档(document)的概念词条化(Tokenization),理解词条(token)的概念词项生成,理解词项(term)的概念倒排记录表更快的合并算法:跳表法(skip list)短语查询的处理及带位置信息的倒排索引,提纲,15,上一讲回顾 文档词项通常做法+非英语处理英语跳表指针短语查询,回顾倒排索引构建,待索引文档,Friends,Romans,countrymen.,词条化工具,语言分析工具,词典,文档分析,文档格式

3、处理pdf/word/excel/html?文档语言识别文档编码识别,文档语言识别和编码识别理论上都可以看成分类问题,基于后面章节的分类方法可以处理。但是实际中,常常采用启发式方法,多格式/语言并存,待索引文档集可能同时包含多种语言的文档在同一索引中词汇表中包含来自多个语言的词项有时文档或者其部件中包含多种语言/格式法语邮件中带一个德语的pdf格式附件如何确定索引的单位?文件为单位?邮件为单位?如果邮件带有5个附件,怎么办?一组文件?(比如采用html格式写的某个PPT文档),提纲,19,上一讲回顾 文档词项通常做法+非英语处理英语跳表指针短语查询,TOKENS AND TERMS,词条和词项

4、,词条化(Tokenization),输入:“Friends,Romans and Countrymen”输出:词条(Token)FriendsRomansCountrymen词条 就是一个字符串实例词条在经过进一步处理之后将放入倒排索引中的词典中后面会讲词条化中的问题-词条如何界定?,词条化,一系列问题:Finlands capital Finland?Finlands?Hewlett-Packard:是看成Hewlett 和 Packard 两个词条还是一个词条?state-of-the-art:co-educationlowercase,lower-case,lower case?San

5、 Francisco:到底是一个还是两个词条?如何判断是一个词条?,词条化中数字的处理,3/20/91 Mar.12,199120/3/9155 B.C.B-52【B-52轰炸机,美国的一种轰炸机】PGP 密钥:324a3df234cb23e【PGP是一个基于RSA公匙加密体系的邮件加密软件】(800)234-2333通常中间有空格早期的IR系统可能不索引数字但是数字却常常很有用:比如在Web上查找错误代码(一种处理方法是采用n-gram:见第三讲)元数据是分开还是一起索引创建日期、格式等等,语言问题:法语和德语,法语Lensemble【全部】到底是一个还是两个词条?L?Le?但是常常希望 l

6、ensemble 能和un ensemble【一组】匹配至少在2003年以前,Google没有这样处理国际化问题!德语中复合名词连写Lebensversicherungsgesellschaftsangestellterlife insurance company employee【人寿保险公司员工】德语检索系统往往要使用一个复合词拆分的模块,而且该模块对检索结果的提高有很大帮助(可以提高15%),语言问题:中文和日文,中文和日文词之间没有间隔:莎拉波娃现在居住在美国东南部的佛罗里达。分词结果无法保证百分百正确,“和尚”毕业和尚未毕业的,结婚和尚未结婚的。日文中可以同时使用多种类型的字母表日期

7、/数字可以采用不同的格式,500社情報不足時間$500K(約6,000万円),而终端用户可能完全用平假名方式输入查询!,中文分词(Chinese Word Segmentation),对于中文,分词的作用实际上是要找出一个个的索引单位例子:李明天天都准时上班索引单位字:李 明 天 天 都 准 时 上 班索引量太大,查全率百分百,但是查准率低,比如查“明天”这句话也会出来词:李明 天天 都 准时 上班索引量大大降低,查准率较高,查全率不是百分百,而且还会受分词错误的影响,比如上面可能会切分成:李 明天 天都 准时 上班,还有:他和服务人员照相字词混合方式/k-gram/多k-gram混合一般原则

8、,没把握的情况下细粒度优先,26,中文分词,中文分词是很多中文文本处理的第一步我国科学家近日研制出一套水下反恐监控系统 我国 科学家 近日 研制 出 一 套 水下 反恐 监控 系统分词方法基于是否使用词典:基于词典的方法:给出一部词典,根据这部词典进行匹配无词典的方法:不需要词典,根据某种人工构词规则或者统计规则从字生成词。规则或者统计方法:基于规则的方法:通过某种判定规则,确定是否为词统计方法:基于语料库统计+机器学习,27,中文分词,正向最大匹配(基于词典的方法)假设只考虑一元和二元词项二元词典的确,确实,实在,在理,28,0 1 2 3 4 5 6,他,说,的,确,实,在,理,中文分词,

9、逆向最大匹配(基于词典的方法)二元词典的确,确实,实在,在理,29,0 1 2 3 4 5 6,他,说,的,确,实,在,理,中文分词,分词中遇到的两大难题:未登录词问题(Out of Vocabulary,OOV):出现词典中没有的词,如:人名、地名、机构名、一些新词等等歧义问题(Ambiguition):同一句子有多种可能的分词结果交叉性歧义:我们小组合成氢气 我们/小组/合成/氢气 或 我们/小/组合/成/氢气组合性歧义:他/从/马/上/下/来;我/马上/就/来/了,30,中文分词,解决歧义和未登录词识别的基本方法:规则方法:分词过程中或者分词结束后根据规则进行处理;统计方法:分词过程中或

10、者分词结束后根据统计训练信息进行处理。规则+统计,31,中文分词和检索,以下是当前某些研究的结论或猜测,仅供参考并非分词精度高一定检索精度高评价标准不同分词规范问题:鸡蛋、鸭蛋、鹌鹑蛋目标不同检索中的分词:查询和文档切分采用一致的分词系统速度快倾向细粒度,保证召回率多粒度并存搜索引擎中的分词方法猜想:大词典+统计+启发式规则,32,语言问题:阿拉伯文,阿拉伯文(或希伯来文)通常从右到左书写,但是某些部分(如数字)是从左到右书写词之间是分开的,但是单词中的字母形式会构成复杂的连接方式 开始Algeria achieved its independence in 1962 after 132 ye

11、ars of French occupation.在Unicode编码方式下,表面的表示方式很复杂,但是存储上倒是十分直接,停用词,根据停用词表(stop list),将那些最常见的词从词典中去掉。比如直观上可以去掉:一般不包含语义信息的词:the,a,and,to,be汉语中的“的”、“得”、“地”等等。这些词都是高频词:前30个词就占了 30%的倒排记录表空间现代信息检索系统中倾向于不去掉停用词:在保留停用词的情况下,采用良好的压缩技术(第五章)后,停用词所占用的空间可以大大压缩,最终它们在整个倒排记录表中所占的空间比例很小采用良好的查询优化技术(第七章)基本不会增加查询处理的开销所谓的停

12、用词并不一定没用,比如:短语查询:“King of Denmark”、歌曲名或者台词等等:“Let it be”,“To be or not to be”、“关系型”查询“flights to London”,词条归一化(Normalization)成词项,将文档和查询中的词归一化成同一形式:U.S.A.和 USA归一化的结果就是词项,而词项就是我们最终要索引的对象可以采用隐式规则的方法来表示多个词条可以归一成同一词项,比如剔除句点U.S.A.,USA USA剔除连接符anti-discriminatory,antidiscriminatory antidiscriminatory,归一化中的

13、语言问题,重音符:如法语中 rsum vs.resume.日耳曼语系中的元音变化:如德语中的 Tuebingen vs.Tbingen【德国地名】应该是一致的最重要的准则:用户在输入查询时遇到这些词如何输入?即使在有重音符号的语言中,用户也往往不输入这些符号常常归一化成不带重音符号的形式Tuebingen,Tbingen,Tubingen Tubingen,归一化中的语言问题,时间格式7月30日 vs.7/30日语中用假名或者汉字表示日期词条化和归一化都可能与语言相关,因此必须要做语言识别另外,谨记要将文档和查询中的同义词归一化成同一形式,Morgen will ich in MIT,提纲,38,上一讲回顾 文档词项通常做法+非英语处理英语跳表指针短语查询,大小写问题,可以将所有字母转换成小写形式例外:句中的大写单词?e.g.,General Motors(GM,通用公司)Fed(美联储)vs.fed(饲养)SAIL(印度钢铁管理局)vs.sail(航行)通常情况下将所有字母转成小写是一种很合适的方式,因为用户倾向于用小写方式输入Google的例子:

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1