东北大学软件工程硕士信息检索复习题及答案.docx
《东北大学软件工程硕士信息检索复习题及答案.docx》由会员分享,可在线阅读,更多相关《东北大学软件工程硕士信息检索复习题及答案.docx(17页珍藏版)》请在冰豆网上搜索。
东北大学软件工程硕士信息检索复习题及答案
信息检索复习要点2010
第一讲网页采集
1.网页采集器的基本原理[简答题]
网页采集器一般称为“网路蜘蛛”,也叫网页机器人。
网络蜘蛛把互联网比喻成一个蜘蛛网,那么网络蜘蛛就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页,从一个网页开始,读取网页的内容,保存下来,找到在网页中的链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去。
2.网页采集器的设计[综合题]
3.网络运营者对网页采集器的态度是什么?
[简答题]
网站数据被网页采集器采集后,进入搜索引擎数据库,可扩大网站访问量、提高网站知名度。
因此,网站运营者欢迎网页采集器,并为其提供便利。
网页采集器需要大量抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。
因此,网站运营者希望网页采集器不要影响网站的正常运转,并通过各种方法于网页采集器进行交流,规范网页采集器的行为。
第二讲分析处理
4.网页分析处理的必要性[简答题]
答:
分析处理帮助得到更加准确的查询结果,重复的利用时间和资源。
5.分词歧义的处理方法[简答题]
目前,对汉语分词方法的研究主要有三个方面:
1)基于规则的分词方法:
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
常用的方法:
最小匹配算法,正向(逆向)最大匹配法,逐字匹配算法,神经网络法、联想一回塑法,基于N-最短路径分词算法,以及可以相互组合。
例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。
目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。
2)基于统计的分词方法:
基于统计的方法是基于(两个或多个)汉字同时出现的概率,通过对语料库(经过处理的大量领域文本的集合)中的文本进行有监督或无监督的学习。
可以获取该类文本的某些整体特征或规律。
如果能够充分地利用这些统计现象、规律。
就可以构造基于语料库的统计学信息抽取算法统计的分析方法多种多样。
近来研究的热点主要集中于由随机过程发展而来的理论和方法,其中最重要的是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。
隐马尔科夫模型在语音识别领域已经取得很好的成效,在信息抽取领域的应用也正在不断的尝试和推广中。
3)基于理解的分词方法:
又称之为知识分词。
知识分词是一种理想的分词方法,但这类分词方案的算法复杂度高,其有效性与可行性尚需在实际工作中得到进一步的验证。
知识分词利用有关词、句子等的句法和语义信息或者从大量语料中找出汉字组词的结合特点来进行评价,以期找到最贴近于原句语义的分词结果。
6.分词软件的设计[综合题]
1)分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词与其他分词不同,比如:
英文中单词之间是以空格作为自然分界符;中文只是字、句、段有明显的分界符;词没有一个形式上分界符;从字串到词串,是一个降低不确定性的过程。
2)利用找到歧义字段、建立歧义字段库解决分词歧义问题。
3)利用正向最大匹配法(流程图)、逆向最大匹配法(流程图)及最大概率分词法进行分词。
●正向最大匹配法(流程图见PPT)
●逆向最大匹配法:
1)将文章分成句子(通过标点符号来实现);
2)循环的读入每一个句子S,设句子中的字数为n;
3)设置一个最大词长度,就是我们要截取的词的最大长度max
4)从句子中取n-max到n的字符串subword,去字典中查找是否有这个词。
如果有就走(5),没有就走(6);
5)记住subword,从n-max付值给n,继续执行(4),直到n=0.
6)将max-1,再执行(4)。
●最大概率分词法:
列出可能的拆分结果,查表,结果大的,为最终结果。
基本细想:
1)一个待切分的汉字串可能包含多种分词结果
2)将其中概率最大的那个作为该字串的分词结果
分词算法:
1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
2)到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
3)按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
4)如果当前词wn是字串S的尾词,且累计概率P'(wn)最大,则wn就是S的终点词;
5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。
7.计算准确率、召回率和F值[计算题]
答:
准确率P(Precision):
结果中的正确样例数与结果中全部样例总数的比值。
召回率R(Recall):
结果中的正确样例数与实际存在的正确样例数的比值。
F值:
准确率和召回率的加权平均,一般用F1。
(注意:
让求的是F1还是F其它,然后带入相应的值β值。
)
举例:
用户利用某信息检索系统在资料库中检索与和服相关的文章。
系统返回给用户5篇文章:
《日本和服简介》、《和服的穿着方法》、《在日本试穿和服》、《新款和服特价销售》、《青岛东和服装厂简介》。
已知资料库中共有40篇文章,其中有8篇与和服有关的。
请计算此次检索的准确率、召回率和F1值。
答:
结果中正确的样例数为:
4
结果集中的总样例数为:
5
P准确率=4/5*100%=80%
实际存在的正确的样例数为8
R召回率=4/8*100%=50%
F1=(2*80%*50%)/(80%+50%)=(2*4/5*1/2)/(4/5+1/2)=(4/5)/(13/10)=8/13
第三讲信息检索模型
8.信息检索系统的基本模式[简答题]
从互联网上进行网页采集,然后将采集上来的网页进行分析处理,建立索引库,用户的查询与索引匹配,返回检索结果给用户。
(最好将PPT上的图画出来,然后再详细解释)
9.布尔模型的原理[简答题]
1)布尔模型信息检索模型是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。
2)文献表示为不带权重的标引词的集合。
3)查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表达式。
4)联系机制为:
布尔表达式转换为集合表达式,即布尔算子and、or、not替换为交、并、补。
5)在结果集合里的文本是相关的,其他是不相关的。
10.利用布尔模型(集合论)的搜索引擎的实现[综合题]
布尔模型信息检索模型是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。
文献表示为不带权重的标引词的集合;
查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表达式。
联系机制为:
布尔表达式转换为集合表达式,即布尔算子and、or、not替换为交、并、补。
在结果集合里的文本是相关的,其他是不相关的
D(文献表示)
表示为不带权重的标引词的集合,或者说,二值的标引词权重wi,j=0或者wi,j=1
Q(查询)
表示为标引词的布尔表达式
用and、or、not连接标引词构成查询
F(联系机制)
布尔表达式转换为集合表达式
布尔算字and、or、not替换交、并、补
R(排序)
对于每个标引词ki,得到一个文本的集合Dki={dj|wi,j}在结果集合里的文本是相关的,其他是不相关的。
11.向量空间模型的原理[简答题]
将文献表示为带权重的标引词的集合,权重表示该索引词与该文本的相关程度。
将用户的查询也表示为带权重的标引词的集合,权重表示标引词与用户需求的相关程度。
将文本与用户的查询的相似度转化为向量(t维空间的向量)之间的计算,可以采用向量内积或向量夹角余弦方式进行计算。
查询被当作为假想的文本。
1)向量模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。
查询结果是根据向量空间的相似性而排列的。
2)向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。
3)向量空间模型的基本思想是以向量来表示文本:
(W1,W2,W3……Wn),其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组。
4)要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。
12.
计算用向量表示的网页的相似度[计算题]
注意:
权值的值实际上是由tf*Idf算出来的,如果题目中未给出相应的值,则可以通过tf*Idf算出来,具体算法见13题。
13.计算特征项权重(tf*idf方法)[计算题]
公式:
tf*log(N/df)
其中n为文献的个数;
tf为该词在当前文献中出现的次数;
df为出现该词的文献的个数。
例题详见PPT3建模P32。
14.利用向量空间模型的搜索引擎的实现[综合题]
1)概念、定义及用户需求:
向量空间模型是基于线性代数的一种信息检索模型,它用检查项的向量空间来表示用户的查询要求和数据库文档信息,查询结果是根据向量空间的相似性而排列的。
向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。
2)基本思想、算法和数学推导
向量空间模型的基本思想是以向量来表示文本:
(W1,W2,W3……Wn),其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词组。
要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。
D(文献表示)
文本表示为带权重的标引词的集合,dj={w1,j,w2,j,…,wt,j}
权重表示该标引词与该文本的相关程度
Q(查询)
查询也表示为带权重的标引词的集合,q={w1,q,w2,q,…,wt,q}
权重表示标引词与用户需求的相关程度
F(联系机制)
文本和查询有同样的表示(t维空间的向量)
查询被当作为假想的文本
R(排序)
用向量夹角的余弦计算dj和q的相似度
可能遇到的技术难点有两个方面:
特征项权重、降维
3)可能遇到的技术难点:
特征项权重、降维
索引过程首先要从文献中抽取重要词,把它们映射到特征项集中,进行权重计算。
由于文献中不同词汇的出现频率随文章的内容和作者的习惯而不同,因此,最初的索引系统都是从应用词频开始的。
实际应用中显得有些粗糙,比如:
为什么中频词好?
两个阈值怎么选取?
等等,但是,这些思想为信息检索系统中项的选取奠定了基础。
4)改良方案
简单地把所有的词汇都作为文献的特征项,检索效果并不很好,不同的词汇对文献的表示作用不同。
一般说来,常用词在所有文献中都有着较高的频率,区分度低;罕用词在文献集中的出现次数较少,难以确定它们的统计规律,相关度低;而中等频率的词汇常常与文献所表示的主题相关,区分度较高,表示能力最强,最有价值。
有价值的特征项应具备以下特征:
相关度(与文献内容有关,以便在需要时进行索引项的检索)区分度(能将一篇文献与其它文献区分开),通过项频率tf(文献内频率)和反比文献频率idf(inversedocumentfrequency)来度量特征项的价值。
5)用向量空间构造的搜索引擎的应用的展望:
第四讲跨语言信息检索
15.跨语言信息检索的原理[简答题]
跨语言信息检索(CLIR)是指以一种语言的提问式检索出其它语言信息的一种检索方法。
一般认为,跨语言信息检索是信息检索与机器翻译相结合的技术.跨语言信息检索是涉及到多种新的概念,是各种技术的有机结合。
一般CLIR系统包含以下三个步骤:
(1)多语言信息的搜集以及存储;
(2)应用NLP、机器翻译等技术实现源语言与目标语言的统一;
(3)利用传统的单语检索技术实现查询与文档之间的匹配。
其中,步骤
(2)是实现CLIR的关键。
根据翻译方向的不同;当前的跨语言检索方法大体可以分成以下四种种方式:
将源语言表示的查询翻译到目标语言,即查询翻译方法;将目标语言表示的文档翻译到源语言,即文档翻译方法;将查询和文档同时翻译到另一中间语言,即中间语言翻译方法。
除此之外,还有基于本体的非翻译方法
16.基于规则的机器翻译方法的原理[简答题]
又称传统的翻译方法,是基于语言规则的理性方法,,强调人对语言知识的理性整理。
基于规则的机器翻译方法认为翻译的过程是需要对源语言的分析和源语言意义的表示,然后再生成等价的目标语言的过程。
根据翻译过程的不同,规则方法可分为两种主要方法:
基于转换的方法的翻译过程包括三个阶段:
分析得到一种源语言的抽象表示;把源语言的抽象表示转换为目标语言的抽象表示;由目标语言的抽象表示生成目标语言。
基于中间语言的方法在对源语言分析后产生的是中间语言,而目标语言的生成是直接由这种中间语言开始的。
17.基于实例的机器翻译方法的原理[简答题]
基于实例的机器翻译的本质是“以翻译实例为基础,基于相似原理的机器翻译”,其利用的主要知识源是预处理过的双语语料和翻译词典。
基于实例的翻译过程通常包括三步:
在翻译实例库中搜索匹配片段;确定相应的译文片段;重新组合译文片段以得到最终翻译。
18.基于统计的机器翻译方法的原理[简答题]
是目前非限定领域机器翻译中性能较佳的一种方法。
基本思想是通过对大量的进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。
统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计算法。
一般来说需要参考语料进行有监督训练。
19.跨语言信息检索的应用[简答题]
基于Web的搜索引擎是跨语言信息检索的一个重要应用领域,世界上主要的搜索引擎都相继实现了跨语言信息检索的功能。
跨语言信息检索还可以应用于数字图书馆和对专业数据库的检索等领域
20.跨语言信息检索的原理是什么?
主要技术有哪些?
[简答题]
跨语言信息检索是将及其翻译技术融入到传统信息检索中。
主要有基于规则的方法、基于实例的方法和基于统计的方法。
21.跨语言信息检索的构建[综合题]
[请仔细阅读参考资料《一种新的基于中间语义的跨语言信息检索模型.pdf》]
第五讲文本分类
22.文本分类的一般过程[简答题]
文本自动分类是指在给定的分类体系下,根据文本的内容用计算机程序确定文本所属类别的过程。
一般采用机器学习的方法进行自动文本分类。
即:
基于训练集的文本自动分类。
。
文本分类的一般过程为:
1.收集训练集和测试集,对文本进行预处理
2.对文本类别进行人工标注
3.对文本进行特征提取
4.训练(学习)
5.评价
a)精确率、召回率、F1
宏平均(关于类别的均值),微平均(关于文本的均值)
23.文本分类的常用方法[简答题]
1.Rocchio方法:
a)每一类确定一个中心点(代表元),计算待分类的文档与各类代表元间的距离,并作为判定是否属于该类的判据。
b)构造方法:
给定一个类,训练集中所有属于这个类的文档对应向量的分量用正数表示,所有不属于这个类的文档对应向量的分量用负数表示,然后把所有的向量加起来,得到的和向量就是这个类的原型向量。
c)定义两个向量的相似度为这两个向量夹角的余弦,逐一计算训练集中所有文档和原型向量的相似度,然后按一定的算法从中挑选某个相似度作为界
d)给定一篇文档,如果这篇文档与原型向量的相似度比界大,则这篇文档属于这个类,否则这篇文档就不属于这个类。
2.K-NearestNeighbor:
基本思想:
在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文本的类别做为该文档的候选类别。
该文档与K个邻居间的相似度按类别分别求和,减去一个预先得到的截尾阀值,就得到该文档的类别测度。
3.
4.决策树方法:
决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。
树上的每一个节点说明了对实例的某个属性的测试,并且该节点的每一个后继分支对应于该属性的一个可能值
5.朴素贝叶斯、神经网络。
。
。
24.文本分类技术的应用[简答题]
随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。
对资料进行管理一个很常见的方法就是对它们系统地进行分类。
用人工对文本材料进行分类具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,因此运用计算机进行自动分类成为了人们的研究方向。
文本分类技术可以应用于以下领域:
1.新闻出版按照栏目分类
2.类别{政治,体育,军事,…}
3.网页分类
4.类似于Yahoo的分类
5.个性化新闻
6.智能推荐
7.垃圾邮件过滤
8.类别{spam,not-spam}
25.文本分类系统的构建[综合题]
[请参考资料《文本自动分类系统的研究与实现.pdf》]
第六讲自动文摘
26.自动文摘的分类[简答题]
自动文摘有多种分类方法[注意:
每种定义的解释请参考课件,答题时可适当对每种定义进行解释]
1)按文摘面向的用户:
划分通用文摘;偏重文摘。
通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。
通用型文摘就是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘。
对于一篇长的文章,如果用户只关心某一方面(例如工业),这就涉及到了偏重问题。
偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文摘。
根据需要或者用户的兴趣提供相应的有侧重点的文摘。
偏重文摘的结果不仅仅决定于原文的主题,也决定于用户的个性化要求,它能够把焦点放在用户关心的部分,而不是把原文的每个部分平等对待。
2)按文摘处理的文本对象划分:
a)单文档文摘:
处理的对象是单篇文摘,它对每篇文章独立生成文摘。
b)多文档文摘:
实际上是对单文档文摘的一个扩展,比单文档相比较需要一些新的技术和方法来处理。
3)按文摘的制作方法划分:
a)基于统计的自动文摘;
b)基于理解的自动文摘;
c)信息抽取型自动文摘;
d)基于结构的自动文摘
27.基于统计的自动文摘的原理[简答题]
将文本视为句子的线性序列,将句子视为词的线性序列。
它通常分4步进行:
(1)计算词的权值;
(2)计算句子的权值;(3)对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句;(4)将所有文摘句按照它们在原文中的出现顺序输出。
其中权重计算依据为:
词频、标题、位置、句法结构、特殊词等。
28.基于理解的自动文摘的原理[简答题]
基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。
这种方法与统计方法的明显区别在于对知识的利用,它不仅利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。
其基本的步骤为:
语法分析、语义分析、语用分析和信息提取、文本生成。
29.基于信息抽取的自动文摘的原理[简答题]
信息抽取的自动文摘以文摘框架为中枢,信息抽取只对有用的文本片段进行有限深度的分析,即从非结构化的文本中提取出用户感兴趣的结构化信息,其基本步骤为:
选择:
利用特征词从原文中抽取相关的短语或句子填充文摘框架
生成:
利用文摘模板将文摘框架中的内容转换为文摘输出
30.基于结构的自动文摘的原理[简答题]
基本思想:
着眼于对文章篇章结构信息的理解和应用。
代表性实验方法:
关联网络法、修辞结构法、语用功能法。
31.自动文摘技术的应用[简答题]
自动文摘,即利用计算机实现文摘编写与生成的自动化,是计算机技术、自然语言处理和传统文摘相结合的产物。
其产生背景是电子出版系统和Internet的蓬勃发展。
没写完
32.自动文摘系统的构建[综合题]
[请仔细阅读参考资料《一种基于统计的中文自动文摘系统的设计与实现》]
附:
题型
一、简答题(4小题,共40分)
二、计算题(2小题,共30分)
三、综合题(1小题,共30分)
注:
综合题,考生可从给出的4个题目中选出1个,分析用户需求、进行系统设计(基本要求),分析开发和应用过程中可能遇到的问题、给出相应的改良方案,并对该系统的实际应用做出展望(拔高)。