信息检索结课论文1.docx
《信息检索结课论文1.docx》由会员分享,可在线阅读,更多相关《信息检索结课论文1.docx(11页珍藏版)》请在冰豆网上搜索。
信息检索结课论文1
信息检索结课论文
题目:
基于网络的信息检索应用研究
学 院:
计算机科学与工程学院
专业:
软件工程
学生姓名:
学号:
授课教师:
基于网络的信息检索应用研究
王扬波
(武汉大学计算机学院电子与通信工程)
摘要:
网络信息检索一般指因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源.这一类检索系统都是基于互联网的分布式特点开发和应用的,即:
数据分布式存储,大量的数据可以分散存储在不同的服务器上;用户分布式检索,任何地方的终端用户都可以访问存储数据;数据分布式处理,任何数据都可以在网上的任何地方进行处理。
本文对基于网络的信息检索应用进行研究,并分析了其局限。
关键词:
信息检索;网络;分布式;
ResearchontheapplicationofinformationbasedonNetwork
XX
(xx)
Abstract:
networkinformationretrievalgenerallyreferstotheInternetsearch,isthroughthenetworkinterfacesoftware,userscanquerytheinformationresourcesintheInternetinaterminal.ThiskindofretrievalsystemisbasedontheInternet。
Thatis,thedatacanbedistributedandstoredindifferentservers。
Userscanaccessthestoragedata。
DatacanbeprocessedinanypartoftheInternet.Inthispaper,westudytheapplicationofinformationretrievalbasedonnetwork,andanalyzethedevelopmenttrend。
Keywords:
informationretrieval;network;distributed;
1 网络信息检索简介
随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。
Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性.
1。
1 信息检索概念
信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。
人们获取信息源的方式主要有:
①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
1.2 网络信息检索的原理
网络信息检索工具是网络信息检索技术的实物体现。
目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
① 布尔逻辑模型 这是一种简单而常用的严格匹配模型。
用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果.标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。
利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
② 模糊逻辑模型 它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
③ 概率模型 它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。
2 搜索引擎
搜索引擎是目前使用最为频繁的一种网络信息检索工具。
与其他工具相比,它的检全率和检准率都比较高,具有很强的使用价值和广泛的应用前景。
2.1 搜索引擎的工作原理
作为一种www站点资源和其它网络资源进行组织和检索的检索工具,搜索引擎的检索机制一般包括数据采集和标引机制、数据组织机制和用户检索机制。
① 数据采集标引机制按照一定规律和方式对网络上www站点进行搜索,并将搜索到的www页面信息存入搜索引擎的临时数据库中。
② 数据组织据组织机制的主要功能是对www页面信息进行整理以形成规范的页面索引,并建立相应的索引数据库。
③ 索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效果,而搜索引擎的数据采集标和标引机制又是决定数据库质量的关键技术。
④ 用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的www站点或页面。
2.2 搜索引擎的分类
按照用户查找的途径划分,可将搜索引擎分为如下几种:
① 基于关键词的搜索引擎 主要通过使用自动采集软件来对网络上的数据进行采集标引,建立成索引数据库。
它主要采用自动搜索和标引方式来建立和维护其索引数据库,供用户查询使用。
② 基于分类目录的搜索引擎 一般依赖于按照某种分类标准进行人工编排的分类体系。
③ 联合式搜索引擎 是基于关键词的搜索引擎的另外一种表现形式,是后者与基于类目的搜索引擎的一种结合。
2.3 搜索引擎的功能
目前Internet上的搜索引擎种类繁多,虽然各种搜索引擎都有自己的不同信息采集标引机制,在其他一些方面各具特色,但其基本功能却是相似的。
① 布尔逻辑检索 这一功能使得用户能使用AND、OR和NOT来进行关键词的搭配检索。
② 模糊检索 在用户进行检索的过程中,系统会对跟用户提供的关键词相似的词语进行检索,并返回包含关键词或是这些相似词的检索结果。
③ 截词检索 这种检索形式利用检索词的某一部分来进行检索。
在搜索引擎中,用户提供包含“?
”或是“*”通配符的检索项来进行检索.
④ 限定词检索 这种检索加减号检索,它用来规定检索项中必须出现或是必须不出现某些关键词。
3 大量相关信息检索
叶继元等教授认为,信息检索是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。
“人—机系统”,“各种方法”是指利用关键词、主题词、概念分析方法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。
信息检索包括存储与检索两个部分。
存储是对有关信息进行选择、并对信息特征进行著 录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。
这里要理解概念分析。
概念分析即将概念转化成系统语言,是存储与检索共有的过程, 因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体.信息检索的发展主要是和谐社会,促进社会协调发展,对社会的进步有积极地推动作用,它同时丰富了人们的视野,为社会科学研究提供了丰富的材料和强有力的说服力,使查找资料更容易方便。
索引的研究、编制与文献流通形式变化息息相关.以计算机为主体的新技术在信息流通领域广泛应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。
索引 理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。
索引是利用文献的工具,与文献流通形式的变化息息相关.
10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化.以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。
自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因.
它的发展体现在以下几个方面:
3.1 智能化
智能化包括网络搜索软件的智能化和搜索引擎的智能化。
搜索信息方法有两种:
由Web站点及页面的创建者在搜索引擎站点上为其页面登记的URL地址;由网络搜索软件自动收集上新信息得到的URL地址,后一种搜索信息的方法就表现了搜索软件的智能化。
智能化的搜索引擎具有一定的推理能力,会考虑用户年龄、性别、地域、文化程度等差异,根据用户的网络行为来判断他们的爱好,并决定信息的取舍。
智能化是网络信息检索未来发展的主要方向。
3。
2 可视化
可视化指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术.它具有交互性、多维性、可视性等特点.信息检索中的可视化,就是将数据库中不可见的语义关系用图像形式可视化显示,并表达用户检索过程。
3.3 多样化
信息检索多样化表现在可以检索的信息形态有文本、声音、图像、动画;检索工具向多 国化、多语种化方向发展;网上检索工具的服务多样化等。
3。
4 简单化
搜索引擎的发展,网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体等技术逐步完善,都将使信息检索变得越来越简便快捷。
3。
5 深入化
信息检索深入化包括:
提高检索深度,即由相关性检索向直接性检索发展;检索内容向综合化与专业化发展。
用户可以预先选择自己的信息源,向各种用户满意的信息源提问索取特定类型的信息,还可以对命中结果进行进一步限定,要求只提供权威性的可靠结果以提高查准率.
3。
6 友好化
友好化包括用户检索界面友好化和检索结果提供方式友好化两种,以方便用户进行浏览、选择和利用。
3.7 多语种化
提供多种语言的检索服务,满足全世界各种语言用户的需要,是信息检索的一大发展方向.除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。
学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设.
4 信息多样化—-我国网络化信息服务的发展趋势
在网络环境下,用户可获得信息的量和种类随着局域网和广域网的不断发展而巨增,面对分散、无序、更选变换的信息海洋,太多数用户不像以往那样关心信息文献量的问题,而是越来越重视图书馆(或情报中心)所提供的网上信息的浓度。
精品化的信息服务是以信息的浓缩加工使之成为高质量的信息产品为保证,使用户一旦进入自己的业务之中,就不再寻找替代物。
4.1 信息服务社会化
信息服务社会化,主要是指用户信息需求的社会化及越来越多的信息在网络环境中广泛交流。
4.2 信息服务一体化
信息服务一体化,对信息用户而言,主要是指能够集参考咨询功能、文献检索功能和文献提供功能为一体的最理想的信息服务体系。
4。
3信息服务集成化
其一是指提供服务的网络化信息资源的全面性和丰富性;其二是指能够满足用户对信息类型和信息媒体多样化的需求.
4。
4 信息服务精品化
是指向用户提供浓缩化、综合化的高质量的信息服务。
5 网络信息检索技巧
用户在熟练掌握网络信息检索方法和工具的同时,如果能把握住网络信息检索的技巧,就能更加游刃有余,得心应手地查找网络信息了。
下面介绍几条网络检索信息的小技巧:
5.1提取合适的关键词
现在所有的搜索引擎都是以关键字建立倒排文档索引来组织知识内容的,所有的搜索也是以关键词搜索为最主要的方式.许多人可能看过形形色色的搜索技巧,这些搜索技巧许多部偏重于讲怎么使用各个SE支持的高级搜索语祛,这此高级语法也许有其适用和有趣的地曲,但是大家最经常使用的还是关键词.在提炼关键词时,尽量选择专指词、特定概念词或非常用词,避免普通词、泛指概念。
5.2使用两个或多个关键词搜索
单一关键词的搜索效果总是不太令人满意.一般用多个关键词的搜索效果比较好。
检索信息时.经常需要结合自己的知识结构和对所查问题的理解来确定几个相关关键词去查询.一般而言.需要所有关键词要有一定的语义联系,但是语义联系又不要太过明显,这样不同关键词才有区分能力,因为我们经常面对的是返回结果太多的情形。
5.3使用减号“-”
“—”的作用是为了去除无关的搜索结果,提高搜索结果相关性。
有的时候,用户在搜索结果中见到些想要的结果.但也发现很多不相共的搜索结果,这时你可以找出那些不相关结果的特征关键词,把它减掉。
5.4使用搜索引擎的高级检索功能
利用搜索引擎为用户提供的高级检索功能可以缩小检索范围,节约浏览时间。
例如:
搜索引擎从抓取网页,解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等.所以找最新内容应该去看新闻搜索。
5.5建立收藏夹
用户可以根据个人工作、学习、生活的需要.将平时经常浏览或经典网站分门别类建立收藏夹,为以后浏览提供方便。
5.6寻求网上帮助
用户可以求助于网络论坛、QQ等.或访问专门回答问题的网站,通过其他用户或专家的在线解答.找到答案或解决问题的方法.
6 网络信息检索的局限与展望
用户在查找网络信息资源时,不可避免的用到网络信息检索工具。
检索工具的优劣很大程度的影响了用户的检索效率。
虽然网络信息检索工具在最近几年有了长足的发展,但是到现在网络信息检索仍然存在着这样或是那样的局限。
6。
1 文本信息检索的局限
① 网络信息标引的准确度不够 检索工具对网络信息资源的标引一般都存在着栅引准确度不够的问题,检索工具经常会在返回大量垃圾信息的同时丢失有用信息。
当用户要进行特定的文献检索时,有时还会发现现存的检索工具无济于事,检索出来的数据完全被无用信息所覆盖.如想要通过搜索引擎查询清朝雍正年间李卫任浙江巡抚的资料,你只能够查到大量《李卫当官》之类无用信息。
② 搜索引擎的查全率不高 由于互联网上的信息资源以爆炸性的速度不断增长,搜索引擎采集数据的速度远远落后于信息资源的增长速度。
单个搜索引擎的数据库所收集的Web页面大大不足,就是所有的搜索引擎所储存的数据也只占全球Web页面的50%强。
由于这方面的原因,搜索引擎的检全率会无可避免的被降低。
③ 搜索引擎的查准率不高 一是返回的信息过多,这是现有搜索引擎检索信息的普遍现象;二是返回重复的信息,搜索引擎的检索结果中还经常重复出现同一信息源的不同部分,甚至出现不同信息源的相同内容信息。
④ 查询方式有限 目前大多数搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。
这样,一方面检索时不能从文献的多个方面对检索提问进行限制,只能就某一关键词或概念进行笼统的检索;另一方面,由于查询结果完全依赖于用户所给出的关键词,而大多数用户对他们检索的领域或索引数据库的关键词不太了解,因此使最后的查询结果相关性很差,往往是输入一个检索式,得到一大堆网址,但其中大部分是冗余信息。
⑤ 检索对象的数据结构单一 由于现在大多数网站使用的是传统的关系数据库对信息进行组织和存储,因此其使用的搜索引擎也是基于关系数据库的,这种传统的关系数据库非常擅长处理结构化的数据,但其对于非结构化的数据的处理能力则很弱.
⑥ 交互性不够 当前的搜索引擎与用户的交互性不够,与用户间缺乏足够的协作,不了解用户的情况,不记录用户提交的查询任务,不能处理用户的反馈信息,因而不能与用户进行足够好的交互以提高检索效率。
6.2 多媒体信息检索的局限
到现在为止,虽然单独针对图像、视频、声音等媒体的检索技术已经出现,但还没有任何搜索引擎能够充分解决多媒体信息的检索,其主要表现在以下几个方面:
① 检索效果不够理想 目前,几乎所有的多媒体搜索引擎在多媒体信息的查准率方面都不能达到令人满意的程度,用户将在返回的几百个甚至上千个图像中筛选需要的那一幅.这是很费时和令人难以忍受的,而且有时你所用的搜索引擎根本检不出你想要的东西。
归其原因,一方面是在于查询方式的单一,另一方面在于对图像的标引深度不够,这就要求完善图像检索和索引机制。
② 用户查询接口单一 理想的多媒体检索系统中,人是主动的,用户的查询接口能提供丰富的交互能力,且直观易用,使用户能够在主动交互过程中通过调整检索参数,表达对图像的语义感知,最终获取满意的结果。
这就涉及到如何把用户的提问转换为可以执行检索的特征矢量、交互方式的设计,如何获取用户的内容感知等问题.目前的多媒体搜索引擎用户查询接口比较单一,大多只提供描述查询接口,即关键词提问框。
③ 图像特征信息的表示与检索不够完善 基于内容的图像检索,实质上就是进行图像特征相似度的比较,但目前这一技术还存在许多问题。
④ 信息的自动加工与人工标引不够 目前文本搜索引擎在这方面的发展正日趋完善,而多媒体搜索引擎的研究刚刚起步,尤其是图像信息的加工,图像不同于文本,文本自身就能说明要讲的内容,而图像内容却需要加入人的理解和描述,人工干预虽能提高查准率,但一方面能被人工标引的是极其有限的;另一方面由于人工标引劳动强度大而限制了检索的范围,如何对图像信息进行快速标引和准确分类是急待解决的主要问题。
另外,目前基于内容的检索技术多应用于对静态图像的检索,对动态图像的检索还没有多少行之有效的方法。
但随着宽带网络的逐步实现,动态多媒体信息在网络中将会越来越多。
6。
3 未来的网络检索展望
未来的网络检索服务将尽可能地了解用户的真正需求并据此将检索结果进行分门别类的处理,而不是对每一个检索提问都一次性的输出大量的结果。
目前,许多重要的搜索引擎已开始向这方面努力,在原先的检索结果前面新增加了优选过的链接。
目前较流行的搜索引擎的全文检索功能,由于检索结果经常与检索提问不相吻而不再成为主要的检索手段,只是作为起补充作用的辅助选择。
与搜索引擎有关的其它发展趋势还包括相应软件的发展,如更出色的爬虫(Spiders)软件、 “隐形网络”(Invisible)的出现以及满足不同用户的“个人喜好”功能将得到进一步强调和重视。
总之,未来人与数据交互方式发生根本的改变将超出我们今天所认识的检索结果,信息的表达将变得更加丰富.智能化检索结果可以模仿网络环境形成-拓扑图,在拓扑图中所有相似文献或其它类型资源将被归为同类,以等高线来表达与其它信息内容类的概念上的远近,Cartia的 ThemeScape 便是基于概念图谱运用的例子之一。
而那些网络建设设计师和工程师们正在从事的下一代网络检索工具的构造研究,更加令人充满期待和希望。
他们的宏伟目标规划、开拓性研究项目以及成就已向我们预示了一个美好的网络检索未来。
7结束语
综上所述,在计算机技术与通信技术的推动下,在用户高质量需求的期待下,现代信息检索技术必将在现代网络环境下呈现出多样化的发展趋势,将在更大程度上以一种更为便捷,准确的方式将信息呈现给用户。
参考文献:
[1]张杰.浅论网络信息检索[J].江西图书馆学刊,2002年增刊.
[2]董慧。
网络信息资源开发与利用[D].武汉:
武汉大学出版社,2001.
[3]卢小宾。
信息检索[J].北京:
科学出版社,2003.
[4]李勇先,郑文良.人工智能在网络信息检索中的应用[M].图书馆建设,2003(4),4:
81~83.
[5]焦玉英,符绍宏,何绍华[J]。
信息检索。
武汉:
武汉大学出版社,2001。
〈/P
[6]高炜,梁立.夏幼明一种改进的信息检索排序算法[J]云南民族大学学报(自然科学版),2010,19
(1):
52—55。
[7]赵静,张鸿业。
Web信息检索技术的探讨[J]。
科技情报开发与经济,2010,20(5):
105—109。
[8]关桂荣.Web智能信息检索技术研究[J]。
电脑科技,2008,(7),102—103。