web挖掘在搜索引擎中的应用.docx

资源描述

web挖掘在搜索引擎中的应用.docx

《web挖掘在搜索引擎中的应用.docx》由会员分享，可在线阅读，更多相关《web挖掘在搜索引擎中的应用.docx（16页珍藏版）》请在冰豆网上搜索。

web挖掘在搜索引擎中的应用.docx

web挖掘在搜索引擎中的应用

兰州商学院

本科生毕业论文（设计）

论文（设计）题目：

Web数据挖掘在搜索引擎中

的应用研究

学院、系：

信息工程学院

信息管理系

专业（方向）：

电子商务

年级、班：

2008级1班

学生姓名：

何红梅

指导教师：

王玉珍

2012年5月20日

声明

本人郑重声明：

所呈交的毕业论文（设计）是本人在导师的指导下取得的成果。

对本论文（设计）的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

因本毕业论文（设计）引起的法律结果完全由本人承担。

本毕业论文（设计）成果归兰州商学院所有。

特此声明

毕业论文（设计）作者签名：

年月日

Web数据挖掘在搜索引擎中的应用研究

摘要

随着互联网用户的日益增加和互联网的快速发展,Web发展由于它的易用性、实用性，使其很快占据了主导地位，目前已经成为使用最为广泛、最有前途、最有魅力的信息传播技术之一。

与此同时搜索引擎的发展也日新月异，影响到人们生活的方方面面。

但伴随的问题是用户越来越难以获得其最需要的信息。

如何从大量的数据中找到真正有用的信息成为人们关注的焦点,Web数据挖掘技术也正是伴随着这种需求从研究走向应用。

Web使用挖掘的应用日益广泛，尤其是在互联网快速发展下，越发显示出蓬勃的生命力。

本文主要通过介绍搜索引擎的工作过程，Web数据挖掘的主要方法，阐述Web数据挖掘给搜索引擎带来的优势。

挖掘用户感兴趣的内容，为网上用户提供有效的信息服务，挖掘用户感兴趣的内容，提高用户使用搜索引擎的效率。

[关键词]数据挖掘搜索引擎WEB数据挖掘

ABSTRACT

WiththegrowingincreaseinInternetusersandtherapiddevelopmentoftheInternet,Webdevelopmentduetoitseaseofuse,practicality,itsoonoccupyadominantposition,hasbecomeoneofthemostwidelyused,themostpromising,themostattractiveinformationandcommunicationtechnologies.Atthesametime,thedevelopmentofsearchenginesisalsochanging,affectingallaspectsofpeople'slives.However,theproblemsassociatedwithitincreasinglydifficulttogetthemostinformation.Howtofindtrulyusefulinformationhasbecomethefocusofattentionfromthelargeamountsofdata,Webdataminingtechnologyisalsoaccompaniedbythedemandfromresearchtoapplication.

Webusageminingapplicationsareincreasinglywidespread,especiallyintherapiddevelopmentofInternet,moreandmorevigorousvitality.Inthispaper,byintroducingtheworkingprocessofthesearchengines,WebdataminingmethodsonthebenefitsofWebdataminingtosearchengines.Miningthecontentofinteresttotheuser,provideeffectiveinformationservices,andtapthecontentofinteresttousers,improvetheefficiencyofusingasearchengineforonlineusers.

[Keywords]:

Datamining,Searchengine,Webdatamining

一、引言1

二、Web数据挖掘和搜索引擎概述2

（一）Web数据挖掘概述2

1、Web数据挖掘的定义2

2、Web数据挖掘与数据挖掘2

3、Web数据挖掘的分类2

4、Web数据挖掘基本步骤3

（二）搜索引擎概述3

1、搜索引擎的定义3

2、搜索引擎的分类4

3、搜索引擎的工作原理6

4、搜索引擎存在的主要问题9

5、搜索引擎的主要性能指标10

三、Web数据挖掘技术分析12

（一）路径分析技术12

（二）关联规则技术12

（三）序列模式数据挖掘技术13

（四）聚类分类技术13

四、Web数据挖掘在搜索引擎中的应用研究14

（一）Web内容挖掘在搜索引擎中的应用14

1、自动摘要的形成14

2、文本的自动分类15

3、搜索结果聚类15

（二）Web结构挖掘在搜索引擎中的应用16

1、页面等级（PageRank）方法16

2、关键页/权威页（Hub/Authority）方法16

（三）Web日志挖掘在搜索引擎中的应用17

五、实例分析17

六、结论18

参考文献19

致　谢20

Web数据挖掘在搜索引擎中的应用研究

一、引言

随着互联网的快速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。

如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。

而Web挖掘指Web挖掘是数据挖掘在Web上的应用，它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域，是一项综合技术。

。

WEB挖掘研究彼盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

同时搜索引擎成为仅次于电子邮件的第二大互联网应用,其技术不断创新和改进,为人们更有效地获取信息提供了方便。

搜索引擎技术带动了很多相关学科的发展，离散数学，矩阵技术的应用让大家对数学产生了广泛的兴趣，搜索引擎优化技术成为了许多人研究和工作的方向,同时也是电子商务的强力武器。

自然语言理解，模式识别，机器学习，数据挖掘技术在搜索引擎的发展中得到了很大的提高。

而文本分类，多媒体识别，海量数据挖掘，机器在线增量学习，在线分类类聚，信息抽取和摘取，命名等又和实际应用紧密的结合成商用搜索引擎，而其强大的资金后盾，也促进了Web搜索和人工智能行业的大力发展!

两者的结合无疑会有利于用户查询信息，同时又能促进两者各自更好的发展。

二、Web数据挖掘和搜索引擎概述

（一）Web数据挖掘概述

1、Web数据挖掘的定义

Web挖掘（WebDataMining）简称Web挖掘，是数据挖掘技术在Web环境下的应用，是从数据挖掘发展过来的集Web技术、数据挖掘、计算机技术、信息科学等多个领域的一项技术。

Web挖掘是指从大量的Web文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。

它所处理的对象包括：

静态网页、Web数据库、Web结构、用户使用记录等信息。

通过对这些信息的挖掘，可以得到仅通过文字检索所不能得到的信息。

2、Web数据挖掘与数据挖掘

数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识而这些知识是隐含的、事先未知的和潜在的有用信息。

传统的数据挖掘是以数据仓库为基础对结构化的数据源进行信息的加工、分析和模式挖掘。

Web数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web技术中的应用。

Web数据挖掘挖掘的研究对象是以半结构和无结构文档为中心的Web,这些数据没有统一的结构和形式,彼此间通过超链接相互联系。

Web数据挖掘是一项综合技术,通过从Internet上的资源中抽取信息来提高Web技术的利用效率,也就是从Web文档结构和试用的集合中发现隐含的模式。

3、Web数据挖掘的分类

Web数据挖掘可以分为Web内容挖掘,Web结构挖掘,Web日志挖掘。

如图1所示：

图1Web挖掘分类图

4、Web数据挖掘基本步骤

数据挖掘最先针对的是大型数据库，而Web上的数据是基于网络的，即所谓网络数据挖掘。

可以将Web数据挖掘分为确定业务对象、数据准备、数据挖掘、结果分析等四个步骤。

在整个Web数据挖掘的过程中，被研究的业务对象是挖掘过程的基础，它驱动整个Web挖掘的全过程。

同时，也是检验挖掘结果和引导挖掘人员完成挖掘的依据。

数据挖掘的过程并非自动的，许多工作需要人工完成。

数据挖掘对数据有着严格的要求，先期的数据准备工作要占用横多的时间，且对数据挖掘的成败至关重要。

（二）搜索引擎概述

1、搜索引擎的定义

将给出搜索引擎的如下定义，帮助我们了解搜索引擎的基本概念；

搜索引擎是一种在Web上应用的软件系统，它以一定的策略在Web上搜集和发现信息，在对信息进行处理和组织后，为用户提供Web信息查询服务。

从使用者的角度看，这种软件系统提供一个网页界面，让他通过浏览器提交一个词语或者短语，然后很快返回一个可能和用户输入内容相关的信息列表（常常会是很长一个列表，例如包含1万个条目）。

它包括信息搜集，信息整理和用户查询三部分。

2、搜索引擎的分类

按照检索工具的发展过程可分为:

第一代搜索引擎、第二代搜索引擎和下一代搜索引擎。

（1）第一代搜索引擎

以AltaVista、Yahoo和Infoseek为代表,出现于1994年前后，搜索结果的好坏往往用反馈结果的数量来衡量。

也就是说，第一代搜索引擎“求全”。

（2）第二代搜索引擎

以goole和DirectHit为代表，还包括中国的XX、天网搜索等，这些引擎的主要特点是提高了查准率，可以用“求精”来描述。

（3）下一代搜索引擎

目前尚无产品出现，只是处于研究和探讨阶段，有资料称下一代搜索引擎将是“求专”和“求易”，可以理解成专业化和智能化；也有学者称下一代搜索引擎的方向是智能化和个性化。

本文认为面向自然语言检索的个性化搜索是下一代搜索引擎必经的发展方向。



按照提供的信息服务范围与用途的不同，搜索引擎可分为综合性搜索引擎和专业性搜索引擎。



（1）综合性搜索引擎即综合性的信息检索系统，利用它几乎可以检索任何方面的信息资源，但有时会出现字形相同而实际上互不相关的内容，或因检出的内容太泛而无法一一过目。

（2）专业性搜索引擎

则是专业信息机构根据专业需求，将因特网上资源进行筛选整理、重新组织而形成的专业性的信息检索系统。

专业性搜索引擎能针对用户的特定需求来提供信息，特定用户只要登录到相应的搜索引擎即可迅速、准确地找到符合要求的精准信息。

因此高质量专业性搜索引擎是学科专业领域的研究人员获取网上信息资源的重要工具，是因特网搜索引擎研究开发的方向。



搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。



（1）全文搜索引擎

全文搜索引擎，国外具代表性的有Goole、Fast/AllTheWeb、Altavista、Inktomi、Teoma、Wisenut等，国内著名的有XX。

它们都是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。

（2）目录索引类搜索引擎

目录索引类搜索引擎虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。

用户完全可以不用进行关键词查询仅靠分类目录也可找到需要的信息。

目录索引中最具代表性的莫过于大名鼎鼎的雅虎。

其他著名的还有OpenDirecttoryProject、LookSmart、About等。

国内的搜狐搜索、搜狗、新浪搜索、爱问、网易搜索也都属于这一类。

（3）元搜索引擎

元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。

著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，其中Dogpile为目前最受欢迎的元搜索引擎，它可以调用Goole、Yahoo、MSN、AskJeeves、LookSmart等20多个独立搜索引擎。

中文元搜索引擎中具代表性有万纬搜索、北斗搜索等。

除上述三大类引擎外，还有以下几种非主流形式：



（1）集合式搜索引擎

如在Hotbot年底推出的引擎。

该引擎类似META搜索引擎，但区别在于不是同时调用多个引擎进行搜索，而是由用户从提供的2个引擎当中选择因此叫它“集合式”搜索引擎更确切些。



（2）门户搜索引擎

如AOLSearch、MSNSearch等虽然提供搜索服务，但自身即没有分类目录也没有网页数据库其搜索结果完全来自其他引擎。



（3）免费链接列表

这类网站一般只简单地滚动排列链接条目，少部分有简单的分类目录，不过规模比起Yahoo等目录索引来要小得多。

3、搜索引擎的工作原理

搜索引擎的工作原理是：

运行一个称之为Robot的程序（也叫做Spider．WebCrawler或WebWanderer），根据链接遍历所有的网页，将收集到的网页存放到网页信息库中，并按一定的规则建立索引，用户在查询感兴趣的主题时，输入该主题的关键字作为查询条件，搜索引擎利用事先建立好的网页库和单词进行索引，检索出符合条件的网页返回给用户。

其组成如图2所示。

字符串链接

结果网页

图2搜索引擎工作原理

由图2可以看出，搜索引擎由客户端的用户查询接口和服务器端的信息获取系统组成，是Ｂ／Ｓ的计算模式。

它主要包括如下三个过程：

在互联网中发现、搜集网页信息；对信息进行提取和组织建立索引数据库；由检索器根据用户输入的查询关键字，在索引库中快速检索出文档。

进行文档与查询的相关度评价，对将要输出的结果进行排序，并将查询结果返回给用户。

（1）发现、搜集网页信息

发现、搜集网页信息主要采取以下两种做法：

一种方法是由用户主动向搜索引擎报告或提交自己的资源。

大多数搜索引擎的数据获取工作采用的是另一种方式，由高性能的Spider自动完成。

Spider是一个能够沿着超链接漫游Web页面集合的程序，并且能够通过HTTP等协议下载所漫游到的页面，它会定期根据预先设定的地址去查看对应的网页，如网页发生变化则重新获取该网页，否则根据该网页中的链接继续去访问。

Spider访问页面的过程是对互联网上信息遍历的过程，它可以采用深度优先和广度优先两种算法进行网页遍历，为了保证Spider遍历信息的广度，一般事先设定一些重要的链接，然后对这些链接进行遍历。

在遍历过程中不断记录网页中的链接．不断遍历下去，直到访问完所有的链接。

在算法上各个搜索引擎技术公司可能不尽相同，但目的都是快速浏览Web页和后续过程相配合。

目前国内的搜索引擎技术公司中，XX公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息，并把所获得的信息保存下来以备建立索引库和用户检索。

（2）索引数据库的建立

索引数据库的建立关系到用户能否最迅速地找到最准确、最广泛的信息，索引一般按照倒排文件的格式存放。

如果索引不能及时更新，Spider带回的新信息就不能被使用搜索引擎的用户查到。

对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价，能够客观地对网页进行排序，从而极大限度地保证搜索出的结果与用户的查询串相一致。

在设计一个索引数据库时，要针对实际需要确定索引数据库的数据结构和存储方式。

由于搜索引擎系统通常处理的都是海量的信息，因此还要设计一定的压缩策略，对索引库进行有效的压缩，以提高检索的速度。

（3）用户检索的过程

这是对前两个过程的检验，检验该搜索引擎能否给出最准确、最广泛的信息，检验该搜索引擎能否迅速地给出用户最想得到的信息。

对于网站数据的检索，不同搜索引擎有不同的做法。

比如新浪搜索引擎采用Cllent／Sever结构、多进程的方式在索引库中检索，大大减少了用户的等待时间，并且在用户查询高峰时服务器的负担不会过高。

而作为国内众多门户网站的网页检索技术提供商的XX公司，其搜索引擎则运用了先进的多线程技术，采用高效的搜索算法和稳定的UNIX平台，因此可大大缩短对用户搜索请求的响应时间。

4、搜索引擎存在的主要问题

搜索引擎的出现使Web信息检索的发展更进了一步，搜索引擎中搜索技术的发展使用户检索信息时更加需要它。

但是，目前的搜索引擎很难令用户满意。

在WWW中，主要按照HTML语言规范来表示和描述信息，完成信息的发布、传输和包装等一系列Web信息的加工处理过程，由于HTML语言是一种标记语言，接近自然语言，这就决定了Web数据是非常复杂的，没有特定的模型来描述，每一站点的数据各自独立设计，虽然Web数据具有一定的结构性，但因各自自述层次的存在，从而是一种非完全结构化的数据，也称之为半结构化数据，半结构化是WWW上数据的最大特点。

由于Web上这种半结构化数据的特点以及半结构化数据处理技术的相对滞后（与传统数据库技术相比较而言），就决定了当前搜索引擎还有许多不尽如人意的地方，就用户功能方面而言，主要存在以下几个问题：

（1）语言理解能力差，不能满足用户个性化需求

当前急需解决的问题是根据用户仅有几个输入词，来猜测用户要查找什么，即理解用户的需求和查询的兴趣。

（2）询精度不高

目前的搜索引擎在返回精确的查询结果方面不够理想，用户通常为大量的与查询无关的返回结果所困扰，所以需加强信息过滤等搜索方法的研究。

（3）动态网页处理能力弱

目前许多Web搜索引擎的查找对象仅为可访问的页面，有些用于生成动态页面内容的后台数据库内容还不能访问，搜索引擎的搜索范围应扩大到动态页面。

（4）查询覆盖面有限

据权威统计，目前搜集网页最多的搜索引擎HitaVista也只能达到信息量的40％左右。

因此用户经常采用多个搜索引擎进行查询，以提高检索的查全率，所以研制良好的元搜索引擎是目前的热点。

（5）许多格式文件不能处理

目前有些搜索引擎只能查找HTML格式，其它格式信息包括ppt文件、Word文档、pdf文件、各种各样的电子邮件内容等无法查到。

5、搜索引擎的主要性能指标

（1）搜索引擎建立索引的方法

数据库中的索引一般是按照倒排文档的文件格式存放的,在建立倒排索引的时候,不同的搜索引擎有不同的选项。

有些搜索引擎对于信息页面建立全文索引而有些只建立摘要部分,或者是段落前面部分的索引。

还有些搜索引擎,如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义,如粗体、大字体显示的东西往往比较重要，放在"锚"链接中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。

索引不同,在检索信息时产生的结果会不同。

（2）搜索引擎的受欢迎程度

搜索引擎的受欢迎程度体现了用户对搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。

搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态地变化。

搜索引擎的服务水平与它所收集的信息量、信息的新颖度和查询的精确度相关。

随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受到用户的欢迎。

（3）搜索引擎的检索功能

搜索引擎所支持的检索功能的多少及其实现的程度,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。

另外,由于中文信息持有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就能全面检索大陆及港台地区乃至全世界的中文信息。

这样不但可以提高搜索引擎的质量,而且会得到用户的支持。

搜索引擎的检索效果检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。

响应时间是用户输入检索式开始查询到检出结果的时间。

查全率是指一次要求搜索结果中符合用户要求的数目与用户查询相关的总数之比。

查准率是指一次搜索结果集中符合用户要求的数目与该词搜索结果总数之比。

相似度是指用户查询与搜索结果之间相似度的一种度量，查准率是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。

总之,一个好的搜索引擎应该具有较快的响应速度、高的查全率和查准率,或者有极大的相似度。

另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。

三、Web数据挖掘技术分析

Web数据挖掘中常用的技术有Web使用的特有的路径分析技术和数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。

（一）路径分析技术

我们通常采用图的方法来分析Web页面之问的路径关系。

G=（V，E），其中：

V是页面的集合，E是页面之间的超链接集合，页面定义为图中的顶点，而页面闻的超链接定义为图中的有向边。

顶点v的人边表示对v的引用，出边表示v引用了其他的页面，这样形成网站的结构图，从图中可以确定最频繁的访问路径。

路径分析技术常用于进行改进站点的结构。

如70%的用户访问/company/product时，是从/company开始，经过/company/new/company/products/company/product。

此时可以将路径放在比较显著的地方，方便了用户访问，也提高了该产品的点击率。

（二）关联规则技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则，就是要挖掘出用户在一个访问期限（Session），从服务器上访问的页面文件之间的联系，这些页面之间并不存在直接的参引（Reference）关系。

使用关联规则可以发展很多相关信息或产品服务。

例如：

某信息A和B，同时被很多用户浏览，则说明A和B有可能相关。

同时点击的用户越多，其相关度就可能越高。

系统可以利用这种思想为用户推荐相关信息或产品服务。

如当当电子书店就采用了这一模式用以推荐相关书目。

当你选择某本图书时，系统会自动给你推荐信息，告知“很多读者在购买此书时还购买的其他书目”。

ACM数字图书馆也采用了这一思想，推出信息推荐服务“PeertoPeer”。

（三）序列模式数据挖掘技术

序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。

它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律，关联挖掘技术注重事务内的关系，而序列模式技术则注重事务之间的关系。

发现序列模式，便于预测用户的访问模式，有助于开展基于这种模式的有针对性的广告服务。

依赖于发现的关联规则和序列模式，能够在服务器方动态地创立特定的有针对性的页面。

以满足访问者的特定需求。

（四）聚类分类技术

分类规则可挖掘出某些共同的特性，而这一特性可对新添加到数据库中的数据项进行分类。

在Web数据挖掘中，分类技术可根据访问用户而得到个人

展开阅读全文