基于web数据挖掘的个性化推荐研究最终版 2.docx

资源描述

基于web数据挖掘的个性化推荐研究最终版 2.docx

《基于web数据挖掘的个性化推荐研究最终版 2.docx》由会员分享，可在线阅读，更多相关《基于web数据挖掘的个性化推荐研究最终版 2.docx（46页珍藏版）》请在冰豆网上搜索。

基于web数据挖掘的个性化推荐研究最终版 2.docx

基于web数据挖掘的个性化推荐研究最终版2

基于web数据挖掘的个性化推荐研究

摘要：

在海量信息数据化的今天，网络用户与商家均面临着信息混乱的问题，一边是体量庞大的用户需求数据，一边是苦于找不到买家的网络经销商，而基于web数据挖掘技术的个性化推荐技术就是解决该问题的一个有效方法，通过web数据之挖掘，根据用户的需求分析后自动推送可以满足用户需求的信息，既解决了市场的迫切需求，又解决了卖家的卖方市场，可谓是双赢。

本文简要的介绍了基于web日志的数据挖掘的个性化推荐系统，阐述了几种常见的重要的个性化推荐算法，并对个性化推荐的作用和将来可能面临的问题进行了总结。

关键字：

web日志，数据挖掘，个性化推荐

Abstract:

todayinthevastamountsofinformationdata,networkusersandbusinessesarefacedwithconfusion,onesideisthehugeamountofuserdemandfordata,onesideisstrugglingtofindbuyersforthedealernetwork,andbasedonWebDataMiningTechnologyinpersonalizedrecommendationtechnologyistosolvetheproblemofaneffectivemethod,throughthewebdatamining,accordingtouserneedsanalysistoautomaticallypushcansendtomeetuserdemandinformation,notonlysolvetheurgentneedsofthemarket,andsolvethesellerofaseller'smarket,canbedescribedasawin-win.ThispaperbrieflyintroducesthepersonalizedrecommendationsystemofdataminingbasedonWeblog,expoundsseveralcommonimportantpersonalizedrecommendationalgorithms,andsummarizestheroleofpersonalizedrecommendationandthepossibleproblemsinthefuture.

Keywords:

Weblog,datamining,personalizedrecommendation

第一章绪论2

1.1研究背景与意义2

1.2国内外研究现状3

1.3论文的内容安排3

第二章web日志挖掘概述4

2.1数据挖掘4

2.1.1数据挖掘的一般过程4

2.1.2数据挖掘的算法模型分类5

2.2web数据挖掘6

2.2.1web数据挖掘的数据源6

2.2.2web数据挖掘的分类7

2.3web日志挖掘与个性化推荐8

2.3.1数据来源8

2.3.3web日志挖掘的应用过程9

2.3.4基于web挖掘的个性化推荐方法10

2.3.5web数据挖掘与个性化推荐的益处12

2.4本章小节13

第三章基于web日志挖掘的个性化推荐原型系统14

3.1个性化14

3.2个性化推荐系统框架设计14

3.3个性化推荐系统主要功能模块16

3.3.1预处理模块16

3.3.2挖掘模块18

3.3.3推荐模块19

3.4个性化推荐系统工作流程19

3.5本章小结20

第四章个性化推荐系统算法研究与改进21

4.1马尔可夫预测模型定义21

4.2马尔可夫预测原型22

4.2.1传统马尔可夫预测模型22

4.2.2混合马尔可夫预测方法24

4.2.3多马尔可夫链预测模型26

4.3马尔可夫预测模型改进28

4.3.1模型存储结构的改进28

4.3.2用户特征分类31

4.3.3引入页面聚类思想36

4.3.4改进模型的分析38

第五章实验及结果分析40

5.1实验对比40

5.2本章小结43

第六章总结与展望44

6.1总结44

6.2进一步工作展望44

第一章绪论

1.1研究背景与意义

随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用，使海量数据不断产生。

随之而来的问题是如此多的数据让人难以消化，无法从表面上看出他们所蕴涵的有用信息，更不用说有效地指导进一步的工作。

如何从大量的数据中找到真正有用的信息成为人们关注的焦点，数据挖掘技术也正是伴随着这种需求从研究走向应用。

近年来，随着Internet/Web技术的快速普及和迅猛发展，使各种信息可以以非常低的成本在网络上获得，由于Internet/3W在全球互连互通，可以从中取得的数据量难以计算，而且Internet/3W的发展趋势继续看好，特别是电子商务的蓬勃发展为网络应用提供了强大支持，如何在3W这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。

Web挖掘指使用数据挖掘技术在3W数据中发现潜在的、有用的模式或信息。

Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等

1.2国内外研究现状

数据挖掘（Data Mining,DM）是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。

随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。

如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。

各种类似Google、XX等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。

近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网

络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。

而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。

它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。

Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

1.3论文的内容安排

本文各章节按如下组织方式：

第一章介绍互联网背景，引出基于web日志挖掘的个性化推荐研究的意义，分析国内外web日志挖掘和个性化推荐研究现状。

第二章首先概述数据挖掘的基本知识，然后重点描述数据挖掘的重要分支web数据挖掘，然后对web数据挖掘在个性化推荐中的应用从数据源，建模过程做了介绍，最后分析了目前主要个性化推荐算法的优缺点引出本文选择的模型马尔可夫预测模型。

第三章提出本文研究的重点web日志挖掘，并提出了基于web日志挖掘的一种框架设计，然后描述了各模块的功能和工作过程以及相互之间的协调工作。

第四章介绍了马尔可夫模型的基本概念和三种基本马尔可夫模型，分析了三种模型的优缺点，提出改进的模型算法，分别从存储结构和构建过程上做了改进，分析改进模型的工作过程和相比较传统模型的优点。

第五章通过实验对比用户模型生成时间，推荐生成时间，推荐准确度，证明了改进马尔可夫模型的可行性。

第六章总结全文工作，指出本文不足的方面，并对接下来的工作提出展望。

第二章web日志挖掘概述

2.1数据挖掘

数据挖掘就是从大量的,模糊的，无规律的数据中，发现规律并提取出有价值的最终为人所利用的信息的非平凡过程。

数据挖掘提取的信息是事先不为人所知的，因而所得信息具有未知性，有效性，实用性。

数据挖掘由多个领域的理论和技术融合而成，包含数据库，人工智能，机器学习。

现如今比较成熟的数据挖掘方法有关联分析，聚类分析，协同过滤等。

以客户为中心的企业可以利用数据挖掘做好决策分析和用户管理。

2.1.1数据挖掘的一般过程

简单来说，我们可以把它大分为：

确定对象，数据收集，数据预处理，数据挖掘阶段以及应用阶段。

1.确定挖掘对象：

定义清晰的挖掘对象，认清数据挖掘的目标是数据挖掘的第一步。

数据挖掘的最后结果往往是不可预测的，但是要解决的问题应该是有预见性的、有目标的。

在数据挖掘的第一步中，有时还需要用户提供一些先验知识。

这些先验知识可能是用户的业务领域知识或是以前数据挖掘所得到的初步成果。

这就意味着数据挖掘是一个过程，在挖掘过程中可能会提出新的问题；可能会尝试用其他的方法来检验数据，在数据的子集上展开研究。

2.数据收集：

数据是挖掘知识最原始的资料。

“垃圾进，垃圾出”，只有从正确的数据中才能挖掘到有用的知识。

为特定问题选择数据需要领域专家参加。

因此，领域问题的数据收集好之后，和目标信息相关的属性也选择好了。

3.数据预处理：

数据选择好以后，就需要对数据进行预处理。

数据预处理包括：

去除错误数据和数据转换。

错误数据，在统计学中称为异常值，应该在此阶段发现并且删除。

否则，它们将导致产生错误的挖掘结果。

同时，需要将数据转换成合适的形式。

例如，在某些情况下，将数据转换成向量形式。

另外，为了寻找更多重要的特征和减少数据挖掘步骤的负担，我们可以将数据从一个高维空间转换到一个低维空间。

4.数据挖掘：

数据挖掘步骤主要是根据数据建立模型。

我们可以在这个步骤使用各种数据挖掘算法和技术。

然而，对于特定的任务，需要选择正确合适的算法，来解决相应的问题。

5.应用阶段：

在数据挖掘得到合适的模型之后应用到实例中，应用模型对未知的数据进行预测。

2.1.2数据挖掘的算法模型分类

从处理过程，功能模型，应用方向等不同的角度可以把数据挖掘分为不同的类别，在此我们以功能模型划分，可以把数据挖掘分为以下类型：

1.关联模型

关联模型的用途是发现事物之间的关系总结称规则为人所用，预测哪些事情将一起发生。

例如超市中客户在购买A的同时，会有k的概率购买B，即A=>B（关联规则），k为该关联的置信度。

2.序列模型

序列模型与关联模型类似，也是描述事物之间的相关性，但是序列模型建立在时间的基础上，描述的是一段时间内可能发生的事情，例如客户在购买A后，隔一段时间，会购买B（序列分析）。

3.聚类模型

聚类是对记录分组，把相似的记录在一个聚集里。

聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。

例如：

a.一些特定症状的聚集可能预示了一个特定的疾病；b.租VCD类型不相似的客户聚集，可能暗示成员属于不同的亚文化群。

聚集通常作为数据挖掘的第一步。

例如，"哪一种类的促销对客户响应最好？

"，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。

4.分类模型

分类模型首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。

例如：

a.信用卡申请者，分类为低、中、高风险；b.故障诊断：

采用数据挖掘技术对钢材生产的全流程进行质量监控和分析，构建故障地图，实时分析产品出现瑕疵的原因，有效提高了产品的优良率。

值得注意的是类的个数是确定的，预先定义好的。

5.回归模型

回归模型的意图是用一些历史的数据或者设定的数据去预测未来的数值或者发展趋势。

线性回归可以用来解决简单的问题。

由于诸多因素，现实生活中遇到的很多问题都是复杂的非线性问题，回归模型的任务就是发现规律并准确描述问题变化。

相对而言，回归模型和分类模型应用比较广泛。

我们不能单独依靠一种模型去解决某一类实际问题。

解决实际问题时，我们往往多种模型结合使用达到最好的挖掘效果。

2.2web数据挖掘

Web数据挖掘可以说是数据挖掘的一个分支，但是它有别于传统意义上的信息挖掘，它的信息是异构的，挖掘对象是大量的，分布的，无结构Web日志文档。

传统的数据挖掘主要针对有结构的数据信息，因此有些挖掘算法和技术不适合Web挖掘。

2.2.1web数据挖掘的数据源

数据挖掘是从大量数据中挖掘有用信息的过程。

首先考虑的是如何获得这些数据即数据源，web数据挖掘的数据源主要有如下几种：

（1）用户数据

用户数据是指用户在注册时和浏览过程中从屏幕输入的，保存在服务器当中的相关信息。

这类数据包括用户注册信息，用户的历史购买记录，对物品的评分情况或是对某些对象的访问频度等。

用户数据可以和访问日志集合，提高预测的准确性，许多个性化应用还要求预先存储用户模型信息。

（2）内容数据

站点的内容数据是已经传送给用户的对象和关系的集合。

这类数据主要指网页页面中的内容，包含文字，图片，动画等，Web内容挖掘主要应用此类数据。

网站内容数据还包括嵌入在页面中的含语义的元数据，例如描述性关键字，文档属性，语义标签等。

（3）使用记录数据

用户对服务器的每次访问都会在服务器日志中留下一条对应的记录，这是web数据挖掘主要数据来源。

本文主要讨论的是Severlogs，它以文本文件的方式记录所有访问记录。

日志文件中至少保存用户域名，用户名，发出请求的时间，请求方式，请求路径，请求结果等，这些信息能很具体的体现访问者的导航行为，从其中选取重要信息作为web挖掘数据源。

（4）结构数据

结构数据展示了以设计者的角度所看到的网站的内容组织结构，通过页面间的链接关系反映。

结构数据还包括页面上的内容结构。

2.2.2web数据挖掘的分类

Web上信息的多样性使得web数据挖掘具有多样性。

目前互联网上的数据挖掘技术主要根据挖掘的方向一般分为三类：

Web内容挖掘，Web结构挖掘和Web使用记录的挖掘，如图所示：

0图2-1Web挖掘分类图

（1）Web内容挖掘：

指对页面内容的挖掘，即对页面上大量的内容进行分析和预测，是一个知识抽取的过程。

Web内容挖掘根据针对的挖掘对象的不同又分为web文本挖掘和多媒体挖掘。

web内容挖掘能的任务网页内容中抽取出有用的信息，虽然它的任务和传统的数据挖掘的任务相似，但是我们还可以从网页内容中抽取别的有用信息从而进一步分析用户的行为。

（2）web结构挖掘：

指从web的组织结构和链接关系中推倒出有用的知识，挖掘web潜在的链接结构模式。

根据科学引文分析理论，页面之间的链接关系蕴含着丰富的信息，可以通过分析一个页面的链接和被链接数量来建立链接结构模式，该模式可以用来网页分类并以此获得不同网页之间的关联度，目前主要可以用于权威页面的发现，以及分析相关的页面联接结构，并且通过分析这类信息来获取到更多需要的信息。

（3）web使用记录挖掘：

指针对web服务器上的用户访问日志进行挖掘，发现用户对web页面的访问模式，以此预测用户的浏览行为。

不同于web结构挖掘和web内容挖掘，web使用记录挖掘的数据是用户和网络交互过程中抽取出来的第二手数据，通过分析这些数据可以帮助理解用户的行为为用户提供个性化的服务也可以改进站点的结构。

Web使用记录挖掘重要的任务就是数据的预处理，生成挖掘算法可识别的数据源。

2.3web日志挖掘与个性化推荐

随着互联网技术的发展，网站上包含的信息量越来越大，在这庞大的信息面前，用户经常陷入选择困难。

网站拥有大量的web日志，通过对大量日志的挖掘给用户个性化的推荐是网站赢得竞争的主要手段。

2.3.1数据来源

选择合适的数据对数据挖掘挖掘的结果有重大的影响，用户的web日志一般包含三部分：

客户端日志，代理服务器日志，web服务器日志。

（1）客户端日志：

客户端日志记录的是客户对多个网站的访问过程，收集工作一般通过使用远程代理实现。

客户端日志能准确反映单个用户对站点的访问偏好，如频繁访问网站、书签内容等。

但是客户端日志涉及用户的隐私等问题，用户通常不允许客户端cookie的安装，使得服务方很难得到单个客户端的访问信息，因而无法准确的知道用户的兴趣。

（2）代理服务器日志:

代理服务器日志记录了多个用户对多个站点的访问过程。

代理服务器介于客户和服务器端之间，提供缓存功能加速客户对页面的访问，代理服务器端的日志包括缓存中页面和用户访问日志，其日志格式同样遵循公共日志格式标准，对其进行挖掘分析，可以得到该代理服务器用户的偏好。

（3）web服务器日志：

web服务器日志记录了多个用户对该站点的访问过程，不同的服务器日志格式不一样，但是都包含一些关键字段，主要结构如下表：

表2.1服务器日志文件格式

域

描述

日期（date）

访问页面日期

时间（time）

访问页面时间

用户IP

用户主机IP地址

请求方式

用户请求方式如GET、POST

URL资源

用户请求的IP地址

参照（refer）

用户上页浏览情况

代理（agent）

产生请求的用户代理信息

服务器日志能隐含了多个用户对该站点的访问信息，对其进行挖掘发现用户行为兴趣，对站点有着重大的意义，所以本论文的重点就是研究对web服务器端的日志挖掘，向用户提供个性化的推荐。

2.3.3web日志挖掘的应用过程

将Web数据挖掘应用于个性化推荐主要任务就是建立用户行为模式然后结合推荐算法计算适合用户的推荐其过程可以理解为三步：

数据预处理，模式挖掘，模式应用。

图2-3挖掘过程图

数据预处理是一个消除噪声的过程，经过一系列操作生成数据挖掘可识别的数据。

数据预处理一般包含数据清洗、用户识别、会话识别、路径补充、事务识别阶段，不同的挖掘目的对预处理的参数选择会不一样。

模式挖掘是发现信息的过程，生成代表用户特征的用户模式。

模式挖掘过程中重要的任务是从大量挖掘算法中选择合适的挖掘算法。

主要考虑的因素是数据的特点、挖掘的目的。

模式应用就是将数据挖掘生成的用户模式结合具体的推荐算法，用于个性化推荐。

模式挖掘生成的用户模式库包含多个模式，如用户兴趣模式、页面访问模式等。

此处应该根据具体需要结合多个用户模式，选择合适推荐算法生成推荐结果。

为了有更好的推荐结果，推荐算法可以是多种算法的结合，如现在电子商务中多用的协同过滤与关联规则相结合。

2.3.4基于web挖掘的个性化推荐方法

个性化服务是目前所有网络服务的发展目标，网络智能的出现大大推进了网络个性化服务的发展。

网络智能是目前计算机科学中一个比较活跃的研究分支，它的目的是利用人工智能的知识去实现推理，学习以及自适应等功能。

目前，研究的热点主要是在web挖掘的基础上，捕捉和发现用户的行为模式，实现智能推荐的个性化服务达到最大用户体验和商业利益。

目前主要的个性化推荐系统可以大致分为两种：

第一种是以电子商务为基础，根据用户的信息以及购买记录给用户提供个性化的服务，它主要是针对商品，目前阿里巴巴这方面研究做的比较好。

第二种是建立在web数据挖掘的基础上，针对用户浏览行为给用户提供感兴趣的网页，也是本文研究的重点。

由于web性质的特殊性，以网页为基础的个性化推荐系统会面临一系列问题，幸运的是经过近年的研究与发展，已经发展出一些适合web挖掘的推荐方法，下面我们分别简单介绍几种方法。

1．统计方法

相对而言，统计方法原理和实现都比较简单。

我们把该方法分为人工处理和统计方法两部分。

人工方法就是简单的用以往的经验，根据用户的信息以及商品的信息如价格，类型等特征进行分类，然后针对不同的用户做不同的推荐。

统计方法采用的是数学统计的方法，相对应用广泛，比如电子商务中向用户推荐同类商品中最火的商品，视频网站中其它用户对用户当前视频的评分以及在简单查询基础上给用户推荐看过该视频的用户还看过什么视频。

人工统计方法实现简单，目前在各网站中广泛应用但是由于针对所有用户，没有突显用户的个体特征所以个性化和动态性程度较低。

2．协同过滤

协同过滤由Goldberg等人首次提出基本描述之后，经过近年的改进已经发展为电子商务中一项很受欢迎的技术。

与传统的基于内容过滤的直接分析内容进行推荐不同，协同过滤面向用户通过分析用户兴趣，在用户群中找到与兴趣相同的用户，综合其它用户对某个产品的评价，找个最优的产品推荐给用户。

协同过滤的实现建立在用户对商品的评价的基础上，然后事实上很多用户不会对商品做出评分，我们可以采用隐式评价的技术，即针对用户的购买记录，页面的浏览次数隐式的衡量用户对某产品的兴趣度。

协同过滤具有以下优点：

推荐的新颖性;能够过滤一些复杂的，无法自动进行的内容分析的信息，如音乐，艺术品，产品质量等。

正因为如此，很多公司采用协同过滤提高用户服务质量，能为不同兴趣偏好的用户自动推荐尽量符合其兴趣需要的商品；对用户曾经购买过的商品以及该用户对其他商品的评价进行分析后，向用户推荐可能喜欢的商品；能对用户购买过的东西进行自动分析，然后因人而异的提出合适的建议。

然而协同过滤也存在一定缺陷：

（1）用户对商品的评价非常稀疏，这样基于用户的评价所得到的用户间的相似性可能不准确（即稀疏性问题）;

（2）随着用户和商品的增多，系统的性能会越来越低;（3）如果从来没有用户对某一商品加以评价，则这个商品就不可能被推荐（即最初评价问题）。

因此，现在的电子商务推荐系统都采用了几种技术相结合的推荐技术。

3．关联规则

提到关联规则大家一定会想到那个经典的啤酒与尿布的故事，正是借助数据挖掘技术对海量数据进行挖掘沃尔玛超市才发现这一有价值的规律。

关联规则挖掘过程主要包含两个阶段：

第一阶段必须先从资料集合中找出所有的高频项目组（FrequentItemsets），第二阶段再由这些高频项目组中产生关联规则（AssociationRules）。

电子商务中，关联规则能发现商品之间的关联关系，提高附带销售。

但是在我国，“数据海量，信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。

金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却无法发现数据中存在的各种有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。

可以说，关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

同时在智能领域中，面对瞬息万变的信息，以耗时的离线分析为基础的关联规则方法显得不是很适合。

4．分类和聚类

分类分析目前比较成熟的有线性回归，贝叶斯，决策树等，它通过建立模型分析测试样例数据，发现分类规则，然后就可以把新的数据分到具体的类别中。

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。

聚类分析起源于分类学，但是聚类不等于分类。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

在商务上，聚类能帮助市场分析人员从客户基本库中发现不同的客户群，并且用购买模式来刻画不同的客户群的特征。

由于引入了多数用户的聚类，所以聚类的个性化程度相对其它方法较低。

通常，聚类方法会与其它方法结合使用以降低复杂度，加快推荐速度。

本文后来也用了这种方法。

5．序列模式方法

序列模式方法首先捕获用户频繁序列，根据当前用户路径去匹配频繁序

展开阅读全文