基于协同过滤和矩阵分解的推荐算法的研究与改进.pdf

资源描述

基于协同过滤和矩阵分解的推荐算法的研究与改进.pdf

《基于协同过滤和矩阵分解的推荐算法的研究与改进.pdf》由会员分享，可在线阅读，更多相关《基于协同过滤和矩阵分解的推荐算法的研究与改进.pdf（62页珍藏版）》请在冰豆网上搜索。

基于协同过滤和矩阵分解的推荐算法的研究与改进.pdf

南开大学硕士学位论文基于协同过滤和矩阵分解的推荐算法的研究与改进姓名：

于洋申请学位级别：

硕士专业：

计算机应用技术指导教师：

李耀国2012-05摘要摘要在当今互联网时代，信息的数量在不断呈现几何式的增长。

用户已经不需要担心信息的匮乏，而转向担心如何有效获取信息。

搜索引擎作为一支重要力量，极大的提高了用户在海量数据获取目标数据的能力。

但是搜索引擎需要用户自行构造关键词，在获取信息的扩展性和新颖性上还有很大的局限。

个性化推荐系统正是瞄准这一问题，利用数据挖掘等相关技术，分析用户行为，发现信息关联，主动向用户推送可能感兴趣的内容。

个性化推荐技术目前在电子商务、社交网站等领域有着非常广泛的应用。

本文深入研究了个性化推荐领域中常用的两种方法，即传统的协同过滤方法，以及在最近个性化推荐领域的大赛中普通采用的SVD矩阵分解方法。

以常用的电影推荐为载体，在两种基本方法的基础上，深入挖掘数据集特点，提出了加入全局偏置和时间信息的新的预测和计算模型，并尝试将SVD计算过程的中间产物用于传统的协同过滤模型，以提高预测精度。

实验结果表明，加入全局偏置和时间信息后，两种方法预测精度都有一定提升；同时，利用SVD方法能够发现隐含特征的特性，在传统协同过滤方法中融入SVD方法的中间结果后，预测精度也有提升。

关键词：

个性化推荐，协同过滤，SVD，矩阵分解，时间因素AbstractAbstractAtt_heageofInternettheamountofinformationhasincreasedSOmuchthatusersbegintoworryabouthowtoobtaininformationtheyreallyneedinsteadofworryingaboutthelackofinformationSearchenginecallbeapowerfultooltosolvetheproblemofinformationoverload，butitneedssomekeywordstoworkwith，whichisalimitationduringobtaininginformationthatwecannotdescribeusingaappropriatekeywordSometimesuserswanttogetsomeinformationthatcanmakeasurprisetothemRecommenderSystemappearstoaimatthisproblemItusesthetechnologyofdataminingandmachinelearningtoanalysisuseractions，discoverstherelationshipamonginformationandUSerS，andofferstheinformationthatusersmaybeinterestedinNowRecommenderSystemhasbeenusedinseveralfieldsincludingecommerce，socialnetworkandSOonThispaperdoessomeresearchonthemainalgorithmsusedinrecommendersystemCollaborativefilteringiswidelyusedinmanyIntemetapplicationssuchasAmazonandthisalgorithmhasanacceptablerecommendationresultMatrixfactorizationwhichiswidelyusedinrecentrecommendationpriceisverypopular,especiallytheSVDandLatentfactormodelBasedonthesetwoalgorithms，wegivesomemethodstoimprovetheresultofratingpredictionusingthetimeinformationinthemoviedataset，suchastimefeatureandglobalbias，attemptingtomergethesetwomodelstoachieveamoreaccurateresultOurexperimentshowsthatpredictionaccuracyhasbeenpromotedafteraddingthesefeaturestotheoriginalmodelKeyWords：

RecommenderSystem，CollaborativeFiltering，SVD，MatrixFactorization，timefeatureII第一章绪论111信息爆炸第一章绪论第一节个性化推荐的产生在计算机科学的发展历史中，互联网的出现具有非常划时代的意义。

它不仅将计算机的作用从单纯的数据计算，变成了多人直至全世界的网络信息共享，而且在人类的不断创新下，产生了一系列影响人们传统生活的习惯。

例如，电子商务让人们不需出门就可以买到几乎全世界所有的商品，社交网络为人们的社会交往提供了一个更方便和更多样化的交流沟通平台，搜索引擎让我们不再需要在图书馆中如大海捞针一般寻找所需资料，即时通讯软件极大的方便了人们的日常通讯，等等。

但是，在互联网为人类产生几乎无穷无尽的信息的时候，我们也迎来了信息爆炸的问题，即，信息量太大了，我们反而不知道哪个信息是我们所真正需要的。

Twitter上每天发布的信息大概有九千万条，Facebook上每个用户平均大概有130个好友，youtube上每分钟大概会上传34小时的视频。

让我们来简单回忆一下互联网发展的几个阶段，我把它分为以下几个时代：

a）门户网站时代。

这个时代的网络活动，主要是人们浏览门户网站，在门户网站的各个子分类下查看各自领域的信息。

这时候的信息只能由专业人士提供，基本上由门户网站单方面提供，和传统的报纸等媒体的作用非常相似，用户几乎没有自己创造信息或者提供反馈的功能。

人们处在一个被动接受信息的时代。

后来Yahoo!

推出了分类目录的系统，使得用户可以根据自己的需求，查询某一类网站的内容，一定程度上提高了用户查询信息的便捷性。

b）搜索引擎出现。

随着互联网上信息的不断增加，人们的需求发生了变化。

用户由被动的接受信息，开始转变为想要主动获取某个精确问题的信息。

搜索引擎因此应运而生，它通过不断搜集互联网上的信息，并让用户提供简单的关键词，根据相关算法来筛选出相关信息。

搜索引擎是应对信息爆炸的一个最初的有效方法，其最具有代表性的搜索引擎莫过于Google。

第一章绪论C）Web20的出现。

在这个时代，每个人都是互联网信息的提供者，与传统门户网站相比，这类网站提供了用户交互的功能，互联网由从前的“只读”变成了“可读可写”，信息的供应渠道因此猛增。

这个时代出现了博客，SNS，wiki等典型的互联网应用。

我们可以看到，在Web20诞生后，所有参与互联网活动的人，都可以作为信息的提供者，信息爆炸的问题再次显现。

我们在使用搜索引擎的时候可以很明显的感觉到，搜索一个问题，出现的答案有上百万条，虽然其中存在有很大一部分重复，但是搜索结果的多样性仍然让我们感到无所适从。

在这种情况下，个性化推荐系统（RecommendationSystem，RS）正在逐渐发展。

个性化推荐系统应用了数据挖掘和机器学习等相关技术，利用互联网大量的信息，以及用户在互联网上的各种显式反馈（用户评分，购买等）和隐式反馈（用户浏览，页面滚动等），充分发掘用户特征，从而在用户没有提供关键字的前提下，主动推送用户可能感兴趣的信息。

我们目前在互联网上常见的个性化推荐的形态，就是诸如“猜你喜欢”、“你可能感兴趣的书籍”等。

个性化推荐至今大约有20年的历史，其最早的研究开始于美国明尼苏达大学一个叫做GroupLens的研究组，他们对一个叫做MovieLens的电影推荐系统做了研究。

这个系统收集和分析用户对电影的评分，然后预测用户兴趣并推荐他们可能喜欢的其他电影。

这个想法后来被Amazon成功引入了电子商务领域，通过分析用户浏览和购买的行为为用户推荐商品，使其销售额成功提高了30。

ACM从2008年也开始主办推荐系统国际会议，很多社交网站目前也将个性化推荐技术作为一个重要的创新点。

GroupLens在1994年提出了基于用户的协同过滤算法【11，Amazon则在2003年公开了基于物品的协同过滤算法【2】。

112长尾理论个性化推荐的出现也解决了网络时代的“长尾问题”（LongTail）【3】。

长尾是2004年ChrisAnderson首次使用的词汇，经常用于描述某种经济模式，或者应用于统计学中。

其基本原理是：

在存储和流通的渠道很大的时候，需求不高和销量不旺的产品所占

展开阅读全文