高级数据挖掘大作业基于协同过滤算法的电影推荐系统设计Word文件下载.docx

资源描述

高级数据挖掘大作业基于协同过滤算法的电影推荐系统设计Word文件下载.docx

《高级数据挖掘大作业基于协同过滤算法的电影推荐系统设计Word文件下载.docx》由会员分享，可在线阅读，更多相关《高级数据挖掘大作业基于协同过滤算法的电影推荐系统设计Word文件下载.docx（13页珍藏版）》请在冰豆网上搜索。

高级数据挖掘大作业基于协同过滤算法的电影推荐系统设计Word文件下载.docx

DataModel：

DataModel是用户喜好信息的抽象接口，它的具体实现支持从指定类型的数据源抽取用户喜好信息。

在Mahout0.5中，Taste提供JDBCDataModel和FileDataModel两种类的实现，分别支持从数据库和文件文件系统中读取用户的喜好信息。

对于数据库的读取支持，在Mahout0.5中只提供了对MySQL和PostgreSQL的支持，如果数据存储在其他数据库，或者是把数据导入到这两个数据库中，或者是自行编程实现相应的类。

UserSimilarit和ItemSimilarity：

前者用于定义两个用户间的相似度，后者用于定义两个项目之间的相似度。

Mahout支持大部分驻留的相似度或相关度计算方法，针对不同的数据源，需要合理选择相似度计算方法。

UserNeighborhood：

在基于用户的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的，该组件就是用来定义与目标用户相邻的“邻居用户”。

所以，该组件只有在基于用户的推荐算法中才会被使用。

Recommender：

Recommender是推荐引擎的抽象接口，Taste中的核心组件。

利用该组件就可以为指定用户生成项目推荐列表。

二、相似性度量

本章节将系统中用到的几个相似性度量函数作以介绍，taste中已经具体实现了各相似性度量类。

UserCF和ItemCF都依赖于相似度的计算，因为只有通过衡量用户之间或物品之间的相似度，才能找到用户的“邻居”，才能完成推荐。

下面就对常用的相似度计算方法进行详细的介绍：

1.基于皮尔森相关性的相似度——Pearsoncorrelation-basedsimilarity

皮尔森相关系数反应了两个变量之间的线性相关程度，它的取值在[-1,1]之间。

当两个变量的线性关系增强时，相关系数趋于1或-1；

当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；

如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；

如果相关系数等于0，表明它们之间不存在线性相关关系。

用数学公式表示，皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。

Pearsoncorrelation-basedsimilarity

协方差（Covariance）：

在概率论和统计学中用于衡量两个变量的总体误差。

如果两个变量的变化趋于一致，也就是说如果其中一个大于自身的期望值，另一个也大于自身的期望值，那么两个变量之间的协方差就是正值；

如果两个变量的变化趋势相反，则协方差为负值。

Covariance

其中u表示X的期望E（X）,v表示Y的期望E（Y）

标准差（StandardDeviation）：

标准差是方差的平方根

StandardDeviation

方差（Variance）：

在概率论和统计学中，一个随机变量的方差表述的是它的离散程度，也就是该变量与期望值的距离。

Variance

即方差等于误差的平方和的期望

基于皮尔森相关系数的相似度有两个缺点：

（1）没有考虑（takeintoaccount）用户间重叠的评分项数量对相似度的影响；

（2）如果两个用户之间只有一个共同的评分项，相似度也不能被计算

Table1

上表中，行表示用户（1～5）对项目（101～103）的一些评分值。

直观来看，User1和User5用3个共同的评分项，并且给出的评分走差也不大，按理他们之间的相似度应该比User1和User4之间的相似度要高，可是User1和User4有一个更高的相似度1。

同样的场景在现实生活中也经常发生，比如两个用户共同观看了200部电影，虽然不一定给出相同或完全相近的评分，他们之间的相似度也应该比另一位只观看了2部相同电影的相似度高吧！

但事实并不如此，如果对这两部电影，两个用户给出的相似度相同或很相近，通过皮尔森相关性计算出的相似度会明显大于观看了相同的200部电影的用户之间的相似度。

Mahout对基于皮尔森相关系数的相似度给出了实现，它依赖一个DataModel作为输入。

PearsonCorrelationSimilarity

同时，Mahout还针对缺点

（1）进行了优化，只需要在构造PearsonCorrelationSimilarity时多传入一个Weighting.WEIGHTED参数，就能使有更多相同评分项目的用户之间的相似度更趋近于1或-1。

UserSimilaritysimilarity1=newPearsonCorrelationSimilarity（model）;

doublevalue1=similarity1.userSimilarity（1,5）;

UserSimilaritysimilarity2=newPearsonCorrelationSimilarity（model,Weighting.WEIGHTED）;

doublevalue2=similarity2.userSimilarity（1,5）;

结果：

SimilarityofUser1andUser5:

0.944911182523068

SimilarityofUser1andUser5withweighting:

0.9655694890769175

2.基于欧几里德距离的相似度——EuclideanDistance-basedSimilarity

欧几里德距离计算相似度是所有相似度计算里面最简单、最易理解的方法。

它以经过人们一致评价的物品为坐标轴，然后将参与评价的人绘制到坐标系上，并计算他们彼此之间的直线距离。

EuclideanDistance2-Coordinate

Table2

图中用户A和用户B分别对项目X、Y进行了评分。

用户A对项目X的评分为2，对项目Y的评分为4，表示到坐标系中为坐标点A（1.8,4）；

同样用户B对项目X、Y的评分表示为坐标点B（4.5,2.5），因此他们之间的欧几里德距离（直线距离）为：

sqrt（（B.x-A.x）^2+（A.y-B.y）^2）

EuclideanDistance

计算出来的欧几里德距离是一个大于0的数，为了使其更能体现用户之间的相似度，可以把它规约到（0,1]之间，具体做法为：

1/（1+d）。

参见Table2

EuclideanDistance-basedSimilarity

只要至少有一个共同评分项，就能用欧几里德距离计算相似度；

如果没有共同评分项，那么欧几里德距离也就失去了作用。

其实照常理理解，如果没有共同评分项，那么意味着这两个用户或物品根本不相似。

3.余弦相似度——CosineSimilarity

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。

相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。

CosineSimilarity

与欧几里德距离类似，基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点，通过连接这个点与坐标系的原点构成一条直线（向量），两个用户之间的相似度值就是两条直线（向量）间夹角的余弦值。

因为连接代表用户评分的点与原点的直线都会相交于原点，夹角越小代表两个用户越相似，夹角越大代表两个用户的相似度越小。

同时在三角系数中，角的余弦值是在[-1,1]之间的，0度角的余弦值是1，180角的余弦值是-1。

借助三维坐标系来看下欧氏距离和余弦相似度的区别：

DistanceandCosine3-Coordinates

从图上可以看出距离度量衡量的是空间各点间的绝对距离，跟各个点所在的位置坐标（即个体特征维度的数值）直接相关；

而余弦相似度衡量的是空间向量的夹角，更加的是体现在方向上的差异，而不是位置。

如果保持A点的位置不变，B点朝原方向远离坐标轴原点，那么这个时候余弦相似度cosθ是保持不变的，因为夹角不变，而A、B两点的距离显然在发生改变，这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征，分别适用于不同的数据分析模型：

欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异；

而余弦相似度更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦相似度对绝对数值不敏感）。

Mahout没有专门给出基于余弦相似度的实现。

4.调整余弦相似度——AdjustedCosineSimilarity

在余弦相似度的介绍中说到：

余弦相似度更多的是从方向上区分差异，而对绝对的数值不敏感。

因此没法衡量每个维数值的差异，会导致这样一个情况：

比如用户对内容评分，5分制，X和Y两个用户对两个内容的评分分别为（1,2）和（4,5），使用余弦相似度得出的结果是0.98，两者极为相似，但从评分上看X似乎不喜欢这2个内容，而Y比较喜欢，余弦相似度对数值的不敏感导致了结果的误差，需要修正这种不合理性，就出现了调整余弦相似度，即所有维度上的数值都减去一个均值，比如X和Y的评分均值都是3，那么调整后为（-2,-1）和（1,2），再用余弦相似度计算，得到-0.8，相似度为负值并且差异不小，但显然更加符合现实。

5.斯皮尔曼相关——SpearmanCorrelation

斯皮尔曼相关性可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。

《MahoutinAction》中有这样的解释：

假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；

然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。

然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。

斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。

但它保留了用户喜好值的本质特性——排序（ordering），它是建立在排序（或等级，Rank）的基础上计算的。

回顾前面表中User1～5对Item101～103的喜好（评分）值，通过斯皮尔曼相关系数计算出的相似度为：

Table3

我们发现，计算出来的相似度值要么是1，要么是-1，因为这依赖于用户的喜好值和User1的喜好值是否趋于“一致变化”还是呈“相反趋势变化"

。

Mahout对斯皮尔曼相关系数给出了实现，具体可参考SpearmanCorrelationSimilarity，它的执行效率不是非常高，因为斯皮尔曼相关性的计算需要花时间计算并存储喜好值的一个排序（Ranks），具体时间取决于数据的数量级大小。

正因为这样，斯皮尔曼相关系数一般用于学术研究或者是小规模的计算。

UserSimilaritysimilarity1=newSpearmanCorrelationSimilarity（model）;

//constructaSpearmanCorrelation-basedSimilarity

User1toUser1:

1.0

User2toUser1:

-1.0

User3toUser1:

NaN

User4toUser1:

考虑到SpearmanCorrelation的效率，可以把SpearmanCorrelationSimilarity包装一层Cache，具体做法为：

UserSimilaritysimilarity2=newCachingUserSimilarity（newSpearmanCorrelationSimilarity（model）,model）;

这样，每次计算的结果会直接放入Cache，下一次计算的时候可以立即得到结果，而不是重新再计算一次。

6.基于谷本系数的相似性度量——TanimotoCoefficient-basedSimilarity

TanimotoCoefficient和前面的5中相关度计算方式有很大的不同，它不关心用户对物品的具体评分值是多少，它在关心用户与物品之间是否存在关联关系。

TanimotoCoefficient依赖于用户和物品之间的这种Boolean关系作为输入。

更准确的说法为：

TanimotoCoefficient主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以TanimotoCoefficient只关心个体间共同具有的特征是否一致这个问题。

TanimotoCoefficient又被叫做JaccardCoefficient，其值等于两个用户共同关联（不管喜欢还是不喜欢）的物品数量除于两个用户分别关联的所有物品数量。

Intersection/Union

也就是关联的交集除于关联的并集，用公式表示为：

Tanimoto/JaccardCoefficient

其值介于[0,1]之间，如果两个用户关联的物品完全相同，交集等于并集，值为1；

如果没有任何关联，交集为空，值为0。

三、电影推荐系统的实现

1.数据下载：

到grouplens网站（http:

//www.grouplens.org/node/12）上下载DataSets，在该电影系统中我们使用了将近900多用户为1683的电影评了近100000行的数据集。

将下载的ml-data_0.zip里的评分数据和电影信息数据取出。

将评分文件转换成类似于csv文件格式的文本文件，CSV是逗号分隔值文件（CommaSeparatedvalue），是一种用来存储数据的纯文本文件格式,文件名为rating.TXT。

可以用写字板打开，如图4.1：

图4.1rating.txt示意图

然后将数据导入到mysql数据库中，将电影数据文件也转换成CSV格式文件，然后也导入数据库中，Mysql中数据库为movierecommendation，上述两个文件对应的表分别为movies和rating。

由于taste引擎需要频繁进行数据库操作，所以可以对mysql数据库进行一般的调优，在mysql安装目录的my.ini文件中设置一些参数，从而加快数据库操作运行的时间。

2.系统结构：

本电影推荐系统前台导航栏有三个菜单，分别为首页，推荐电影，参数设置。

首页：

首页上显示综合评分最高的前20部电影，综合评分是指对于一部电影，所有观看改电影的用户的评分的期望值。

实现为在index.jsp页面中调用数据库接口，查询数据库，然后将结果显示出来：

参数设置页面：

由于协同过滤算法需要设置推荐的参数，在本系统主要是考虑邻居个数和相似度度量函数这两个参数：

在相似性度量下拉列表框中，一共可以选择四种相似度度量类，分别为：

基于欧几里得距离的相似度、基于皮尔森相关性的相似度、基于斯皮尔曼相关的相似度、基于古本系数的相似性度量。

各相关性度量类的说明都在第二章节中有详细介绍。

系统使用application对象保存这些参数设置，并且在web.xml中设置了初始化的值，分别为6、PearsonCorrelationSimilarity。

当用户在该页面设置参数后，将传给websetting.javaservlet，将这些参数保存在application中，并且跳转到推荐电影页面。

在setting.jsp页面中也使用javascript验证用户输入数据的合法性。

推荐电影页面：

在推荐电影页面，用户首先需要输入用户ID和推荐数，在jsp页面中使用javascript验证用户输入数据的合法性，用户ID的范围,1到990。

推荐数范围为1到30，如果输入数据非法，将跳转到错误页面：

当输入合法参数之后，系统将会将推荐结果展示出来：

在该页面中，首先输出数据库中总共的用户数，电影数，以及要推荐的用户ID，然后下面左边为用户所有评分过的电影，右边为给用户推荐的电影。

具体实现见程序源代码。

四、总结

本系统是基于ApacheMahout的taste所做的一个电影推荐系统，使用的数据为grouplens网站的990个用户，1618部电影，近10万行的评论数据集。

并且使用MySql数据库作为数据源。

提供用户参数选择，用户可以设置邻居个数和相似性度量类。

最终系统给用户输出用户打分过的电影以及给用户推荐的电影。

本系统缺点就是由于频繁的数据库操作，导致系统性能有待提高。

给用户显示结果时间过长，用户交互性不是很好。

展开阅读全文