MathorCup优秀论文B题.docx

资源描述

MathorCup优秀论文B题.docx

《MathorCup优秀论文B题.docx》由会员分享，可在线阅读，更多相关《MathorCup优秀论文B题.docx（23页珍藏版）》请在冰豆网上搜索。

MathorCup优秀论文B题.docx

MathorCup优秀论文B题

评委一评分，签名及备

注

队号：

10469

评委三评分，签名及备

注

评委二评分，签名及备

注

选题：

B题

评委四评分，签名及备

注

题目：

书籍推荐

摘要

本文主要研究的是书籍推荐问题，分析了影响读者对书籍评分的因素，通过协同过滤算法和书籍相似度分析预测出指定的读者对未读过的书的评分，再基于标签相似度和读书偏好模型给指定的读者分别推荐3本书。

针对问题一：

本文通过相关性分析和对数据的分类统计，发现书籍的平均得分，用户的评分习惯和用户的读书偏好（标签）这三个因素影响读者对书籍的评分。

针对问题二：

对于指定的读者，本文采用余弦相似度来计算所需预测的每一本书籍与这个读者所有评过分的书籍的相似度并依此排序，选取前10本书籍作为邻居集，根据该读者对邻居集中的书籍评分预测出他对这本书的评分。

为了检验预测的准确性，本文把评分记录的一小部分作为测试集，用MAE指标衡量预测误差，结果显示预测效果良好。

针对问题三：

本文采用余弦相似度计算每书籍标签的共生相似度，建立了一个用户读书偏好模型，求出用户之间的相似度和用户偏好与书籍标签匹配度，综合这两个指标得到书籍对用户的推荐指数，按照推荐指数给指定的用户推荐3本未读过的书籍。

关键字：

协同过滤余弦相似度标签相似度读书偏好模型推荐

指数

1.模型假设

1、用户的读书兴趣在整个评分过程中没有发生变化；

2、用户都会尽可能读自己感兴趣的书；

3、书籍的不同的标签代表不同的类别；

4、用户会对感兴趣的书籍反复阅读。

2.主要符号说明

符号

符号说明

书籍质量

书籍受欢迎程度

用户评分偏好

用户读书偏好

社交圈评分影响

书籍间的相似性

标签共生相似度

用户相似度

用户与书籍的匹配度

推荐指数

3.问题分析

3.1第一问题的分析

书籍的评分客观上取决于书籍本身的质量，同时也受到用户评分偏好等的主观影响。

根据附件中所给数据，我们首先定义书籍质量Q、书籍受

欢迎程度P、用户评分偏好IP、用户读书偏好BP、以及社交圈评分影响SI等五个因素。

然后从以上因素出发，分别分析它们对用户评分的影响。

3.2第二问题的分析

在不考虑主观因素影响的条件下，同一用户对书籍质量Q相同的书籍应具有相近的评分，首先，我们采用基于书籍相似性的协同过滤推荐算法，求出与预测书籍相似的邻居集；然后，通过邻居集对预测书籍给出预测评

3.3第三问题的分析

给用户推荐的书籍，应尽可能的符合用户的读书偏好。

首先，我们求出了用户对书籍的关注度；其次，我们求出了用户的读书偏好；然后，求出符合用户偏好的书对用户的推荐指数；最后，找出推荐指数最高的书推荐给该用户。

4.模型建立与求解

4.1第一问题的模型建立与求解

4.1.1分析书籍质量Q因素的影响

我们将书籍的平均得分定义为书籍质量Q，定义如下：

其中，score（j,i,3）表示用户j对书籍i的评分，Ni表示参与对书籍i评分的用户总数。

我们从附件user_book_score.txt中随机找出100名用户，并对每一位用户作如下处理：

Step1:

找出用户所有评分书籍及对应分数；

Step2:

求出这些书籍的书籍质量Q；

Step3:

求出用户评分与书籍质量的相关系数和置信水平。

用户7245481参与打分的书籍数量为517本，其中前10本的处理结果如表

4-1所示。

表4-1用户7245481打分与书籍质量

书籍ID

用户的评分

参与评分的人数

书籍质量Q

962729

959

4.116788

356405

463

4.164147

836383

588

4.061224

284550

998

3.942886

723581

1145

4.135371

827305

478

3.920502

572786

232

4.025862

473690

319

3.833856

964695

1063

4.235183

929118

497

4.046278

求得相关系数R=0.57359；置信水平P=1.4614e-046。

因此，对于用户7245481，书籍评分与书籍质量有显着的相关性。

对于随机选取100名用户中的前10名用户，书籍评分与书籍质量的相关性见表4-2。

表4-2书籍评分与书籍质量相关性表

用户ID