1、网上商城的智能推荐系统的设计与实现郑州轻工业学院本科毕业设计 题 目 网上商城智能推荐系统 的设计与实现 学生姓名 欧阳魏魏 专业班级 信息管理与信息系统11-01班学 号 * 院 (系) 经济与管理学院 指导教师(职称) 于博(讲师) 完成时间 2015年05月31日 网上商城智能推荐系统的设计与实现摘 要随着互联网的飞速发展,以及互联网的规模和数字信息的增长,信息数量呈现出了几何级数的增长,信息过载、信息爆炸等现象也出现在了我们的生活中。帮助用户在海量的信息中,快速找到用户感兴趣的信息,是各个网站提高用户满意度和提高用户网站体验的重要研究内容。而智能推荐系统正是以用户兴趣行为为基础,向用户
2、推荐其可能感兴趣的信息的个性化推荐服务。而在网上商城环境下,智能推荐系统对用户的个性化推荐服务,是电子商务企业提高销售能力以及用户忠诚度的必要选择。本文结合协同过滤推荐和基于内容的推荐,通过对用户偏好数据显式与隐式的收集,进行用户建模,并结合网上商城中商品的属性特征,计算商品对于用户的效用,并以效用排序,向用户推荐其可能需要的商品。本文对本系统中用户数据预处理模块、后台属性配置模块以及本系统推荐算法模块的需求进行了全面的剖析,并对各模块的设计与实现进行了详细的介绍。关键词: 个性化推荐/推荐算法/显式信息/隐式信息The design and implementation of Online
3、Store Intelligent Recommendation SystemABSTRACTWith the rapid development of the Internet, and the growth of the scale of the Internet and digital information, the amount of information showing a geometric progression growth, information overload and information explosion phenomenon also appeared in
4、 our life. To help users find out the information of interest in the vast amount of information, it is the important research content that each website improves user satisfaction and improves the experience of the user website. And the intelligent recommendation system is based on users interest and
5、 behavior, recommend the user the information which may interest the user. In the online shopping environment, the personalized recommendation service for the users is the necessary choice for the e-commerce enterprises to improve the sales capability and customer loyalty.This paper combines collabo
6、rative filtering and recommendation based on content ,and according by the collection of the user preference data, modeling user data, and combined with the attributes of goods in online shopping mall, to calculate the commodity for a users utility and utility in order, to recommend the user the goo
7、ds what user may require. In this paper, the pre processing module of user data, the background attribute configuration module and the system recommendation algorithm module needs comprehensive analysis, and the design and implementation of each module are introduced in detail.Key words personalized
8、 recommendation,recommendation,algorithm, explicit information,implicit information1 引言1.1课题背景我们处在一个正在迈向数字化时代的世纪。社会信息化、信息社会化以及信息的生产与消费极大地促进了信息化社会的发展。互联网正是当前人们获取信息的主要来源,是人们生活,娱乐和工作的重要组成部分。然而,随着互联网的飞速发展,以及互联网的规模和数字信息的增长,信息数量呈现出了几何级数的增长,出现了信息过载、信息爆炸等现象。当前社会中的人们,一方面,面对着网络上海量信息的信息过载现象;另一方面,人们却无法从海量的信息数据中
9、找到自己正真想要的信息,即使花费了大量的时间或金钱,结果也总让人半信半疑,反而造成了信息使用效率下降。对于信息过载以及信息使用率下降现象,信息获取以现代信息技术为手段,向用户提供所需信息,其服务模式分为两种,即信息拉取与信息推送。信息拉取的实现技术有门户网站检索和搜索引擎等,信息拉取可以满足人们在信息过载下的主流需求,但信息拉取以用户的主观能动性为基础,忽略了用户隐式的个性化需求,仍无法很好的解决信息使用率的问题;信息推送,利用推送技术主动把用户感兴趣的信息推送到用户面前,与传统信息拉取技术相比,减少了用户网上盲目搜索的时间,提高了信息检索的效率。而推荐系统正是信息推送模式的一种重要方法,它在
10、分析预测用户需求的基础上,向用户主动推荐其可能感兴趣却不容易获取的信息,并且在以用户为中心的基础上,通过研究用户的行为、兴趣与环境等信息,可以实现对用户的个性化推荐服务。实现对用户的个性化推荐服务对于网上商城或其他电子商务企业来说,是绝对不能被忽视的问题。人们在浏览网上商城或其他网站时,成千上百的商品,音乐或电影包围着人们,同时也带来了用户的选择困难症,用户不知道选择哪一个,而最好的选择就是不用选择!这也正是推荐系统的作用,不仅推送给用户有用的信息服务,也为用户的在线决策提供支持。有用的信息服务能帮助用户快速的找到其感兴趣的商品,方便简单的网上服务总是能提高网站的访问量,增加用户并且提高用户忠
11、诚度;对用户在线决策的支持,能够辅助企业进行个性化销售,并增加网站的交叉销售能力,增加企业利润。关于个性化推荐的想法,在20世纪90年代就已极具诱惑力,1992年协同过滤的思想和概念被提出,随后其在电子商务中的显示出了越来越大的商业价值。向面对大量信息不止所错,而其需求又不清晰的用户,推荐其可能感兴趣的商品,满足其潜在需求的同时,也将用户的潜在需求转化成了现实需求。目前的各大电商中均使用到了智能推荐系统,尤其是亚马逊,其35%的销售直接来自其智能推荐系统。1.2课题研究的目的及意义在电子商务高速发展的今天,电子商务企业间的竞争愈演愈烈,而用户则是电子商务企业存在与发展的根本。如何增加用户量,提
12、高用户忠诚度以及充分满足用户需求,是提高电子商务企业竞争力的关键。本课题的网上商城智能推荐系统,其目的即通过对用户的行为等信息的收集,对用户提供个性化的推荐服务,并为用户提供在线决策的支持,形象一点说,智能推荐系统就是网上商城中的导购员。而企业也将对用户的服务从集体细化到了个人,真正履行了顾客就是上帝的宗旨。网上商城的智能推荐系统,通过其个性化推荐主要实现了以下四个功能:一是它将网上商城的浏览者转变为了购买者。有些用户他们自己也不清楚自己想要买些什么,只是在网上商城内漫无目的的浏览,如果此时系统自动根据用户显示或隐式的兴趣爱好数据,进行商品推荐,那么用户的潜在的商品需求就可能转变为实际的购买需
13、求。二是它能改善商城的交叉销售能力。智能推荐系统根据用户的兴趣,寻找与其兴趣爱好相似的其他用户,并根据相似用户的行为,为该用户推荐他可能感兴趣的其他商品,从而提高商城的交叉销售量。例如,当用户买了一双中筒皮靴,则可为他推荐皮革清理剂等,用户可能需要的额外商品。三是它可以提高用户的对企业的忠诚度。在互联网环境下,当用户发生购买行为时,为其提供方便且高效的商品推荐服务,无疑会吸引用户在该网站发生再次的购买行为。同时,通过对用户提供高质量的个性化推荐服务,在用户感受到网站的方便高效的服务后,自然会提高用户对网站的忠诚度。四是它可以改善网上商城的商务行为。智能推荐系统在对用户提供个性化服务的同时也接受
14、用户的反馈信息,通过对这些信息的分析,可以帮助网站更加了解用户的真实需求,从而为网站的建设发展提供支持。1.3国内外研究现状综述从20世纪90年代开始,个性化推荐系统的概念才被提出,当时的个性化推荐被称为协作式过滤。其主要被应用与解决信息过载问题中的邮件过滤、新闻组文章过滤等,其定义是,网站通过向用户提供相关的商品信息与建议,来帮助用户进行购买的决策,类似于模仿导购员的角色的系统。随着网络技术的不断发展,国内外越来越多的研究人员开始关注到智能的推荐系统,目前其已成为研究人员的又一个重要研究发展领域。目前,国内外的许多大型电子商务公司都或多或少的应用到了个性化推荐系统,国外有:亚马逊、video
15、 recommender、ebay等,国内有:阿里巴巴、京东、当当网、腾讯等;其中亚马逊的推荐系统最为的著名,仅亚马逊书店就提供了三种的个性化推荐服务,而其销售收入的35%来自推荐系统推荐的商品。2006年,美国的Netflix公司(一个在线电影租赁公司)组织了Netflix prize竞赛,其向所有参赛者提供了一份电影的历史评分数据集;所有参赛者中第一个在其原有推荐系统的基础上,将推荐效果改进10%的团队,将被授予grand prize,并得到100万美元的奖金。2009年,BPC获得了这场竞赛的最终冠军。目前的个性化推荐推荐系统,根据推荐算法的不同主要分为了三大类,分别是基于协同过滤的推荐
16、、基于内容的推荐系统、基于关联规则的推荐系统以及混合推荐系统。基于协同过滤的推荐系统是使用最广泛、研究最多的一种算法。其基本思想是,如果用户在过去有相同的偏好,那么他们在未来也会有相似的偏好。例如,如果用户A与用户B有着极为相似的购买记录,而B最近买了一件A不知道的商品,那么就向A推荐这件商品。由于A可能感兴趣的书需用从大量的商品集合中选取,并且A与B的相互协作是隐式的,即系统通过对用户的行为等信息,进行计算而得出的A与B的相似性,因此,此技术被称作协同过滤。此技术最大的优点就是对推荐对象没有特殊的种类要求,即它不用考虑任何与物品本身相关的东西。基于内容的推荐系统,其核心思想是通过取得物品的相
17、关描述或相关看特征的记录。通过取得用户喜欢的对象的相关特征,进而获取相对满足这些特征的物品集合,然后推荐给用户。例如,如果用户很喜欢探案悬疑小说,那么,此系统就会推荐福尔摩斯探案集给他,当然,这本小说是该用户没有购买或浏览过的。基于关联规则的推荐系统,其主要思想是根据用户或项目相关特征指定相关规则,然后根据规则进行相关推荐,其本质还是通过if-then来进行判定的。最经典的例子是,购买啤酒的男青年也会购买尿布,可以根据啤酒与尿布的规则进行推荐。此类系统较为直接与简单,但是系统不会自动更新规则,会增加系统的管理难度。混合推荐系统是一种混合以上算法的两种或多种的混合系统。以上三种主流推荐系统,每种
18、推荐系统都有其最佳的应用领域,但每一种也都有这其不容忽视的确点。因此,研究人员希望能够构建一种结合不同的算法的优点,又克服他们所产生的缺陷和问题的系统,即混合推荐系统。2 系统概述及其关键技术2.1系统概述在电子商务企业竞争异常激烈的今天,如何吸引用户留住用户,并保证交易额是一个电子商务企业生存的关键。根据questus公司的调查显示,在电子商务企业的零售网站中进行购物行为的用户中,其中的32%认为浏览过程很重要;在不想进行网上购物的用户中,其中的22%是因为在网站很难找到其感兴趣的商品;而不满意的用户只需要动一动鼠标就可以抛弃这个网站。一项baynote的调查表明,用户在点击3次鼠标还没有找
19、到自己的想要的商品时,其中的95%会离开此网站。而智能推荐系统以用户为中心,根据用户的行为兴趣为用户推荐其感兴趣的商品,从而建立用户与网站间的增值关系,提高用户忠诚度。目前,智能推荐系统最为研究人员一致接受的定义就是:“推荐系统是利用电子商务网站模拟销售人员向客户提供各类产品的信息和建议,帮助用户选择购买什么商品的决策的过程”,而本文所设计智能推荐系统的主要功能就是在网购环境下面向用户推荐商品,即商品为推荐对象,用户为被推荐对象。本系统采用混合算法,并分别存储显示信息与隐式信息,并根据信息的不同收集方式,分别采用不同的推荐算法,以满足用户的不同需求。在用户最初访问系统时根据用户完善的偏好信息,
20、根据基于内容的推荐算法,匹配有相似属性值的商品列表。在收集一定的用户隐式行为信息后,当用户购买商品时,根据混合推荐算法,寻找用户最近邻,并根据最近邻向用户推荐商品。2.2用户信息输入及用户建模智能推荐系统是通过分析用户的需求,或根据用户的行为、兴趣和习惯进行分析,主动提供用户可能感兴趣或需要的信息,是以满足用户的个性化需求为目标的系统。而个性化推荐系统的实现,主要分为两个模块:一是用户偏好行为信息的收集与用户建模模块,二是推荐算法模块。一般智能推荐系统的推荐流程如图2-1所示:本节主要介绍用户偏好行为信息的收集与用户建模模块。2.2.1用户偏好行为信息的收集用户偏好行为信息的收集是智能推荐系统
21、实施的基础。智能推荐系统是在用户行为偏好信息的基础上建立用户模型,然后根据用户模型的特征,才从推荐对象中选出与其特征相匹配的对象集合,然后使用适当的推荐算法进行筛选过滤,取出用户可能会喜欢的对象并将其推荐给用户。可以说用户信息收集是该系统一切推荐活动的基础,而根据用户的主动性和网站操作的方便性,用户信息的收集主要通过两种方式进行获取,分别是显示信息收集与隐式信息收集:显式的信息收集需要依靠用户的主动性,让用户手动将自己的兴趣爱好输入到系统中。这种方式是最简单直接的用户信息收集方式,其收集的信息往往能真实客观的反应用户的各种需求。但其不足之处也十分明显,在竞争激烈的电子商务网站中,用户操作的方便
22、性是一个网站生存的必然条件,用户也必然不愿意花费较多时间为网站填写自己的兴趣爱好,而即便用户填写完信息,用户对自己兴趣的不确定以及用户对时间的紧迫性,都将导致收集到的用户信息不能客观真实的反应用户的兴趣特征。而且用户的兴趣特征会随着时间的发展、环境的改变或他人的影响而改变,所以不能按照统一的标准对用户的兴趣特征进行衡量,否则过度的依赖用户的主动性,不仅不能保证收集数据的可靠性与实时性,反而会增加用户的负担。所以显示的信息收集,要以操作的方便性、快捷性为基础,并控制好用户的花费时间。隐式的信息收集是以系统为主,由系统根据用户的页面行为信息,或服务器端的日志等信息,收集用户的兴趣特征。该方法并不通
23、过用户的主动输入,而是以用户的日常行为信息为基础,通过后台算法计算出用户的兴趣特征,在用户轻点鼠标时就完成了用户的信息收集。此方式能够减少对用户主动性的依赖,减少对用户的负担,并可以实时更新用户的兴趣特征,但用户的行为信息量往往十分巨大,需要进行复杂的算法计算才能得到对用户的兴趣特征的有价值的描述。最为重要的是,现今社会中对用户行为的过度跟踪很可能引起用户的反感。2.2.2用户建模用户建模是一个取得用户兴趣、行为及习惯信息的过程,其结果是产生一个用于表示用户特定的背景知识下的用户兴趣模型。系统推荐阶段将以该模型为基础为用户匹配项目。用户模型能够使得计算机更好的根据用户的特点和分类迸行理解和表述
24、,并更好的理解用户的需要以便满足用户所需求的功能。它是将用户的兴趣特征抽象成了计算机所能理解与计算的模式。用户模型的表示是一种结构化的模型存储形式。从涵盖范围上来看,用户模型的表示涵盖的范围很广,常用的几种表示方式有:基于向量空间的表示、基于神经网络的表示、基于用户项目评价矩阵的表示和基于案例的表示等。本系统用户模型主要是运用了用户-项目评价矩阵的表示。如表2-1:表2-1 用户-项目评价矩阵(M*N)t1t2.tja1.a2.ai.基于用户-项目评价矩阵的表示方法的主要思想,是将用户兴趣模型转变为一个M*N的用户-项目关联矩阵的形式,其中M代表用户数量,N代表项目数量。矩阵中的每个Rij元素
25、都代表,用户i对项目j的评分,且0iM,0jN,评分只一般是一定范围内的整数值,通常评分值越大,代表用户i对项目j的偏好程度越高。若用户没有对项目做出评价,则其评分值用0表示。一般情况下,系统过滤系统总是采用此种用户模型表示方法,因为该方法简单又直接,不需要其他的复杂技术,可以直接使用用户的原始数据(通常为显示方式收集)生成。但也正因为其使用的是原始数据,所以其对用户兴趣的改变缺乏及时的调整能力。2.3智能推荐系统关键技术智能推荐算法,是智能推荐系统的核心模块之一。自20世纪90年代以来,随着越来越多研究人员对推荐算法的研究,推荐算法迅猛发展,本章主要介绍最为广大研究人员所接受的四种推荐算法。
26、它们分别是基于协同过滤的推荐算法、基于内容的推荐算法、基于关联规则的推荐算法以及混合推荐算法。2.3.1协同过滤推荐算法基于协同过滤的推荐算法是最早被提出的推荐算法之一。其主要思想是,忽略推荐项目本身的特征,然后根据用户群过去的行为或意见来预测用户未来可能喜欢什么东西。由于其使用的简单性,以及对被推荐物品本身特征忽略,此类推荐算法,在业界使用最为广泛,主要做为在线零售系统满足用户的个性化需求的工具。而基于协同过滤的推荐算法,一般分为两种,基于用户的最近邻推荐和基于物品的最近邻推荐。基于用户的最近邻推荐,主要利用用户对项目集的评分,找到与用户有相似的偏好的其他用户,这些用户被称为用户的最近邻;然
27、后,对当前用户没有见过的物品,根据最近邻对该物品的评分,预测该用户对此物品的评分。例如:如表2-2,这是几个用户对数个项目的评分数据集。现在基于用户的最近邻预测用户test对物品5的评分。表2-2 协同过滤推荐的用户评分矩阵物品1物品2物品3物品4物品5test5344?用户131233用户243435用户333154用户415521假设代表用户集合,代表项目集,R为用户对项目的评分的的矩阵,并且。假设用户对物品的评分值为15,(1分表示非常不喜欢,5分表示非常喜欢),若用户对物品没有评分则其评分值为空。推荐系统常用的方法是Pearson相关系数、余弦相似性或修正的余弦相似性等方法,而本文采用
28、的是Pearson相关系数。其计算公式如下,代表用户a对所有项目的平均评分,为Pearson系数,表示用户a与用户b的相似度。 (1)可计算出test与其他用户的相似度分别是,0.85、0.70、0.00和-0.79。Pearson相关系数取值越接近1,说明其正相关性越大,则用户a,b的相似性就越大。所以用户1与test的相似度最高。在考虑了最相近的N个近邻与用户的平均评分偏差下,用户a对项目p的预测评分为: (2)通过上述方法取得用户对未评分项目的预测评分集合,然后取出评分最高的几项推荐给用户。基于用户的最近邻推荐方法虽然已经成功应用到了很多领域,但其在面对用户数百万记的大型的电子商务网站时
29、仍然存在很多严峻的挑战。面对大规模的用户和商品数据时,即使用户只购买或对少数几个物品评分,该算法寻找用户最近邻时,仍要比对数以百万记的用户,如此该算法便不能短时间内返回结果。而为了在保证精度的基础上及时的对用户进行推荐,研究人员选择了基于物品的最近邻推荐。基于物品的最近邻推荐,主要思想是利用物品间的相似性,而不是用户间的相似性,来预测用户对项目的评分。其主要思想是,事先在线下构建一个物品相似矩阵,描述物品两两间的相似性,然后在系统运行时,根据物品相似矩阵找出被推荐物品的最近邻,通过目标用户对这些最近邻物品的评分加权求和,实现用户对物品的评分的预测。因为物品的特征较为稳定,一般不会发生改变且物品
30、数量一般较少,所以其能够满足系统线上交互的时间要求。对于物品的相似度计算与基于用户的相似度计算相似,都是可通过Pearson相关系数、余弦相似度或改进的余弦相似度来比较。其余弦相似度公式如下: (3)因此,上例中物品5与物品1的余弦相似度为:余弦相似度值在0和1之间,越接近1则越相似。确定物品相似度后,取出所有与物品p相似度较高的物品的加权评分和来预测用户u对物品p的评分,其公式为: (4)其中i代表相似物品集合元素。2.3.2基于内容的推荐算法基于内容的推荐算法是最早出现的推荐算法,它最早是一种信息检索技术,原理是从大量的物品中找到用户想要的对象。与最初的原理相似,该算法的工作原理是首先收集
31、两类信息,即物品特征的描述和用户偏好的物品特征,然后判断用户未知物品与用户需求的匹配程度。例如,在一个音乐推荐系统中,推荐给用户音乐时,基于内容的推荐算法会根据用户曾给出较高评价的音乐的特征(歌手,作词,风格以及主题类型等等),去匹配与其相似度较高的一系列音乐。关于物品与用户偏好特征的匹配度,典型的方法是Dice系数。若一篇文章有一组关键词描述,对用户的偏好也用相同的关键词维度来表示。假设,key(Bi)表示文章的特征集,key(Ui)表示用户的偏好特征集,则dice系数计算公式为: (5)在基于内容的推荐算法中,我们习惯将物品的特征描述为“内容”,因为该推荐方法源自信息检索和信息过滤的研究,主要是为了推荐所需的文本信息。而且,现在的大多数基于内容的推荐方法的基本假设都是,可以自动从文档内容本身或无结构的文本文档中取得物品的特性,并根据比较候选文章的主要关键词和用户以前高分评价过的文章主要关键词,来推荐新文章。由上也可知道,基于内容的推荐一般针对一些能自动抽取特征的物品或文本文档。与协同过滤方法相比,该算法不需要收集大量的用户群体信息,且能更好地适应用户兴趣的变化,但其需要自动获取用户偏好与物品特征,并对推荐对象进行复杂的建模与分析,所以现在很少有纯粹的基于内容的推荐系统,研究人员总是将其与其他技术组成混合系统。2.3.3基于关联规则的推荐算法基于
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1