基于客户资料挖掘的电子商务网站的设计与实现毕业设计.docx

资源描述

基于客户资料挖掘的电子商务网站的设计与实现毕业设计.docx

《基于客户资料挖掘的电子商务网站的设计与实现毕业设计.docx》由会员分享，可在线阅读，更多相关《基于客户资料挖掘的电子商务网站的设计与实现毕业设计.docx（44页珍藏版）》请在冰豆网上搜索。

基于客户资料挖掘的电子商务网站的设计与实现毕业设计.docx

基于客户资料挖掘的电子商务网站的设计与实现毕业设计

本科生毕业论文（设计）

题目基于客户资料挖掘的电子商务网站的设计与实现

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：

所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：

　　　　　日　期：

指导教师签名：

　　　　　日　　期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：

按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：

　　　　　日　期：

学位论文原创性声明

本人郑重声明：

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权　　　　大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：

日期：

年月日

导师签名：

日期：

年月日

注意事项

1.设计（论文）的内容包括：

1）封面（按教务处制定的标准封面格式制作）

2）原创性声明

3）中文摘要（300字左右）、关键词

4）外文摘要、关键词

5）目次页（附件不统一编入）

6）论文主体部分：

引言（或绪论）、正文、结论

7）参考文献

8）致谢

9）附录（对论文支持必要时）

2.论文字数要求：

理工类设计（论文）正文字数不少于1万字（不包括图纸、程序清单等），文科类论文正文字数不少于1.2万字。

3.附件包括：

任务书、开题报告、外文译文、译文原文（复印件）。

4.文字、图表要求：

1）文字通顺，语言流畅，书写字迹工整，打印字体及大小符合要求，无错别字，不准请他人代写

2）工程设计类题目的图纸，要求部分用尺规绘制，部分用计算机绘制，所有图纸应符合国家技术标准规范。

图表整洁，布局合理，文字注释必须使用工程字书写，不准用徒手画

3）毕业论文须用A4单面打印，论文50页以上的双面打印

4）图表应绘制于无格子的页面上

5）软件工程类课题应有程序清单，并提供电子文档

5.装订顺序

1）设计（论文）

2）附件：

按照任务书、开题报告、外文译文、译文原文（复印件）次序装订

指导教师评阅书

指导教师评价：

一、撰写（设计）过程

1、学生在论文（设计）过程中的治学态度、工作精神

□优□良□中□及格□不及格

2、学生掌握专业知识、技能的扎实程度

□优□良□中□及格□不及格

3、学生综合运用所学知识和专业技能分析和解决问题的能力

□优□良□中□及格□不及格

4、研究方法的科学性；技术线路的可行性；设计方案的合理性

□优□良□中□及格□不及格

5、完成毕业论文（设计）期间的出勤情况

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

指导教师：

（签名）单位：

（盖章）

年月日

评阅教师评阅书

评阅教师评价：

一、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

二、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

建议成绩：

□优□良□中□及格□不及格

（在所选等级前的□内画“√”）

评阅教师：

（签名）单位：

（盖章）

年月日

教研室（或答辩小组）及教学系意见

教研室（或答辩小组）评价：

一、答辩过程

1、毕业论文（设计）的基本要点和见解的叙述情况

□优□良□中□及格□不及格

2、对答辩问题的反应、理解、表达情况

□优□良□中□及格□不及格

3、学生答辩过程中的精神状态

□优□良□中□及格□不及格

二、论文（设计）质量

1、论文（设计）的整体结构是否符合撰写规范？

□优□良□中□及格□不及格

2、是否完成指定的论文（设计）任务（包括装订及附件）？

□优□良□中□及格□不及格

三、论文（设计）水平

1、论文（设计）的理论意义或对解决实际问题的指导意义

□优□良□中□及格□不及格

2、论文的观念是否有新意？

设计是否有创意？

□优□良□中□及格□不及格

3、论文（设计说明书）所体现的整体水平

□优□良□中□及格□不及格

评定成绩：

□优□良□中□及格□不及格

教研室主任（或答辩小组组长）：

（签名）

年月日

教学系意见：

系主任：

（签名）

年月日

摘要

随着因特网在全球的普及和人们生活水平的提高，商品和服务信息指数级的增长造成的信息过载已经成为制约电子商务发展的瓶颈。

伴随着电子商务平台的日益成熟，个性化的商品推荐已经成为满足个体对个性化商品信息需求的重要手段。

本课题针对目前在电子商务领域应用最成功也是最广泛的协同过滤推荐系统技术进行了学习研究，并具体实现了其中的典型算法――基于项目的和基于用户的协同过滤算法，SlopeOne算法等。

在此基础上，针对随着电子商务系统用户数目和商品数目日益增加，在整个用户空间上寻找目标用户的最近邻居非常耗时，导致推荐系统的实时性要求难以保证的问题，提出并实现了一种基于用户聚类的协同过滤推荐算法，根据用户对项目评分的相似性对用户进行聚类，生成相应的聚类中心，在此基础上计算目标用户与聚类中心的相似性，从而只需要在与目标用户最相似的若干个聚类中就能寻找到目标用户的大部分最近邻居并产生推荐列表。

最后利用美国明尼苏达大学的世界上最大的开放数据集MovieLens进行了协同过滤算法不同衍化版本的实验分析，试验结果表明用户聚类的算法要比基于用户的算法在性能上要好得多，同时在质量上也比基于用户的算法要好。

关键词：

电子商务，个性化推荐，协同过滤，聚类

ABSTRACT

Withthehigh-speeddevelopmentofinternetandimprovementofpeople’sliving,becauseoftheexponentialincrementofproductsandservicesinformation,informationoverloadandinformationdisorientationareobstructionswhichrestrainpeoplefromusinginternetinformationefficiently.Personalizedrecommendationsystemcanrecommendinformationautomaticallyaccordingtousers'interest.Ithasbecomeanimportantmeanstomeettheindividualneedsofindividualcommodityinformation.

RecommendationsystemisoneofthemostimportanttechniquesusedinE-Commerce.Manyrecommendationsystemsemploycollaborativefilteringtogeneraterecommendations.Thethesissummarizesandrealizestheclassicalalgorithmsofcollaborativefilteringsystem,suchasuser-basedanditem-basedcollaborativefilteringsystem.WiththegradualincreaseofusersandcommoditiesinE-Commerce,thetime-consumingnearestneighborsearchofthetargetuserinthetotaluserspaceresultedinthefailureofensuringthereal-timerequirementofrecommendationsystem.Acollaborativefilteringrecommendationalgorithmbasedonuserclusteringwasproposedinthispapertosolvethisproblem.Usersareclusteredbasedonusers’ratingsonitems,eachclusterhasaclustercenter.Basedonthesimilaritybetweentargetuserandclustercenters,thenearestneighborsoftargetusercanbefoundintheuserclustersthatmostsimilartothetargetuser.

ThesystemanalyzestheperformanceandqualityofthedifferentCFalgorithmswiththebiggestdatasetMovieLensprovidedbyMinnesotauniversity.Experimentalresultsindicatethatthisalgorithmcaneffectivelyimprovethereal-timeperformanceofrecommendationsystems.

KEYWORDS:

E-Commerce,recommendationsystems,collaborativefiltering,clustering

第一章绪论

1.1研究背景与现状

随着因特网的日益普及，人们的购物方式已经发生了巨大的变化，已经由传统到商店直接购买转到因特网去订购，这样也改变了销售商和客户之间的关系，客户所追求的不再是购买场所是否方便，而关心的是商品的价值，当然客户选择商品还有他自己的偏好，这样电子销售商就必需了解客户的网上行为、价值取向、兴趣爱好，从而来提高自己产品的市场竞争力。

Web数据挖掘能从Web服务器上大量的数据中提取初原来不知道的但有用的信息和规律。

利用Web数据挖掘可以发现顾客的购买偏好，发现什么样的客户是忠实的客户，为他们提供个性化服务，延长客户的驻留时间；发现潜在客户，为他们提供个性化的页面，变潜在客户为忠实客户，扩大市场占有率；分析客户未来可能发生的行为，进行有针对性的营销活动，提高广告的投资回报率；当然利用Web挖掘还可以事先信用评估，欺诈检测，投资组合管理等多方面的应用[1]。

因特网的迅猛发展将人类带入了信息社会和网络经济时代，对企业发展和个人生活都产生了深刻的影响[2]。

一方面，基于因特网的虚拟企业不再需要像传统的物理环境下企业那样的实体投资，企业与顾客、供应商等建立起更直接的联系，电子商务模式为企业发展提供了更多的机会；同时，因特网的发展正在极大地改变社会每个人的生活，人们不出家门就可随心所欲地得到自己想要的商品，网上购物的经历让大众感受到电子商务带来的惊喜。

在电子商务的虚拟环境下，商家所提供的商品种类和数量非常多，用户不可能通过一个小小的计算机屏幕一眼就知道所有的商品，用户也不可能象在物理环境下那样检查挑选商品。

因此，需要商家提供一些智能化的选购指导，根据用户的兴趣爱好推荐用户可能感兴趣或是满意的商品，使用户能够很方便地得到自己所需要得到的商品。

而且，从现实经验来看，用户的需求经常是不明确的、模糊的，可能会对某类商品有着潜在的需求，但并不清楚什么商品能满足自己的模糊需求。

这时，如果商家能够把满足用户模糊需求的商品推荐给用户，就可以把用户的潜在需求转化为现实的需求，从而提高产品的销售量。

在这种背景下，推荐系统（RecommenderSystems）应运而生，它是根据用户的特征，比如兴趣爱好，推荐满足用户要求的对象，也称个性化推荐系统（PersonalizedRecommenderSystems）。

个性化服务是因特网信息增长的必然结果，1995年至1997年，美国人工智能协会春季会议（AAAI）、国际人工智能联合大会（IJCAI），ACM智能用户接口会议（ACMIUI）和国际WWW大会等重要会议发表了多篇个性化服务原型系统的论文，标志着个性化服务研究的开始。

1997年3月，《CommunicationsoftheACM》组织了个性化推荐系统的专题报道，个性化服务己经受到相当的重视。

2000年8月，《CommunicationsoftheACM》再次组织了个性化服务的专刊，个性化服务的研究己经进入快速发展阶段[3]。

此外，《IEEEIntelligentSystem》，《IEEEComputer》，《UserModelingandUser-AdaptedInteraction》也发表了有关个性化服务的重要成果。

2000年，美国NSF基金开始支持有关个性化服务的研究。

同年4月，以美国为主的多国个性化研究机构和网络公司成立了个性化协会，旨在推动个性化服务的发展，同时保护个性化服务中涉及的用户隐私。

目前，国外已经推出了多个实现初步个性化服务的原型系统，如SyskilI&Webert，PersonalWebWatcher，Fab等；部分大型网站也推出了个性化服务，如Yahoo!

，CNN等[10]。

1.2个性化推荐系统综述

现在被广泛引用的推荐系统的定义是Resnick&Varian在1997年给出的：

“它是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程”[8]。

推荐有三个组成要素：

推荐候选对象、用户、推荐方法，个性化推荐系统的基本框架如图1.1所示。

图1.1个性化推荐系统的基本框架

推荐活动在日常生活中普遍存在，根据不同的推荐对象和推荐方法，推荐活动形式多样，例如，超市购物导购员为用户推荐用户喜爱的产品，提高销售能力；现实生活中朋友间相互推荐喜爱的电影；推销员向用户推销产品等，都是推荐活动，可以说，只要存在多个候选对象，就存在选择问题，存在选择就有推荐问题存在。

个性化推荐的最大的优点在于，它能收集用户特征资料并根据用户特征，如兴趣偏好，为用户主动作出个性化的推荐。

而且，系统给出的推荐是可以实时更新的，即当系统中的商品库或用户特征库发生改变时，给出的推荐序列会自动改变。

这就大大提高了电子商务活动的简便性和有效性，同时也提高了企业的服务水平。

推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。

目前，主要的推荐方法包括：

基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐[6]。

1．协同过滤推荐

协同过滤推荐（CollaborativeFilteringRecommendation）技术是推荐系统中应用最早和最为成功的技术之一。

在当今的电子商务领域中，协同过滤推荐是研究最多，也最为成功，应用最为广泛的个性化推荐方法。

协同过滤基于这样的假设：

为用户找到他真正感兴趣的内容的好方法是，首先找到与目标用户兴趣相似的邻居用户，协同过滤推荐系统使用统计技术搜索目标用户的若干最近邻居，然后根据最近邻居对项目的评分预测目标用户对项目的评分，产生对应的推荐列表。

2．基于内容的推荐

基于内容的推荐（Content-basedRecommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。

在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。

用户的资料模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。

基于内容的用户资料是需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。

3．基于关联规则推荐

基于关联规则的推荐（AssociationRule-basedRecommendation）是以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。

关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。

管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y，其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。

比如购买牛奶的同时很多人会同时购买面包。

算法的第一步关联规则的发现最为关键且最耗时，是算法的瓶颈，但可以离线进行。

其次，商品名称的同义性问题也是关联规则的一个难点。

4．基于效用推荐

基于效用的推荐（Utility-basedRecommendation）是建立在对用户使用项目的效用情况上计算的，其核心问题是怎么样为每一个用户去创建一个效用函数，因此，用户资料模型很大程度上是由系统所采用的效用函数决定的。

基于效用推荐的好处是它能把非产品的属性，如提供商的可靠性（VendorReliability）和产品的可用性（ProductAvailability）等考虑到效用计算中。

5．基于知识的推荐

基于知识的推荐（Knowledge-basedRecommendation）在某种程度是可以看成是一种推理（Inference）技术，它不是建立在用户需要和偏好基础上推荐的。

基于知识的方法因它们所用的功能知识不同而有明显区别。

效用知识（FunctionalKnowledge）是一种关于一个项目如何满足某一特定用户的知识，因此能解释需要和推荐的关系，所以用户资料可以是任何能支持推理的知识结构，它可以是用户已经规范化的查询，也可以是一个更详细的用户需要的表示。

6．组合推荐

由于各种推荐方法都有各自的优缺点，所以在实际中，组合推荐（HybridRecommendation）经常被采用。

研究和应用最多的是内容推荐和协同过滤推荐的组合。

最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果，然后用某方法组合其结果。

尽管从理论上有很多种推荐组合方法，但在某一具体问题中并不见得都有效，组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。

在组合方式上，有研究人员提出了七种组合思路[11]：

（1）加权（Weight）：

加权多种推荐技术结果；

（2）变换（Switch）：

根据问题背景和实际情况或要求决定变换采用不同的推荐技术；

（3）混合（Mixed）：

同时采用多种推荐技术给出多种推荐结果为用户提供参考；

（4）特征组合（Featurecombination）：

组合来自不同推荐数据源的特征被另一种推荐算法所采用；

（5）层叠（Cascade）：

先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐；

（6）特征扩充（Featureaugmentation）：

一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中；

（7）元级别（Meta-level）：

用一种推荐方法产生的模型作为另一种推荐方法的输入。

1.3个性化推荐系统的评价标准

电子商务网站个性化推荐系统由于直接关系到用户的切身感受，所以在电子商务网站中它的地位尤其重要。

一个优秀的推荐系统需要满足下面几个目标：

（1）不可强制用户进行某些操作：

用户个性化推荐系统必须能够基于用户之前的口味和喜好提供相关的精确的推荐，而且这种口味和喜欢的收集必须尽量少的需要用户的劳动；

（2）实时性：

推荐的结果必须能够实时计算，这样才能够在用户离开网站前之前获得推荐的内容，并且及时地对推荐结果作出反馈。

实时性也是推荐系统与通常的数据挖掘技术显著不同的一个特点；

（3）组成结构：

一个完整的推荐系统由三部分构成：

行为记录模块、模型分析模块和推荐模块。

行为记录模块负责记录能够体现用户喜好的行为，比如购买、下载、评分等。

这部分看起来简单，其实需要非常仔细的设计。

比如说购买和评分这两种行为表达潜在的喜好程度就不尽相同，完善的行为记录需要能够综合多种不同的用户行为，处理不同行为的累加。

模型分析模块的功能则实现了对用户行为记录的分析，采用不同算法建立起模型描述用户的喜好信息。

最后，通过推荐模块，实时地从内容集筛选出目标用户可能会感兴趣的内容推荐给用户；

（4）需要有合适的数据集：

除了推荐系统本身，为了实现推荐，还需要一个可供推荐的内容集。

比如，对于音乐推荐系统来说，一个音乐库就是这样的内容集。

大众对内容集本身需要提供的信息要求非常低，在经典的协同过滤算法下，内容集甚至只需要提供ID就足够。

而对于基于内容的推荐系统来说，由于往往需要对内容进行特征抽取和索引，就会

展开阅读全文