1、基于CF的个性化电子商务推荐系统研究 本文由pan276370773贡献 pdf文档可能在WAP端浏览体验不佳。建议您优先选择TXT,或下载源文件到本机查看。 兰州大学 硕士学位论文 基于CF的个性化电子商务推荐系统研究 姓名:宋伟国 申请学位级别:硕士 专业:计算机软件与理论 指导教师:陈晓云 20100501 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 摘要 随着互联网技术的发展,网络用户剧增。电子商务也越来越受到企业和消费 者的青睐。电子商务推荐技术作为电子商务中的重要技术,模仿销售员向客户推 荐客户偏好度较高的产品。如何提高电子商务推荐系统的推荐质量,目前已成为 专家学者们
2、研究的热点。 本文将数据仓库技术应用到电子商务体系构建中,介绍了环境下进行 会话识别、客户识别、路径辨别、数据清理、数据集成、数据装载等技术,为电 子商务数据挖掘提供规范的数据。同时本文在关联规则、协同过滤等技术的基础 上设计了个性化的推荐系统。根据客户特点,将客户进行分类,并根据客户不同 的分类,采取不同的模式挖掘算法。提出基于内容的跟踪树算法、基于关联规则 的协同过滤,并引入分区的理念,为客户提供个性化的服务,从而提高电子商务 推荐系统的推荐质量。最后,对算法进行了分析。 关键字:数据仓库、数据挖掘、电子商务推荐系统、协同过滤、面向客户 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研
3、究 , , , , , , , , , , , , , : , , , , 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的 成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内 容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对 本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式 标明。 本声明的法律责任由本人承担。 论文作者签名:互童盟日 期:塑!:垡 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属兰州大学。本人完全了解兰州大学有关保存、使
4、用学位论文的规定, 同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和 汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相 关的学术论文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文储擗:芈剔磴轹 日期:踟口沙 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 第一章 选题的背景和意义 绪论 随着科学技术的发展,尤其是计算机技术和信息技术的迅猛发展,互联网的 普及,电子商务也取得了快速的发展。电子商务为客户提供了丰富
5、的商品,同时 电子商务网站在运行时也产生了大量的数据。然而作为顾客在电子商务网站上购 物时,因为没有传统销售模式下的营销员的引导,往往很难快速定位到自己需要 的商品,这样容易造成客户对电子商务的兴趣度降低,从而导致客户的流失。如 何解决这个制约电子商务发展的瓶颈问题?如何将电子商务产生丰富的数据转 化为知识?如何让客户在丰富的商品中快乐的购物?针对这些问题,在电子商务 网站上使用数据仓库技术、进行数据挖掘和商品推荐势在必行。 电子商务的发展现状 根据新华网公布的数据【,年我国电子商务交易总额已经达到万 亿元,比年度增长了:跟据商务部的预计,未来的年内,将会有 的贸易额通过电子交易来完成,电子商
6、务将会成为主流的商业经济模式。国 内的电子商务网站淘宝网由阿里巴巴于年月建立,在不到年的时间里, 就成为了亚洲最大的电子商务网站。截止到年底,淘宝网注册会员达到了 万人。 如图所示,导致电子商务迅猛发展的主要原因有以下几个方面: 、网络用户的大幅增加,为电子商务提供了广泛的客户来源。根据第 次中国互联网络发展状况统计报告【】截至年年底,我国网民已经达到 亿人,比年增长了,互联网普及率也达到了;其中网络购物 用户人数已经达到万人,年增长率为。 、客户在电子商务上购物,不出门,便可以享受网络购物带米的便捷和快乐。 、电子商务网站节省了传统经营模式下的经营店面、营业人员和仓储没施所 必需成本投资。
7、兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 、电子商务的进入和退出成本降低,规避了投资风险,即使企业因经营不利 而退出电子商务,损失也不会很大。 、传统的店面具有商品陈列的限制,而电子商务消除了这个界限,可以为客 户提供一个无限大的商品陈列空间。 图电子商务迅猛发展原因剖析 数据仓库在电子商务应用的必要性 电子商务的迅猛发展,引起了企业界的广泛关注,电子商务越来越受到企业 的青睐。同时电子商务在运行过程中产生大量的数据,包括网络客户注册数据、 电子商务提供的商品数据、网络客户的消费行为数据等。如何对这些数据进行处 理,如何从这些数据中获取知识,了解顾客的消费行为,为企业的决策提供支
8、持, 对企业的发展来说至关重要。 数据仓库技术与传统的数据库技术相比,具有以下优势: 、传统的数据库技术,对电子商务过程中产生的数据应用仅仅局限于简单 的数据处理与存储,无法有效的利用这些数据或信息为管理者制定决策提供重要 参考和依据。 、传统数据库技术无法实现数据的分类、合成以及深层次处理等功能。 、电子商务围绕决策的主题组织数据,并利用历史数据做决策时,这些是 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 传统数据库技术无法满足和实现的。 、数据仓库技术能够实现把决策者需要的主题信息从原始的操作型数据中 提取出来;同时实现把难以访问的、分散的原始操作型数据经数据消噪、数据集 成、
9、数据转换等处理后转化成随时可访问的、主题集中的信息。 数据仓库技术能够对数据信息实现全面、高效、合理的管理。因此,研究数 据仓库技术并将其应用于电子商务系统中对电子商务的发展将起到至关重要的 作用。 数据挖掘在电子商务应用的必要性 电子商务网站为顾客提供了丰富的商品,但是电子商务网站又没有传统营销 模式下的销售员进行个性化的导购。这样导致客户无法在短时间内迅速的定位到 自己所需要的商品或自己感兴趣的商品,使客户面临严重的“信息超 载”( )现象。在这种状况下客户难免会浏览大量不相关的信 息,从而导致使客户产生购物疲劳甚至失去购物兴趣而离丌,造成客户流失和企 业的损失。因此,挖掘客户的购买行为,
10、对客户进行分析,为客户推荐其感兴趣 的商品势在必行。 电子商务在运行当中会产生大量的数据,这些数据为电子商务进行数据挖掘 提供了基础。在电子商务中进行数据挖掘具有以下便利条件: 、收集信息的便利性,通过网上购物系统可以很方便的获取客户的注册信 息并记录客户的交易行为;通过使用日志可以获取客户的浏览行为。如客 户浏览了哪些页面,浏览路径是什么,客户将哪些商品放进了购物车,又有哪些 商品最终购买。 、电子商务系统收集信息的准确性和完整性,电子商务中大多数数据都是 通过系统自动的收集,这样可以大大减少手工收集数据产生的错误。 、在电子商务系统的基础上实现数据挖掘相对较为容易。电子商务系统具 有较高的
11、自动化、网络化和信息化,这些特性使数据挖掘系统容易和电子商务系 统进行结合。 基于客户的需求、企业的需求以及电子商务本身进行数据挖掘的优势,我们 认为基于电子商务的数据挖掘足必要的,而且是可行的。 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 电子商务推荐系统研究现状 目前,很多大型的商务网站已经开始使用电子商务推荐系统,如新浪商城 (:饥)、网易商城(: )、(:) 等。随着电子商务推荐系统的广泛应用,电子商务推荐技术也成为目前研究的热 点。 目前,国内外的大量专家、学者对电子商务推荐技术已经开展了大量的研究。 从社会选择理论( ),从模糊集( )【】、 )【】的角度对其进行了剖析
12、; 等人多准则决策( 等人通过对客户访问模式进行聚类的方法预测客户的未来访问行为【刀; 等人以客户的访问路径为研究对象,预测客户未来可能的请求,并让 代理服务器执行预提取操作,将相关页面放入到中,从而提升了客 户的访问速度【。另外电子商务推荐系统已经开发出来的还有 系统【、 系统、系统【】、 系统【】等。协同过滤 ( ,)被认为是电子商务推荐技术中应用最广泛的、效果最 好的推荐算法。但是协同过滤算法也存在着诸如客户评分数据稀疏性()、 首次访问客户冷启动()、算法的可扩展性()等问题】。 创新点及组织结构 主要创新点 本文在大量的电子商务数据挖掘研究和电子商务推荐系统研究的基础上,结 合电子商
13、务目前研究的热点以及电子商务推荐系统中遇到的瓶颈问题,提出了基 于数据仓库和数据挖掘的电子商务推荐系统,主要创新点为: 、构建了电子商务数据仓库的事实星座模型,将数据仓库技术和数据挖掘 技术结合起来应用到电子商务中,为电子商务推荐系统以及电子商务数据挖掘提 供面向主题、规范的数据。 、本文基于协同过滤算法,提出了个性化的电子商务推荐系统,主要包括 面向客户的模式挖掘和面向客户的协同过滤。针对不同的客户采取不同的模式挖 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 掘方式,并根据客户的不同将协同过滤算法进行降维处理,为客户提供个性化很 强的推荐服务,提高推荐质量。 论文组织结构 本文以
14、数据仓库在电子商务中的应用为基础,以数据挖掘技术为理论依托, 以提供个性化服务的面向对象的电子商务推荐系统为研究重点,展开论述。 第一章为绪论部分,主要介绍了本文选题的意义,目前研究现状。 第二章重点介绍了数据仓库技术的特点、发展趋势、数据仓库在电子商务中 的应用模型,介绍了电子商务环境下数据的清理、转换、集成、装载等技术,为 数据挖掘提供数据支持。 第三章对数据挖掘技术在电子商务中的应用进行了阐述,提出电子商务推荐 系统的系统结构及关键技术,重点介绍了关联规则和协同过滤算法,为面向客户 的电子商务推荐系统提供技术保障。 第四章基于协同过滤算法提出个性化的电子商务推荐系统,针对不同的客户 采取
15、不同的推荐算法,并提出面向客户的协同过滤算法,并进行了论述和实验验 证。 第五章是总结与展望部分,总结了本文的主要工作,对未来工作进行展望。 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 第二章数据仓库技术 基于电子商务的数据仓库系统模型 图基于电子商务的数据仓库系统模型 如图,基于电子商务的数据仓库系统主要包括数据处理、数据集成与装 载、提供分析处理服务三个部分。原始数据经过数据抽取、数据转换、数据清理、 数据集成、数据装载等环节存入数据仓库,并为数据挖掘提供数据支持和保障。 数据仓库在电子商务数据挖掘中起到承上启下的作用。 。电子商务数据挖掘的数据源 数据来源 电子商务的数据源主
16、要存储在客户数据库、商业数据库以及使用日志中, 这些数据源主要包括以下几种: 、客户注册信息,如客户的姓名、年龄、性别、所在地、职业、收入状况 等信息。在数据挖掘中,客户注册信息要和访问日志、客户评分等信息进行集成, 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 便于更进一步了解客户需求,以提高数据挖掘的准确度。 、存储在传统关系数据库里的有关电子商务的商品信息、商务站点信息、 客户交易数据、购物篮数据、客户对商品的评分数据等。 、客户端的访问请求信息。 、电子商务网站服务器上存储的客户浏览日志。客户访问电子商务网站, 便会在服务器上留下记录,这些客户浏览记录可分为查询数据和同志文件
17、【】 【】【 】,其中日志文件包括 、 、 。 : 为请求失败的数据,包括超时,授权失败,丢失连接等。 : 记录客户访问服务器的信息。其中服务器上存储的部分是 , ”。 : 包含的内容有:“, , 按照两种格式进行存储【 ,普通日志文件格式( )格式或扩展同志文件格式( 包含“, , )。其中 , , , ,客户访问电子 商务网站的信息内容。包括以下数据域:,也就是发出请求的客 户的地址;,为服务器端收到客户请求的时间:, 即客户请求的方法、请求的以及使用的协议。可以是一个静态文件, 也可以是在应答时需要调用的可执行文件的名字,即地址。地址包括 以下信息:,即对客户请求的应答返回码;,即返回的
18、字节数;, 即当前的引用页;,即客户端使用的操作系统或浏览器软件。 、查询数据 查询数据是电了商务站点在服务器上产生的数据。如客户搜索某种商品或某 些广告信息,这些信息通过或者客户注册信息连接到服务器的访问日志 卜。 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 数据源分类 根据数据的来源形式,可以将数据源分为显式数据和隐式数据。显式数据指 客户直接给出的自己的偏好信息,如典型的客户对商品进行等级评价的数据。显 示数据的针对性较强,数据的可用性较大。但是显式数据比较难获取,因为大多 数的客户可能因为隐私而不愿给出自己的偏好信息,另外对商品进行评分也会增 加客户的负担。 隐式数据指的是
19、客户以一种隐蔽的方式表达自己的兴趣偏好,通常这种偏好 反映在客户网上浏览或购物的过程中所表现出自己的兴趣偏好。如客户对某商品 比较感兴趣,便会在在商品的页面上浏览时问较长。以隐式数据为研究对象的电 子商务推荐系统能自动获取数据,一般不需要客户人为地给出自己的偏好信息。 但是,这种方法对数据处理技术要求较高,要进行大量的处理才能转化为对决策 者有用的信息。 原始数据处理 、数据抽取 电子商务数据抽取是指在电子商务系统中,提取与电子商务决策相关数据的 过程。由于电子商务的数据挖掘具有较强的动态性,所以电子商务数据仓库需要 增量的从客户数据库、商业交易数据库和使用日志中提取数据。客户数据 库的信息主
20、要记录客户的相关特征,如客户名、客户、年龄、性别、职业、 收入、学历、电子邮件、联系方式和家庭住址等,这些数据可以从客户登记信息 中或从电子商务网站的注册页面中获得。但是,对于未注册的客户很难获取该类 信息;商业数据库用来记录客户进行商品交易的数据,包括客户、客户名、 交易时间、交易商品名称、交易商品数量、交易商品价格、销售地点等信息; 使用志数据记录客户对电子商务站点的浏览访问行为,通常以、 两种日志格式进行存储信息,与电子商务数据挖掘相关的信息主要包括客户 地址、请求域、状态域、代理域、引用域、大小域和时问戳信息。 、数据转换与消噪 经过数据抽取后的数据大多是含噪声的(错误的或偏离期望的孤
21、立点)、不 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据)或不一致的数据。 这些数据很难直接应用于电子商务决策支持和电子商务推荐系统中,这就需要我 们对这些数据进行转换和消噪处理,将其转变为适合电子商务数据挖掘和模式发 现的数据形式。在电子商务数据仓库的数据处理中,客户数据文件、商业数据库 的数据转换和数据清理工作较简单,可以采用分箱、聚类、计算机和人工相结合、 回归等方法,已有的论述也比较多,本文不再进行介绍,本文介绍的重点是 使用日志中的数据转换与数据清洗【】: 数据清洗。数据清洗是指消除数据中的冗余和噪声,清除与电子商务数据
22、挖 掘任务无关的客户访问日志记录。由于客户对电子商务服务器进行请求, 需要每个文件都形成一个连接,这样客户向电子商务网站请求的一个页面中包含 多个文件,就需要进行多个连接,同时也在电子商务服务器同志上形成了多条记 录。 首先,我们需要进行相关识别工作。 ()通过状态域识别出的客户请求失败的访问记录; ()通过检查文件或检查代理域,识别出网络爬虫( 哪和搜索代理()等对电子商务网站进行访问的记录【】; ()识别出文件后缀名为、,、的访问记录。 我们可将服务器日志文件中后缀为西,和的记录项删除;将 请求失败的记录删除。以一个日志数据为例,日志数据包括以下几个 部分: :】 ”:” 对以上同志数据进行解读:地址为;访问时间为 “:”;状念“”;请求网址为“”; 协议为“”; 状态为“”; 参考页面为 “:”;代理“”。 去掉对电子商务数据挖掘无关的信息,经过数据清洗、数据转换后,将数据 存到如表结构的数据表中。 表 表 序号 字段名 中文名 数据类型 备注 兰州大学硕士学位论文 基于的个性化电子商务推荐系统研究 索引 客户 客户会话 客户口地址访问时间 访问 参考页面 缸) () () () () () 外键 外键 外键 一 !朗 、客户识别 客户识别主要有两种方式:一种是通过客户的注册登记信息进行识别;一种 是通过客户的地址进行识别。通过客户的注册登记信息进行
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1