数据挖掘在电子商务个性化服务中的应用研究.docx

上传人:b****6 文档编号:5019401 上传时间:2022-12-12 格式:DOCX 页数:66 大小:81.26KB
下载 相关 举报
数据挖掘在电子商务个性化服务中的应用研究.docx_第1页
第1页 / 共66页
数据挖掘在电子商务个性化服务中的应用研究.docx_第2页
第2页 / 共66页
数据挖掘在电子商务个性化服务中的应用研究.docx_第3页
第3页 / 共66页
数据挖掘在电子商务个性化服务中的应用研究.docx_第4页
第4页 / 共66页
数据挖掘在电子商务个性化服务中的应用研究.docx_第5页
第5页 / 共66页
点击查看更多>>
下载资源
资源描述

数据挖掘在电子商务个性化服务中的应用研究.docx

《数据挖掘在电子商务个性化服务中的应用研究.docx》由会员分享,可在线阅读,更多相关《数据挖掘在电子商务个性化服务中的应用研究.docx(66页珍藏版)》请在冰豆网上搜索。

数据挖掘在电子商务个性化服务中的应用研究.docx

数据挖掘在电子商务个性化服务中的应用研究

分类号——学校代码!

Q482

学号2QQ38221QQQ!

Q

密级——

亭卞斜技大薯

硕士学位论文

数据挖掘在电子商务个性化

服务中的应用研究

学位申请人:

靳明霞

学科专业:

计算机应用技术

指导教师:

李玉华副教授

答辩日期:

2006.11.5华中科技大学硕士学位论文

摘要

电子商务随着Intemet的热潮逐渐流行起来,成为了商业的新模式。

电子商务

系统在运行的过程中积累了大量的数据,这对数据挖掘产生了需求。

对供应商来说,

这些数据是十分宝贵的决策资源,对其进行分析和挖掘,可以充分了解客户的喜好、

购买模式及潜在的消费趋势,设计出满足不同客户群体需要的个性化服务,进而吸

引客户,增强自己的竞争能力。

因此,将web挖掘技术应用于电子商务已经成为

当前数据挖掘中一个倍受关注的重要领域。

从Web挖掘技术出发,着眼于在电子商务中的应用研究,对这一应用的理论

和具体实现技术进行了较为深入的探讨。

围绕Web挖掘及其在电子商务中的应用

问题,给出了Web挖掘技术应用到电子商务中的应用框架。

结合该框架和Web使

用记录挖掘的一般框架,以理解客户意图为目标,设计了电子商务中Web使用记

录挖掘的一种简化框架图,并把整个挖掘工作分为数据清理、模式挖掘和模式分析

三个部分,便于实际操作实施。

Web日志挖掘是Web挖掘的重要内容。

因而,以简化框图为指导进行了具体

的应用研究。

采用了两种新的XML应用-XGMML和LOGML,大大简化了预处理

工作;在此基础上,利用最大前向引用算法和完全扫描算法挖掘客户访问模式,包

括客户的个人访问模式和客户群体所体现出来的群体访问模式。

这不仅实现了客户

“一对一”的个性化服务要求,同时也利用分类对客户群体进行了划分,照顾了商

家的利益。

根据上述用户访问模式的挖掘技术,探讨了Web挖掘模式对电子商务环境下

的客户分类支持框架和思路,以及商务环境下的客户关系管理问题,以正确制订企

业的营销策略,帮助企业吸引客户、保留客户,提高效益,并从Web挖掘算法和

商业应用两方面给出了定性评价指标。

关键词:

数据挖掘,电子商务,Web日志挖掘,客户关系管理,个性化服务华中科技大学硕士学位论文

Abstract

E-commercehasbecomepopularwiththeflourishoftheInteract,anditbecomesa

newpatternofbusiness.E-commercesystemproducesamassofdatawhenitS@rVeS

customers,datamininghasbecomearequirementofe—commelv.,e.Totheserver

provider,

thesekindsofdata,whichcallbeanalyzedtofindinterestinginformationaboutcustomer,

suchastheirpartialities,consumepaRems,andeventhelatentconslLmepatterns,inorder

todesignpersonalservicefordifferentcustomers,argsignificantsourceformaking

decision.Sotheapplicationaboutwebminingine-c,OBllnercebecomesan

important

researchfield.

Inthispaper,wediscusswebminingtechnology,especiallyfocusonitsapplication

ine-{:

olnmerce.Afteranalyzingwebmihingtechnologyandtheproblemse-commerce

faced,weproposetheideaofapplyingwebminingine.-commerceandtheapplication

fi'ame.Combiningwiththegeneralfrarneofwebusagemining,aimingatunderstanding

thecustomer,wedesignthesimplifiedflameofapplyingwebusageminingin

e-commerceanddividetheminingworkintothre.parts-dataclean,patterndiscovery

andpatternanalysis.

Webusageminingisanimportantpartofwebmining.Undertheinstructionofthe

simplifiedfranle,weadoptingtwokindsofnewXMLapplications-XGMMLand

LOGML,simplifyingtopre-processingworkconsumedly;BasedOnthis,adoptingthe

MaximalForwardReferencealgorithmandFull·Scanalgorithmtosearchforthe

customeraccessmode,i丑c1.dingthecustomer'spersonalac宅.essmodeandcustomer's

commuaitiesac∞鼹mode.Itnotonlycal'riesoutthecus幻帕埘—o鹋byone。

personal

servicerequest,butalsomakesuseoftheclassificationtomarkoffthecu鲥D雠r-s

community,thebenefitsofthebusine鹋am硼)ri∞arcconsiderecL

Accordingtomillingtechnologyofthecustomeraccessmode,thispaperattemptsto

Ⅱ华中科技大学硕士学位论文

proposetheideaandschemeofanalyzingwebminingpatternstosupportclassifying

customersinthee.-oominel'ceenvironment,discussECRMinordertoformthesound

marketingdecision,helpenterprisesattractandmaintaincustomers,increaseefficiency,

andprovidethequalitativestandardwhichisfromtheWebminingalgorithmand

commercialapplication.

Keywords:

DataMining,ElectronicCommerce,WebLogMining,Customer

RelationshipManagement,PersonalizationService.

m独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取

得的研究成果。

尽我所知,除文中已经标明引用的内容外,本论文不包含任

何其他个人或集体已经发表或撰写过的研究成果。

对本文的研究做出贡献的

个人和集体,均已在文中以明确方式标明。

本人完全意识到本声明的法律结

果由本人承担。

学位论文作者躲气罐襄日期:

毒“年t/月y日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:

学校有

权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和

借阅。

本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据

库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密口,在年解密后适用本授权书。

本论文属于/

不保密囱.

(请在以上方框内打“4”)

学位论文作者魏墩哦褪

日期:

2—6年ff月6日,

指导教师签名:

府当年

日期:

协,年f/月∥日华中科技大学硕士学位论文

1绪论

1.1课题来源

本课题来源于一个实际的商业信息网站的设计与开发。

随着互联网技术的发展,各类电子商务网站风起云涌。

电子商务正以其成本低

廉、方便、不受时空限制等突出优点而逐步在全球流行。

电子商务环境下的顾客是

一种稀缺资源,电子商务的竞争也比传统的商务竞争更加激烈。

目前,电子商务系统在为用户提供越来越多选择的同时,用户也经常会迷失在

大量的商品信息空间中,无法顺利找到自己需要的商品。

越来越多的用户利用搜索

引擎来搜索网上信息。

尽管其发展已较为成熟,但人们在使用中却发现要准确、快

速地查找自己所需的信息是越来越困难。

主要原因有两个【lJ:

1.一次搜索的检索结果(一系列URL地址)可能有成千上万条,丽在这过于

庞大的信息群中,有用信息只是其中的一小部分,并且常常发生收到或下载的信息

难以消化的情况,即所谓的“认知过载”。

2.目前的搜索引擎都是服务器端软件,用户需要严格按照各种引擎所要求的

格式输入查询词,但种种限制使用户不知道如何贴切地表达自己的信息需求,也不

知道如何更准确地寻找所需信息,即所谓的“迷航”。

面对网络信息服务的现状,人们在寻求一种将用户感兴趣的信息主动推荐给用

户的服务方式,这便是个性化信息服务。

个性化信息服务是在对用户及其需求了解

的情况下,即通过用户研究,从数量庞大、增长迅速、类型复杂的网络信息中提取

出用户真正需要的那-d,部分提交给用户,是以“用户为中心”的服务原则在网络

环境下的具体体现。

随着电子商务中引入个性化用户服务方式,企业需要对Web环境下的客户资料

数据进行深入的分析和挖掘,根据客户的喜好、访问模式、购买模式、消费趋势等

特点进行分类,找出不同用户兴趣所在,透视隐藏在这些数据之后的更重要的用户

兴趣模式信息,针对不同客户群体设计出个性化的营销策略和服务,为用户提供“一华中科技大学硕士学位论文=:

一===========================

对一”的具备自适应性的智能个性化服务。

这些智能个性化服务可大大缩短用户在

网络上的访问延迟,使得提供给用户的网络信息服务质量得到最大程度的提高。

此,将Web数据挖掘技术应用于电子商务个性化服务已变得势在必行。

1.2研究的目的和意义

个性化信息服务是为客户提供符合个人需要的服务。

因此,要真正做好个性化

服务,必须深入开展客户研究,了解服务的客户群类型、特征,分析客户的真正需

求。

基于Web挖掘的商业行为己成为电子商务发展的关键因素,特别是电子商务对

传统的商务交易产生革命性的变化,依靠个人的鼠标点击来跟踪使用者的浏览模式

变得相当新颖。

只要浏览了某个网站,就会在网站的服务器日志文件上留下记录,

通过挖掘Web浏览日志记录,运用关联、分类、聚类等技术手段,就可以从中发现

有意义的信息,提取出可以指导市场策略的有用数据【21。

对获取的有关消费者消费

行为的数据,确定出特定消费群体或个体的消费习惯,爱好、倾向,进而预测出消

费者下一步的消费行为,有针对性的提供推荐服务,以保证电子商务时代的竞争力。

总之,Web日志挖掘在电子商务中具有如下意义131:

(1)为用户提供个性化服务。

它可以根据用户的访问历史来了解客户,针对不

同客户,动态的向用户推荐“量身定做”的商品。

有利于提高客户的满意度,最

终达到留住客户的目的;这种在电子商务网站上进行个性化的营销,具有很大的商

业价值。

(2)提高系统效率。

通过Web使用挖掘,可以提供网站服务效率的全方位信息,

从而有助于找到平衡服务器负荷,优化传输,减少拥塞,缩短用户{5待时阃,提高

系统效率和服务质量。

(3)提高尉站结构设计。

Web结构的复杂度在飞速发展着。

因此,wLb站点和

Web服务器的设计和维护难度也在增加着。

通过Web使用挖掘提供的用户使用信

息,可以优化Web站点,以客户的需求为向导,针对顾客设计个性化网站,使客户

能以自已喜欢的方式来访问,从而提高效率。

2华中科技大学硕士学位论文

“)商务网站的客户群类的确定。

分析市场销售数据以识别顾客的群类,帮助

确定电子商务产品在Web页面的布局摆放,向用户有效地推荐商品,以达到扩大销

售的目的。

同时,也有助于找到顾客访问网站的生命周期,制定出相应的营销策略。

(5)网络安全。

分析网上银行、网上商品交易的用户日志,可以防范黑客攻击、

恶意诈骗等。

(6)网站评估。

网站使用挖掘可以分析潜在的目标市场,优化电子商务网站的

经营模式,预测需求趋势,评估需求倾向的改变,提高企业的竞争力:

获取用户对

网站使用情况的第一手资料,为网站评估提供依据。

从模式发现(patterndiscovery)的角度来看,数据挖掘是在数据库中发现模式,

比如关联规则、分类模型、序列模式等。

所涉及的子领域包括关联挖掘、序列模式

挖掘、聚类等。

从微观经济(microeconomicview)的角度来看,数据挖掘是发现模式

的任务,通过数据挖掘来发现对企业进行决策活动(如客户分类、关系管理、制订

市场营销策略和服务水平等)有用的并在一定程度上有趣的模式【4】。

这个观点认为,

并非所有的模式都有趣,如果发现的模式对企业的决策活动发生作用,则认为它是

有趣的。

目前己出现了很多通用的数据挖掘系统,但是大部分都是给那些非常熟悉数据

挖掘系统和数据分析技术的专家设计的,此类系统很难被企业经理和普通百姓直接

使用。

而且,它忽略了微观经济方面的考虑,仅从模式发现的角度进行数据挖掘,

只提供适用于各种商业应用的横向解决方案(horizontalsolution),并不提供针对某个

特定商业应用的解决方案,所以不能期望通用的数据挖掘系统在商业智能方面获取

大的成功。

有效的数据挖掘要求商业逻辑和数据挖掘功能的平滑集成。

因此,数据挖掘比

较有前途的方向是把特殊领域的商业逻辑和数据挖掘系统集成起来,创建能够提供

纵向解决方案(verticalsolution)的数据挖掘系统嘲。

论文正是围绕这一闯题,探讨电

子商务领域的数据挖掘纵向解决方案.

纵观当今电子商务,企业要想在网上市场中求得生存和发展。

就得有能力保持

并扩大自己的客户群,而提供优质高效的个性化服务就是这种能力的体现。

通过

3华中科技大学硕士学位论文

Web数据挖撼技术在堆子亵务中懿瘦耀,能挺进企业拥有弗增强健凌服务熬能力。

医此,本研究其有重要的现实意义。

从另一个方面来说,科学技术理论的给出、发

篪型臻终形或,帮鬻不拜实辩应焉鳇检验,炙骞不赣她在实际应愿中发瑷翔爨,瓣

决问题,才能为科技的发展揩明方向+使之逐步完善。

因此,本课题也具有一定的

理论研究侨藏。

l。

3课题静毽表磐瓣窕赣嚣毒臻溅

13l埕内飧研究琨状及存在翘覆

数据挖掘(DM:

DataMining)是从太量的、不竞垒的、有噤声的、模糊的鞫髓桃

鳃数据孛,箍敬蘧台在箕孛瓣、久街事先不知遴蘸,援又是瀵在有搏鲍信意翱躲谖

的过程【蝴,它义被称为数据库中的知识发现(1(DD:

Knowledgediscoveryindatabase),

效摇分析,羲据融合嵇制}afusionb凌策支持替。

透过数据挖掘,可戳款庞大麴毅恭

库中寻找出奇价值的隐藏事{牛期以分树,并将逶些有惫义的信息归纳成知识嫂则、

约束罄簿,飙不同的稻魔避行研究,摄供给有关部门程进行决策时参考。

19辨年,在蓁ll程鞫酥人工智毵联舍会谈魏专题讨论会上,曹浚绘出基于数

据库的知识发现(gOD,KnowledgeDiscovery衄Database)技术.别了1995年,在荚

蓬}}葬稳年会(ACM)A绘爨7数据挖撼豹概念。

蠹绘乐遮一裰鑫瑷来,数攥撼搓瑟

益受到人们的荚注,并旺投为当前计冀机应用领域的~太热点,其研究重点也逐步

跌爱现方法转移弱系统瘫舔,筹盈注鬟多耱发瑗篆珞和技术豹集成,馥及多掌辩之

间的攘豆渗遴。

当前,世界上比较有影响的典型数撼挖掘系统有CoverStory,

EXPLORA,I酝owledgeDiscoveryWorkbench,DBMiner,Quest等一在成用方

强包捶;KDD囊韭软谗工其誉掰产生秘完善,注重建立瓣决秘慧豹整蒋系统,蔼

不是孤立的过程。

用户盘要集中在大毅银行、僳险公司、电信公司和错售业.国外

报多谤篝撬公甓菲零熏禚羲豢持握鹅拜发痊翊,IBM帮疆较都戒立了鞠痊熬蘸究孛

心进行这方藤的工作.此外,~些公铆的相关软件也开始在国内销售,如IBM公

霹豹IntelligentMiner,SAS公霹豹EnterpriseMinerl7}。

国内从事数据挖掇研究豹入员主要在大学,也有磅究所狂公罨在从事这穷磋的

4华中科技大学硕士学位论文====#====≈====∞========≈====

研究。

这些工作一般集中于学习算法和有关数据挖掘瑷论方面的研究。

例如,复旦

大学、南京大学、谣赛交通大学,东南大学、瞬防科犬等单位已经在挖掘算法效率

改进等方霾做了不少的工作。

在具体艨用方露,中科院}}算所智能信息处理开放实

验室的史忠植簿人设计了一个数据挖掰工具MSMiner,使用决策树算法为广东地税

提供继裁人舅磐拷援捻测,爱量德门癸司器发静“天羧”数攒挖掘王嶷集DM抽ef

集成了多种数据挖掘算法,取得了较好的挖掘效果。

瑟自毫予海务静数据挖掇楚数纂挖摇在毫子纛务领域孛静痉孺。

蠢子Intemet

的普及和便利,电子商务企业瓣面对的客户群是巨大丽复杂的,市场变得更大也更’

复杂多变7。

这个时候,企簸院以往爨细嬲羹能够对粥户和市场进行把握。

咆予商

务企业对市场和客户盼知识往往是非常缺乏的。

但是,在另一方面,憩予商务在运

转的过程中积累了大爨有关用户商务杼为和用户本身的数据嘲。

电子商务企业也面

羲着数据丰富、知识翁乏趣趱舷。

将数摆挖撼技本应耀于电子巍务,对这些数握进

行挖掘,就可以找出这些有价值的“知识”。

企业用户可以根据这些“知识”,把

握客声动态,追踪拳场交毙,镞窭歪确瓣锋霹牲豹决策,魄麴泼遴骥懿、蠢各类客

户推出个性化的页面,或者向黼流失客户群提供优惠政策进行挽留等撵【91。

舔自Internet静数据挖掘羧术酶蜜现,曾先要解淀学结拇纯数器摸墼和半结梅

化数舔模型的抽取问题。

结构化数据模型的研究对数据库界是~个全新鲍领域,早

在1995年,斯遁福大学己经歼始了相关方面的研究.但当时研究的熬点还没有真

正面对Web,褥主要研究的是肄梅数据环境,因为在髯构环境巾的数攒己经存在这

种半结构化的特征。

脬来随着Internet的发展,Web上的数据半结构化特征日渐明

显,这一勰题瞧藏扩鼹魏Web镶壤,疑终绘爨了势黠Web数据熬摸瑟翊题。

耀关

的研究_工作在1997-1998年间取得了一些成果,给出了诸如WebSQL等大约一麓十

释豹豢游语言。

基予Web上麓内容查游主要裔两个含义,一凳黉露内嚣懿套瓷,二

是页掰与页面之间链接的查询,而像其面之间链接的这种关系剿称之为路径表达。

由予警时盼Web都是蒸于HTML(hypertextmarkuplanguage麓文本标记语言)实现

的,聪HTML在路径袭达的实现上难发缀大nq.因为HTML实际只撼供了如何在

测览器中显示信息的方式,而没有反映数据本身所包含的语义,所以瑟想真正傲到

5华中科技大学硕士学位论文

准确、高效地查询数据,十分困难。

所幸的是,近年来新涌现了一个标记语言(extensivemarkuplanguage,XML),

它最大的特点在于其标签(tag)是具有语义的,是由用户定义的,能够反映一定的数

据的含义【“1。

XML的出现给做数据库研究的人们带来了很大的惊喜。

从某种意义

上说,XML就是一种半结构化的数据模型,虽然这个说法还不是很确切,但是XML

可供操作的基础要比HTML好得多。

XML的文档描述的语义非常清楚,而且很容

易就可以将之和关系数据库中的属性一一对应起来,能够支持实施十分精确地查

询。

而HTML文档只是按显示方式进行描述。

由此可见,XML将为在Web上的数

据查询和模式抽取提供了一个重要的契机。

目前己经有很多关于XML数据存储、

XML数据的查询和XML的系统实现与应用模式等方面的研究工作纷纷开展起来,

以XML家族为基础的新一代的WWW环境是直接面对Web数据的,不仅可以很好

地兼容原有的Web应用,而且可以更优地实现www这一分布计算环境下的信息

共享与交换。

现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中。

mM、Microsoft等大公司都在自己的产品或相应产品上增加了在线分析处理

(OLAP)。

IBM公司开发的QUEST和IntelligentMiner系统可以挖掘客户的购物行

为模式。

Microsoft公司日前发布了一个基于XML的数据访问协议,该协议能使开

发商为各类客户和开发平台提供数据分析。

XMLforAnalysis是一个支持应用开发

商将商业智能植入.NETWeb服务的协议。

随着OLEDBforOLAP(联机分析处理)

和OLEDBforDataMining(数据挖掘)的发展,该协议支持对Microsoft数据源的

访问并支持基于Web的数据挖掘【12】。

13.2课题研究预溺及发展方向

目前,电子商务正在企业和商贸领域占据着越来越多的市场份额,Web挖掘主

要用于商品的市场定位和消费分析,以辅助制定市场策略,还可以用来分析购物模

式,预测锖售行情。

但数据挖掘技术的研究还很不成熟,其应用还存在较大的局限

性,成为其今后的发展方向:

6华中科技大学硕士学位论文

1.数据输入形式的多样性。

应用中经常需要对一些半结构化、非结构化的数

据形式如文本、图形、数学公式,图象或www资源进行挖掘操作,但目前的数

据挖掘工具一般只能提供对数值型的结构化数据的处理,对数据中存在缺损或噪

声的情况也没有有效的方法。

2.数据挖掘算法的有效性与可测性。

数据挖掘的对象向更大型的数据库、更

高的维数和属性之间更复杂的关系方向发展。

属性之间的关系变得更为复杂如表现

为层次结构,会大大提高知识搜索的代价。

目前的研究发展到用并行处理或抽样的

方法处理大规模数据以获得较高的计算效率,根据问题的定义和领域知识选择出需

要的属性从而降低维数并有效处理属性之间的复杂关系等。

3.用户参与和领域知识。

有效的决策过程往往需要多次交互和多次反复,使

数据挖掘的结果准确地描述数据挖掘的要求,并易于表达,实现在多抽象层次上交

互挖掘知识。

目前许多知识发现系统和工具缺乏与用户的交互,难以有效利用领域

知识。

4.证实技术的局限。

数据挖掘使用特定的分析方法或逻辑形式发现知识,如

归纳方法。

但系统可能无法去交互证实所发现的知识的正确或正确的程度,使

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 军事

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1