数据挖掘技术在电子商务中的应用研究Word文档下载推荐.docx
《数据挖掘技术在电子商务中的应用研究Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在电子商务中的应用研究Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
2.2.1分类.............................................................................................-5-
2.2.2关联规则分析.............................................................................-5-
2.2.3聚类分析.....................................................................................-5-
2.2.4孤立点分析.................................................................................-5-
2.3数据挖掘的步骤.................................................................................5-
3数据挖掘在电子商务中的应用..................................................................-6-
3.1在电子商务营销方面的应用............................................................-6-
3.2在电子商务中网站系统和安全方面的应用....................................-6-
3.3数据挖掘技术在客户关系管理中的应用........................................-6-
3.4数据挖掘在网站管理中的应用........................................................-6-
3.5数据挖掘在网络广告中的应用........................................................-7-
3.6数据挖掘可以使资源优化................................................................-7-
3.7数据挖掘可以用来确定异常事件....................................................-7-
4数据挖掘在电子商务中的研究方法..........................................................-7-
4.1分类....................................................................................................-8-
4.2聚类分析............................................................................................-8-
4.3关联规则挖掘....................................................................................-8-
4.4序列模式分析....................................................................................-8-
5数据挖掘技术在电子商务中的流程..........................................................-8-
5.1数据源选取........................................................................................-9-
5.2数据的预处理....................................................................................-9-
5.3挖掘模型的构建和数据挖掘............................................................-9-
5.4结果分析和使用................................................................................-9-
6数据挖掘在电子商务中所存在的相关问题..............................................-9-
6.1数据挖掘涉及到的数据的隐私性和安全性....................................-9-
6.2数据挖掘结果的不确定性................................................................-9-
6.3数据趋势的预测..............................................................................-10-
6.4数据模型的可靠性..........................................................................-10-
7数据挖掘技术在电子商务中的应用前景................................................-10-
结论致谢........................................................................................................-11-
参考文献........................................................................................................-12-
1研究现状
1.1国外研究现状
数据挖掘出现在20世纪80年代后期,而且在90年代有了惊人的发展,1995年,在加拿大召开了第一届KDD和数据挖掘的国际学术会议。
在2001年1月分美国的麻省理工学院的《科技评论》提出在未来5年内将会对人类生活工作产生重大影响的10大新兴技术中,其中第3项就是数据挖掘技术。
这也就充分证明了数据挖掘技术的重要地位。
目前,数据挖掘技术已经普遍的应用到了各个领域,其中一些典型的应用如:
美国用数据挖掘研究犯罪的特性和犯罪可能发生的地点;
在化学以及制药行业方面,用于大规模生物信息数据挖掘还可以发现新的化学成分等;
而且在遥感领域中,对天气预报、臭氧层监测主要是针对每天从卫星上及其他方面来的巨额数据进行各方面的处理等。
这样,多门学科之间不断地相互交融和相互促进,是的数据挖掘这一新学科得以蓬勃发展。
1.2国内研究现状
国内学者们也在对数据挖掘的理论和应用进行了许多方面的研究。
通过对发表的论文研究成果进行详细的统计研究,以分析数据挖掘技术在中国的广泛研究与应用,这个过程就相当于数据研究的过程。
为了全面而且客观地反映数据挖掘在中国方面研究下来的成果以及现状,学者们分别进行了各个方面的检索,其中检索的内容主要包括相关文章在中国期刊上的发表还有中国有关研究数据挖掘方面的文章被SCI和E1进行的搜索。
1997年正式发表的国内期刊有关数据挖掘的文章一共有3篇,这就表明了关于数据挖掘方面的研究中国无论是在时间上还是其他方面与国际上的差距并不是很大。
近年来,在国内发表的有关数据挖掘的论文数目也在随着年份快速上升,并且SCI和E1所搜索的文章的数目也在随着年份快速增加,这就说明在近几年来中国的数据挖掘研究也在迅速的增加。
目前,数据挖掘的方法可以大概的分为理论研究和应用研究两个方面。
理论研究也在渐渐地深入人心,而且正在与实际问题的解决相结合,所以可以说理论研究和应用研究是并驾齐驱的。
数据挖掘技术是一门应用性很强的课程,而且它的应用领域也非常广阔,甚至涉及到了各种行业,其中包括:
地理学、生物学、经济学、管理学、化学等领域。
而这些应用被大量的使用就更进一步地推动了数据挖掘理论研究的发展。
2数据挖掘的简介
2.1数据挖掘的定义
数据挖掘就是从大量的、不完全的、有噪声的数据中,提取隐藏在其中的、人们事先不知的、但又是潜在的有用的知识和信息的复杂过程。
它融合了数据库、人工智能、机器学习等多门学科的理论知识和技术。
但是要是只从商业角度定义的话,数据挖掘就是一种新的商业信息处理技术,其主要的特点就是对商业数据库中的大量业务数据进行一些抽取、分析、转换和其他的模型化的处理,从而在其中提取出具有关键性的能够辅助商业决策的数据。
利用数据挖掘技术功能优点,可以把数据转化为有用的信息从而让企业做出最佳决策,从而获得更加优势的地位。
就目前看来,数据挖掘所得到的各种信息应该具有先前未知、有效并且实用这3个特点。
2.2数据挖掘技术的主要方法
融合了数据库、人工智能、机器学习、统计学等多门学科的数据挖掘,比较典型的方法有分类法、关联规则分析法、聚类分析法和孤立点析法等。
2.2.1分类
找出一组数据对象一个类型的概念的描述这就是分类,它代表着这类数据的整体信息,对它表示一般用规则和决策树的模式来进行,就是通过分析数据库中的数据,然后为每个类别分别做出准确描述或建立分析模式或挖掘出分类规则,最后用这个分类规则对其他数据库中的记录进行分类,它的目的就是通过分类模型把数据库中的数据项反映给某个给定的类别。
2.2.2聚类分析
描述数据库中存在的一类重要的可被发现的知识就是数据关联规则分析。
如果在两个或很多变量取值时存在的某种有规律的现象,就可以称为关联,关联又可以分为简单的、时序的和因果的关联。
关联规则挖掘的过程可以分为两个阶段。
第一个阶段就是必须先把所有的高频项目组从数控集合中选出来,第二个阶段就是说再从这些高频项目组中来产生出关联规则。
2.2.3聚类分析
聚类分析与数据挖掘中的分类略有不同,在分类模块中,在目标数据库中存在的类,这些类的信息是已知的,需要做的就是标记出每一条记录分别属于哪一类;
与此又不同的是,聚类就是在不了解目标数据的类的个数情况的前提之下,将全部的记录合并成不同的类,并且使得在此情况之下,依据某个度量为标准的相同比例,在同一聚类之间的最小化,但是在不同聚类之间的最大化。
在很多的应用里,都可以统一的看待由聚类分析得到的任何一个聚类中的成员。
依靠模型的方法、依靠密度的方法、层次法和分裂法一般都属于聚类分析的算法。
2.2.4孤立点分析
数据库中的数据常有一些不正常的记录,这些记录被称为孤立点,通常包括很多潜在的知识,如分类中的不符合规则的特例、反常实例、观测结果与模型预测值得偏差、量值随时间的变化等。
寻找观测结果与参照之间的差别是孤立点分析基本方法。
2.3数据挖掘的步骤
数据库中的知识发现是一种交互、迭代的过程。
有好几种KDD过程模型的扩展形式,这些描述KDD的过程是使用从4到12个数目不符的步骤来实现的。
尽管步骤数有些不相同,可是所描述的内容上大体是形同的。
其中步骤的简要叙述如下:
目标定义
↓陈述可能提出的假定或所期望的结果
创建一个目标数据集
↓
数据的预处理
↓利用可获取资源来处理噪声数据,确定对缺失数据的
处理方法并说明时间序列信息的方式
建立数据挖掘模型
解释和评估
↓确定是否用新的属性和实例来重复前面的步骤
采取行动
3数据挖掘在电子商务中的应用
在电子商务中分析顾客的购买行为可以利用数据挖掘技术直接跟踪数据得来,而且可以帮助商家快速的做出商业决策。
数据挖掘技术在电子商务中的应用越来越广泛,也受到越来越多的电子企业管理者们的重视。
目前数据挖掘技术在电子商务中的应用主要而体现以下几个领域。
3.1在电子商务营销方面的应用
它以市场营销学的市场细分原来为基础,并且以消费者过去的行为为基本假定,说明了其今后消费倾向。
并通过手收集、加工和处理与消费者行为有关的信息和数据,来确定特定的消费群体或个体的兴趣爱好、消费的习惯、消费的倾向和需求,从而推测出下一步他们将要消费的某种行为。
通过分析产品的生命的周期策略,从而在特定的时间地点来确定开展的促销的活动,并且设计出商品的最优策略;
经过不断地客户聚类分析计算类似的客户需求,提供有针对性的服务;
通过和客户深入的交流,让现有客户选择新的产品和新的服务模式;
还可以对客户数据进行分析,列出市场的各个层次,从而为电子商务的定位提供更加可靠的保障。
3.2在电子商务中网站系统和安全方面的应用
(1)利用数据挖掘技术对客户邮件内容进行过滤
首先我们必须要转化客户的电子邮件中的非结构化的数据,使它成为结构化的数据,然后第二步再选择一些最能够区别是否是垃圾邮件的特征,并且过滤它们。
第三步经过选定的模式的匹配任务之后,就可以直接进行各种决策了,最后要对挖掘进行一系列的归纳和各种评价,并给决策领导们展示可视化的形式直接明了的挖掘的结果。
(2)对网站中搜索引擎的应用的优化
在电子商务网站中,人们一般都是通过搜索引擎来协助客户们进行商品的查询和获取各种信息的,而且还可以提高查询的准确率。
通过整理数据挖掘技术对索引数据库的信息,不仅可以让文档进行自动分类,而且还可以提取出重要的有利的信息,形成文档摘要,最后进行一些聚类,浏览的效率也将会大大地提高。
(3)改善系统的性能,提高不同网站的安全性
第一点是提高反应速度,在服务器上有许多客户访问的不同文件,而数据挖掘可以通过拥塞的记录来发现站点的性能瓶颈,从而能够充分的给管理者们提示改善的策略,进而大大地提高了对网站的访问速度。
另外一点是利用关联规则技术大大增加了网站的安全性能。
3.3数据挖掘技术在客户关系管理中的应用
利用信息技术对现有的客户在企业中的市场销售和客户服务等的应用,进而实现以更优良、更迅速、更具有个性化的服务,保持和吸引了越来越多的客户,最终使得企业的市场竞争实力有一个质的飞跃。
数据挖掘的应用特别广泛,可以应用在客户群体的分类分析、客户的效益分类分析和预测、客户的满意度分析、客户的背景分析、客户的信用分析、交叉销售、客户的流失分析、客户的获得与保持等方面。
3.4数据挖掘在网站管理中的应用
在如今的网站建设以及维护的过程中,数据挖掘技术在以下几个方面非常重要:
建设网站的过程中,需要利用挖掘技术来挖掘网站的内容,从而达到高效的组织信息;
通过技术分析来判断网站路径的最高访问频率,并且在所预期的位置以及实际所在地之间建立起链接,由此达到网络结构的优化;
利用对E-Mail的筛查以及过滤,从而达到将其大量的垃圾邮件删除,由此改善结果。
3.5数据挖掘在网络广告中的应用
利用数据挖掘技术在网络广告中的布局和投放进行的挖掘分析的作用,不仅可以将各类广告的分类,并且通过了解广告是否具有有效性、关系的正确以及有没有发送信息的情况,来判断广告是否具有实际有效性,如果利用它的系统对网络访问者的IP地址来进行分析并跟踪的话,那么就可以有针对性对网络访问的群体进行精确投放。
3.6数据挖掘可以使资源优化
节约成本肯定是一个企业盈利的关键所在,通过对历史的财务、库存和交易数据进行仔细的分析,就可以很容易的发现企业资源消耗的关键点和主要活动的投入与产出比,从而为企业资源优化的配置提供了优良的决策依据。
3.7数据挖掘可以用来确定异常事件
在很多的商业领域中,异常事件的发生具有许多显著的商业价值。
通过数据挖掘的奇异点分析可以快速、准确地筛选出这些不寻常的事件,这将更好的为企业服务。
从这些例子中足以显示了数据挖掘技术在电子商务中的应用及其重要性。
利用数据挖掘技术,为知名企业建设个性化的网站,为客户提供高效的服务,从而带来更大的经济效益。
所以随着它的不断地发展并成熟,数据挖掘技术将会是更为广阔的应用前景。
4数据挖掘在电子商务中的研究方法
数据准备、数据挖掘、结果解释和评价是电子商务中的数据挖掘的3个主要过程。
确定发现任务的操作对象是数据选取的目的,即目标数据的基础上,从原始数据库中根据用户的需要抽取来的一组数据。
数据的预处理一般包括噪声的消除、缺值数据的推导计算、重复记录的消除、数据类型的转化还有对数据降维的完成等。
数据挖掘阶段开始以数据挖掘的目标进行确定还有挖掘的知识类型。
确定挖掘目标之后,选择出合适的挖掘算法,最后实施操作就可以了。
数据挖掘阶段发现的认识,但是经过评估可能会存在冗余或没有任何关系的知识现象,这时就需要将其剔除,但也有时候知识不能够完全满足用户的需求时,还仍然需要重复上述步骤。
另外,由于这个技术最终要面对用户,所以我们仍然要对挖掘的知识进行一些详细的说明,用一个用户更容易接受的方式来进而被用户所使用。
然而在选择某种数据挖掘技术之前,我们必须要将待解决的问题转化为正确的数据挖掘任务,然后再根据挖掘的任务来考虑使用哪些数据挖掘的技术。
在一般的电子商务活动中主要使用的数据挖掘技术如下:
4.1分类
分类即找出数据库中一组数据对象的共同特点,并且通过分类模式把它划分几个不同的类,为的就是通过分类模型或分类函数,将数据库中的数据项映射到某个给定的类别之中。
分类的主要方法一般有基于决策树模型的数据分类,贝叶斯分类算法,ID3算法和基于BP神经网络算法等。
如果现在我们有一个描述顾客属性的数据库,包括他们的姓名、年龄、职业、收入等,我们就可以直接按照他们是否购买某种商品(例如:
电脑)来进行分类。
如果现在有新的顾客添加到数据库中,那么我想将新电脑的销售信息通知客户,若将促销材料分发给数据库中的每个新顾客,这样的话可能就会消耗许多人力和物力。
而如果我们只分发一些材料给那些可能购买新电脑的顾客的话,那么就可以在较大的程度上来节约成本。
为此,就可以构造和使用分类模型了。
分类方法的特点是通过对数据库中的数据来进行挖掘,并且建立一个分类模型,然后利用它来对数据库中的其它记录来进行一些分类就可以了。
4.2聚类分析
聚类分析就是把每一组的数据按照相似度和不同点分为几个类别,它是为了使得在同一类别的多个数据之间的相似度尽可能的大,而不同类别中的相似性尽可能的小。
聚类分析的方法是数据挖掘领域中最为常见的技术之一,常用的方法有:
分割聚类方法,层次聚类方法,基于密度的聚类方法和高维稀疏聚类的算法等,聚类分析方法与分类方法的不同之处在于聚类事先对数据集的分布没有任何的了解。
所以在聚集之后要找一个对这个企业非常熟悉的人来解释这样聚集的意义。
在许多情况下一次聚集得到的分类对业务来说可能并不是很好,这时我们就需要删除或添加变量来影响分类的方式,然后反复这样之后才能最终得到一个令人满意的结果,而聚类分析方法在电子商务中的使用也非常广泛。
4.3关联规则挖掘
关联规则指的是数据库中不同数据项之间所存在的关系规则的描述,并且根据一个事物的某一项的出现就可引起另一项在同一事物中也会出现。
在电子商务中,如果能从大量商务事物记录中发现有用的关联关系,就可以做出许多帮助商务制定的决策。
关联规则挖掘最初最典型的形式是购物篮分析。
它是通过观察顾客放入其购物篮中不同商品之间的联系从而分析出顾客的购买习惯。
比如,在顾客同一次去超市,如果他想购买啤酒,那么他同时购买饮料的可能性有百分之多少?
而这些信息可以帮助商家有选择地经销和摆放整个货架,还有引导销售。
如果我们将啤酒喝饮料尽可能放近一些,就能进一步地刺激消费者一次性购买这两种商品。
在电子商务之中,由于Web服务器的日志文件记录了用户的访问记录,通过这些记录利用关联规则挖掘网上顾客购买的产品的相关度,对某些品牌的偏好度和忠诚度,还有比如能够接受的价格范围,以及内外包装的要求等,挖掘的结果就可以用来帮助管理者进行网站的规划、以及确定商品的种类、价格和新产品的投入等等。
4.4序列模式分析
序列模式分析和关联规则挖掘很类似,但它的重点在于对数据之间的前后序列的关系进行分析。
它能发现数据库中在某一段时间内,顾客购买的物品1,接着购买的物品2,而后购买的物品3,即序列1-2-3出现的频率最高的信息。
5数据挖掘技术在电子商务的应用
在电子商务中的数据挖掘首先是通过Web站点来收集数据,然后对必要的数据做一下清理工作,紧接着在“干净数据”上再进行挖掘,最后要把获得的知识投入到应用之中。
5.1数据源选取
这个任务负责要先抽取需要分析的数据,要导入相同的数据集来作为所有分析任务的分析源。
所需要的数据主要来自于两个方面:
一方面来自于客户登记的资料,包括客户的背景信息和客户之前的交易数据等;
另一方面则是利用储存在服务器中的来自浏览者的点击率来考察客户的行为表现。
5.2数据的预处理
通过对字段的派生、过滤,记录的筛选、汇总、附加、合并和排序以及空值的处理、数据离的散化等方法对数据进行各种深度的清洗,解决数据中的