试探基于电子商务的web数据挖掘技术.docx

资源描述

试探基于电子商务的web数据挖掘技术.docx

《试探基于电子商务的web数据挖掘技术.docx》由会员分享，可在线阅读，更多相关《试探基于电子商务的web数据挖掘技术.docx（45页珍藏版）》请在冰豆网上搜索。

试探基于电子商务的web数据挖掘技术.docx

试探基于电子商务的web数据挖掘技术

试探基于电子商务的Web数据挖掘技术

[摘要]随着Internet的日益普及和电子商务的蓬勃发展，基于互联网的商业Web站点业务的竞争也越来越激烈。

由于电子商务可为数据挖掘提供极为丰富的数据源，因而如何对大量的电子商务信息进行有效的组织利用，发现蕴涵的、未知的、有潜在应用价值的、非平凡模式或信息，从中抽取感兴趣的商业运作模式，以便更好地理解客户的行为，或改进站点结构为客户提供更多的个性化服务，已为众多商家所关注，因此，开展本研究课题有一定的应用价值和意义。

本文在分析研究电子商务数据特点的基础上，较详细地阐述了Web数据挖掘的概念、方法等相关技术，以及在电子商务中数据挖掘技术的应用，针对基于Web日志的数据挖掘模型的缺点，构建了一个基于Session的数据挖掘模型，并提出了一种基于Web挖掘的个性化推荐。

通过对用户访问信息进行有效的数据挖掘，可以从用户浏览网站的数据中抽取感兴趣的模式，理解用户的浏览兴趣行为，以便进一步改善网站结构，为用户提供个性化服务。

[关键词]数据挖掘、Web挖掘、关联规则、电子商务、个性化推荐模型

[abstract]WiththepopularizationofInternetandthedevelopmentofE-commerce,E-businessWebsitesarefacedwithmoreandmorefiercecompetition.E-commerceprovidesabundantdataresourcesfordatamining,thusmoreandmorebusinessorganizationsareinterestedinhowtomakeuseofE-commerceinformationandminetheuserinterestpatterntounderstanduserbehavior,improvetheusabilityofwebsiteandprovidepersonalizedserviceforcustomers.

ThethesisdiscussesthecharacterofdatainE-commerce,expatiatestheconceptionandtechnologiesindetail,andtheapplicationofthedataminingtechnologyinE-Commerce,analyzethedisadvantagesofthemodelofDataMiningbasedontheWeblogandconstructamodelofDataMiningbasedonSession,thenitpresentsaPersonalizedrecommendersystembasedonsimilarmodelclusteringalgorithm.ByminingtheWeblogrecords,wecanobtaintheknowledgeaboutuseraccessmannerswhichcanhelpustofindouttheuseraccesspatternsandperformpersonalizedWebpagesrecommendation.Therefore,thereisafullsolutionfortheWebsiteofE-Commerce.

[Keywords]Datamining、Webmining、Connectionrule、E-commerce、

Personalizationrecommendation

1、绪论

1.1研究背景

随着数据库技术的迅速发展以及数据库管理系统的广泛应用，人们积累的数据越来越多。

爆炸式增长的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。

目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。

缺乏挖掘数据背后隐藏的知识的手段，导致了“数据爆炸但知识贫乏”的现象。

人们迫切需要利用一种崭新的技术和工具智能地、自动地将数据转变为知识，这种情况下数据挖掘技术就应运而生。

伴随Internet的飞速发展和普及，网上的数据资源空前丰富，以每月20%的速度急剧增加，Web从而成为储存、发布及获取信息的最重要的载体。

然而，Web是无结构的、动态的、并且Web页面的复杂程度远远超过了文本文档，人们想要在Web上找到自己的信息犹如大海捞针一般。

如何才能不被Web上信息的汪洋大海所淹没，从中及时发现有用的知识，提高信息利用率呢?

解决这些问题的一个有效途径，就是将传统的数据挖掘技术与Web结合起来进行Web挖掘。

另外，其应用遍布科研、教育、商业、金融、军事等各个领域，尤其是电子商务更是倍受研究者们的关注，越来越多的公司企业和金融机构纷纷建立企业级的电子商务网站，通过计算机网络进行商务活动。

新的商业环境在为企业提供新的商机的同时，也对企业提出了新的挑战，电子商务网站从“以站点为中心”向“以用户为中心”发展成为必然。

如何对电子商务信息进行有效的组织利用，如何了解到顾客尽可能多的爱好和价值取向，以优化网站设计，为用户提供个性化服务，成为电子商务发展迫切要解决的问题。

尽管信息检索界开发出了许多搜索引擎，如Yahoo,Google等，但由于覆盖率有限，查全率低;查询一般是基于关键字的，查准率欠佳;而且不能针对特定用户的兴趣爱好给出特殊的服务，不具有个性化。

Web挖掘就是从Web上的数据（如Web日志、Web页面内容）中发现用户的浏览模式或寻找相关的Web页面等。

通过Web挖掘既可以为站点管理者、投资商和广告商等提供合理建议，也可以为用户提供功能强大的智能搜索引擎，实现个性化服务。

Web数据挖掘就是在这样的背景下与电子商务结合在一起的。

1.2本文工作

针对电子商务面临的一些问题和Web挖掘在电子商务中的应用现状，本论文比较系统、完整地分析和论述了数据挖掘技术以及Web挖掘技术；提出了一种基于Session的数据挖掘模型和一个基于相似度聚类算法的电子商务个性化推荐系统。

全文组织如下：

第一章简要介绍了本论文的研究背景和主要工作等；第二章介绍数据挖掘和Web数据挖掘理论；第三章介绍Web数据挖掘技术在电子商务中的应用；第四章介绍一种基于Session的Web数据挖掘模型，是本文的重点；第五章介绍基于Web挖掘的个性化推荐；第六章是本文总结，阐述了本文所做的主要工作及存在的不足之处，以及今后的研究方向。

2、数据挖掘技术概述

2.1数据挖掘的产生与发展

数据挖掘是KDD（Knowledgediscoveryindatabase）最核心的部分。

所谓数据挖掘（DataMining,DM），就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，包括以下四个层次的含义：

（1）数据源必须是真实的、大量的、含噪声的；

（2）发现的是用户感兴趣的知识；

（3）发现的知识要可接受、可理解、可运用的；

（4）并不是要求发现放之四海皆准的知识，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明，所有发现的知识都是相对的，是有特定前提和约束条件、面向特定领域的。

数据挖掘算法的好坏将直接影响到所发现知识的好坏。

目前大多数的研究都集中在数据挖掘算法和应用上。

人们往往不严格区分数据挖掘和数据库中的知识发现。

在促进数据挖掘诞生、发展和应用的众多原因中主要有四种：

（1）大规模数据库，尤其是数据仓库的出现，使数据挖掘技术有了赖以生存的基础。

（2）先进的计算技术，尤其是网络技术和并行处理体系的发展，使大量管理人员得以从繁重的日常信息处理工作中解脱出来，有时间和精力对激增的数据进行高层次的分析，从中寻找那些对企业战略发展有重要意义的商业规律和市场趋势。

（3）经营管理的需要。

企业经营管理者迫切希望能够从企业积累的大量历史数据中找到应对日趋严重的竞争压力良方，这使数据挖掘有了用武之地。

（4）对数据挖掘的精深计算能力。

大规模数据挖掘需要复杂的、精深的计算能力，这些精深的计算能力主要基于统计学、集合论、信息论、认识论和人工智能等各种学科理论，也正是这些精深计算能力，成为促进数据挖掘诞生和发展的中坚力量。

因此可以说，数据挖掘是信息技术发展到一定阶段的必然产物，是拥有大规模数据库、高效的计算能力、经营管理的压力和有效的计算方法后的产物，是从存放在数据库、或其它信息库大量数据中挖掘有用知识的一个过程。

数据挖掘从不同的角度，有如下不同的分类方式：

（1）依据所挖掘的数据库的种类进行分类

若挖掘系统从关系数据库中发现知识，则相应系统为关系数据挖掘系统。

其它数据库系统如面向对象的数据库、演绎型数据库、空间数据库、时间数据库、多媒体数据库、异质数据库、主动数据库、遗留数据库和Internet信息库均可作为挖掘系统的挖掘对象。

（2）依据挖掘知识的种类进行分类

数据挖掘系统可以发现几种典型的知识，包括关联规则、特征规则、分类规则、聚类规则等。

（3）依据采用的技术进行分类

常用的数据挖掘技术主要有人工神经网络、遗传算法、决策树、邻近搜索、规则推理、模糊逻辑等。

2.2数据挖掘的定义

随着数据库技术的成熟和数据应用的普及，人类积累的数据量正在以指数速度迅速增长。

随之而来的问题是相对于“数据过剩”和“信息爆炸”，人们又感到“信息贫乏”。

如何从大量的数据中找到真正有用的信息成为人们关注的焦点，数据挖掘技术也正是伴随着这种需求从研究走向应用。

2.2.1技术上的定义及含义

数据挖掘（DataMining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

与数据挖掘相近的同义词有数据库中的知识发现（KDD）、数据分析、数据融合以及决策支持等。

这个定义包括好几层含义：

数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

即所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。

最好能用自然语言表达所发现的结果。

2.2.2商业角度的定义

数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

简而言之，数据挖掘其实是一类深层次的数据分析方法。

因此，数据挖掘可以描述为:

按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。

2.3数据挖掘的主要技术

人工智能、数据库技术、概率与数理统计是数据挖掘技术的三大支柱。

人工智能中一些已经成熟的方法和技术在数据挖掘中得以利用，例如：

人工神经网络、决策树、遗传算法、近邻搜索算法、规则推理、模糊逻辑等，其问题的复杂度和难度比人工智能降低了许多。

数据挖掘利用的技术越多，得出的结果精确度就越高。

（1）关联规则方法

关联规则分析的目的是为了挖掘出隐藏在数据间的相互关系。

最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。

关联规则的发现可分为两步。

第一步是迭代识别所有的频繁项目集，要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。

识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。

（2）分类及聚集分析

分类分析法的输入集是一组记录集合和几种标记，首先为每一个记录赋予一个标记，即按标记分类记录，然后检查这些标记的记录，描述出这些记录的特征。

聚类分析法的输入集是一组未标定的记录，也就是说此时输入的记录还没有被进行任何分类。

其目的是根据一定的规则，合理地划分记录集合，并用显式或隐式的方法描述不同的类别。

而所依据的这些规则是由聚类分析工具定义的。

（3）人工神经网络

神经网络近年来越来越受到人们的关注，因为它为解决复杂度很大的问题提供了一种相对来说比较有效的简单方法。

神经网络可以很容易地解决具有上百个参数的问题。

神经网络常用于两类问题：

分类和回归。

神经网络是建立在可以自学的数学模型的基础之上的。

它可以对大量复杂的数据进行分析，并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。

神经网络系统由一系列类似于人脑神经元一样的处理单元组成，称之为节点。

这些节点通过网络彼此互连，如果有数据输入，它们便可以进行确定数据模式的工作。

（4）决策树

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。

决策树是通过一系列规则对数据进行分类的过程。

采用决策树，可以将数据规则可视化，其输出结果也容易理解。

决策树方法精确度比较高，不像神经网络那样不易理解，同时系统也不需要长时间的构造过程，因此比较常用。

（5）遗传算法

遗传算法是一种基于生物进化过程的组合优化方法。

其基本思想是：

随着时间的更替，只有适合的物种才得以进化。

将这种思想用于数据挖掘就是根据遗传算法获得最适合的模型，并据此对数据模型进行优化。

这是一种基于进化理论，并采用遗传结合、遗传变异以及自然选择等设计方法的优化技术。

（6）最近邻居方法

将数据集合中每一个记录进行分类的方法。

它的基本思想是在给定数据后，考虑在训练数据集中与该新数据距离最近（最相似）的所有数据，根据这些数据所属的类别判定新数据所属的类别。

（7）统计分析法

在数据库或其它数据集的各项之间建立两种关系，即能用函数公式表示确定关系的函数关系和不能用函数公式表示但有相关确定关系的相关关系，对它们的分析可采用回归分析、相关分析、主成分分析等。

（8）可视化技术

数据集中包含大量的数据，并且在数据集背后也暗含着各种数据模型，将如此大量的数据可视化需要复杂的数据可视化工具。

数据挖掘和数据可视化可以很好地协作。

就数据可视化系统本身而言，由于数据集中的数据量很大，很容易使分析人员变得不知所措，数据挖掘工具可以通过可视化技术，并且根据用户的需要来表示数据，为数据分析人员提供很好的帮助。

拓宽了传统的图表功能，使用户对数据剖析更清楚。

2.4数据挖掘的过程

图2-1数据挖掘的基本过程

数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的，有效的，可实用的信息，并使用这些信息做出决策或丰富知识。

数据挖掘的基本过程如上图2-1描述。

过程中各步骤的大体内容如下：

1、确定业务对象

清晰地定义出业务问题，认清数据挖掘的目的是数据挖掘的重要一步。

挖掘的最后结构是不可预测的，但要探索的问题应是有预见的，为了数据挖掘而数据挖掘则带有盲目性，是不会成功的。

2、数据准备

1）数据的选择

搜索所有与业务对象有关的内部和外部数据信息，并从中选择出适用于数据挖掘应用的数据。

2）数据的预处理

研究数据的质量，为进一步的分析做准备。

并确定将要进行的挖掘操作的类型。

3）数据的转换

将数据转换成一个分析模型。

这个分析模型是针对挖掘算法建立的。

建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

3、数据挖掘

对所得到的经过转换的数据进行挖掘。

除了完善从选择合适的挖掘算法外，其余一切工作都能自动地完成。

4、结果分析

解释并评估结果。

其使用的分析方法一般应作数据挖掘操作而定，通常会用到可视化技术。

5、知识的同化

将分析所得到的知识集成到业务信息系统的组织结构中去。

2.5WEB数据挖掘

2.5.1WEB数据挖掘的概念

Internet的飞速发展与广泛应用，使得Web上的信息量以惊人的速度增长。

据估计，Web已经发展成为拥有10亿页面的分布式信息空间，而且这个数字仍以4至6个月翻一倍的速度在增加。

在这些大量的、异质的Web信息资源中，蕴含着具有巨大潜在价值的知识。

但由于Web是无结构的、动态的，并且Web页面的复杂程度远远超过了文本文档，传统数据库技术中的简单查询和结构化查询已经无法满足希望了解并应用数据中的知识的需求，人们要想找到自己想要的数据犹如大海捞针。

人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。

Web上的搜索引擎部分地解决了资源发现问题，但由于精确度不高等原因，其效果远不能使人满意。

此外，搜索引擎的目的在于发现Web上的资源，就Web上的知识发现而言，即使检索的速度再快，搜索引擎也不能胜任。

为此，我们需要开发一种比信息检索层次更高的新技术。

但是，数据挖掘的绝大部分工作所涉及的是结构化的数据库，很少有处理Web上的异质的、非结构化的信息的工作。

Web挖掘作为数据挖掘的一个新主题，引起了人们的极大兴趣，并在各个领域显示出了诱人的应用前景。

OrenEtzioni于1996年提出Web挖掘概念。

他认为Web网页是有结构的并且是可以挖掘的。

同时，也有学者提出了多层数据库的概念，打算将Web转换成一个庞大的多层次数据库，然后基于它进行数据挖掘。

然而OrenEtZioni等认为，由于Web的动态和混乱，这种方式很难实现。

但是随着技术的发展，基于多层数据库思想，已经开发出了一些实验系统。

随着XML的成熟与广泛应用，基于多层数据库思想的Web数据挖掘有着更大的开发潜力。

要研究Web挖掘，首先要了解Web的特点。

Web是一个非常成功的基于超文本的分

布式信息系统，它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务等许多信息服务。

Web还包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为Web挖掘提供了丰富的资源。

经分析，我们认为Web至少具有以下5个特点，从Web具有的特点可知Web挖掘是一项极具挑战性的工作。

（1）对有效的数据仓库和数据挖掘而言，Web似乎太庞大了。

Web的数据量目前以几百兆兆字节计算，而且仍然在迅速地增长。

许多机构和社团都在把各自大量的可访问信息置于网上，这使得几乎不可能去构造一个数据仓库来复制、存储或集成Web上的所有数据。

（2）Web页面的复杂性高于任何传统的文本文档。

Web页面缺乏统一的结构，它包含了远比任何一组书籍或其他文本文档多得多的风格和内容。

Web上大量文档并不根据任何有关排列次序加以组织。

（3）Web是一个动态性极强的信息源。

Web不仅以极快的速度增长，而且其信息还

在不断地发生着更新。

（4）Web面对的是一个广泛的形形色色的用户群体。

各个用户可以有不同的背景、兴趣和使用目的。

大部分用户并不了解信息网络结构，不清楚搜索的高昂代价，极容易在“黑暗”的网络中迷失方向，也极容易在“跳跃式”访问中烦乱不已和在等待信息中失去耐心。

（5）Web上的信息只有很小的一部分是相关的或有用的。

据说99%的Web信息相对于99%的用户是无用的。

虽然这看起来不是很明显，但一个人只是关心Web上的很小很小一部分信息确是事实，Web所包含的其余信息对用户来说是不感兴趣的，而且会淹没所希望得到的搜索结果。

这些问题已经推动了如何有效且高效地发现和利用因特网上资源的研究工作。

Web数据挖掘（WebDataMining），简称Web挖掘（WebMining），是数据挖掘技术在Web环境下的应用，是集Web技术、数据挖掘技术、信息科学等多个领域的一项技术。

是从大量的Web文档集合和在站点内进行浏览的相关数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式（Pattern）。

2.5.2WEB数据挖掘的分类

图2-2Web挖掘分类

Web数据有三种类型：

（1）Web内容数据，如HTML标记的Web文档；

（2）Web结构数据，如Web文档内的超链接；

（3）用户访问数据，如服务器log日志信息。

相应地，Web挖掘也分成三类：

Web内容挖掘、Web结构挖掘和Web使用模式挖掘。

Web挖掘分类如图2-2。

Web内容挖掘是指对Web页面内容进行挖掘。

即对Web上大量文档集合的“内容”进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等，是从Web文档内容或其描述中抽取知识的过程。

Web上的数据既有文本数据，也有声音、图像、图形、视频数据等多媒体数据；既有无结构的自由文本，也有用HTML标记的半结构的数据和来自于数据库的结构化数据。

根据处理的内容又可分为基于文本信息的挖掘和基于多媒体信息的挖掘两种数据挖掘方式。

Web文本挖掘和通常意义上的平面文本挖掘的功能和方法相似，但是有其自身的特点。

Web文本挖掘的对象除了平面的无结构的自由文本外，还包含有半结构化的HTML文本。

Web内容挖掘可以直接挖掘文档的内容，也可以在其它系统（如搜索引擎）的检索结果的基础上进行。

多媒体信息的挖掘主要是指音频挖掘、静态图像挖掘和基于视频的动态图像的挖掘。

Web结构挖掘主要是从Web组织结构和链接关系中推导信息、知识。

根据科学引文分析理论，文档之间的互连数据中蕴涵着丰富有用的信息。

在通常的搜索引擎中由于考虑到结构的复杂性，仅将Web看作是一个平面文档的集合，忽略其结构信息。

挖掘页面的结构和Web结构，可以用来指导对页面进行分类和聚类，找到权威页面、中心页面，从而提高检索的性能。

同时还可以用来指导网页采集工作，提高采集效率。

Web结构挖掘分为Web文档内部结构挖掘和文档间的超链接结构挖掘。

Web使用模式挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘，它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式。

Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络的交互过程中抽取出来的第二手数据。

分析这些日志数据可以帮助理解客户的行为，从而改进站点的结构或为客户提供个性化的服务。

通过对电子商务网站应用Web使用模式挖掘技术，可以提高站点的质量，比如，根据实际用户的浏览情况，调整网站网页的连接结构和内容，更好的服务客户；改善Web缓存，缓解网络交通，提高性能；在电子商务中还可以捕捉到大量的采购过程的细节，为更加深入的分析提供了可能，比如，把“购物车”丢弃事件记录下来，经分析至少可知顾客对被丢弃的商品是不感兴趣的。

2.6本章小结

本章先是简单介绍了数据挖掘的产生和发展，然后探讨了数据挖掘的定义，接着具体分析了几种不同的数据挖掘技术，虽然关联规则、聚类、分类、人工神经网络、决策树等方法都属于数据挖掘技术，但它们的确存在着很大的区别，接着还描述了数据挖掘的主要过程，主要是介绍过程中各个步骤的大体内容，最后介绍了Web数据挖掘的概念和分类。

3、在电子商务中应用数据挖掘技术

3.1电子商务与数据挖掘

3.1.1电子商务简介

电子商务是指通过Internet网络以电子数据信息流通的方式在全世界范围内进行并完成的各种商务活动、交易活动、金融活动和相关的综合服务活动。

电子商务已涉及和可以进行的业务包括：

各种数据信息的交换，商家在销售前后向客户提供所销售的产品和服务的有关细节，产品使用的技术指南，回答顾客的询问和意见，销售过程的处理等服务；在交易后采用电子奖金转账，信用卡，电子支票，电子现金等多种方式进行电子支付；对客户所购买的商品进行发送管理和运输跟踪，包括对可以用电子化方式来传送的产品如软件资料等的实际发送；在因特网上组建一个

展开阅读全文