电子商务网站Web点击流分析初稿.docx

上传人:b****7 文档编号:10090907 上传时间:2023-02-08 格式:DOCX 页数:37 大小:414.84KB
下载 相关 举报
电子商务网站Web点击流分析初稿.docx_第1页
第1页 / 共37页
电子商务网站Web点击流分析初稿.docx_第2页
第2页 / 共37页
电子商务网站Web点击流分析初稿.docx_第3页
第3页 / 共37页
电子商务网站Web点击流分析初稿.docx_第4页
第4页 / 共37页
电子商务网站Web点击流分析初稿.docx_第5页
第5页 / 共37页
点击查看更多>>
下载资源
资源描述

电子商务网站Web点击流分析初稿.docx

《电子商务网站Web点击流分析初稿.docx》由会员分享,可在线阅读,更多相关《电子商务网站Web点击流分析初稿.docx(37页珍藏版)》请在冰豆网上搜索。

电子商务网站Web点击流分析初稿.docx

电子商务网站Web点击流分析初稿

存档编号

 

赣南师范学院学士学位论文

 

电子商务网站Web点击流分析

 

教学学院数学与运算机科学学院

届别2011届

专业网络工程

学号070705047

姓名叶继萍

指导教师王敏

完成日期

 

电子商务网站Web点击流分析

摘要:

随着互联网的迅猛进展,其应用范围愈来愈广,极大的增进了电子商务网站的交易量、提高了电子商务网站的访问数。

而且随着网络信息量的增大,针对电子商务环境中海量数据的有效分析,传统的处置方式大多是采纳web数据分析工具结合一些挖掘算法来对数据进行分析,如日记分析工具能够对网站运行的大体数据进行统计,包括网站每小时、天天的流量、参考URL、参考主机和页面装载情形等,可是这种方式的缺点也是很明显的,单一的数据来源和分析工具本身有限的功能使其不能专门好的分析用户行为。

在以数据仓库存储的基础上,不仅包括了传统的来源于web日记的点击流信息,还能够整合企业已有的客户信息资源(比如客户的注册信息、客户参与的网站的问卷调查等),而且能够利用更好更有效的技术对web数据进行分析,除能够利用传统的数据挖掘(DM,DataMining)技术,还能够采纳针对多维数据的联机分析处置(OLAP,OnLineAnalyticalProcessing)技术,和构建在DM和OLAP技术之上的联机分析开采(OLAM,OnLineAnalyticalMining)技术对整合后的数据进行挖掘分析,从而取得对企业加倍有价值的商业信息。

将Web数据集成到企业的数据仓库中去,以便更好地支持企业的经营决策和联机分析处置,是当前数据库研究的一个热点。

随着电子商务的飞速进展,电子商务对企业的经营活动开始产生庞大的阻碍。

电子商务慢慢成为企业市场销售和客户效劳的一个重要渠道。

商业网站等获利性站点需要依照网站的点击流来分析用户的适应和爱好,以提供更中意的效劳使得利润最大化,它也与提高网站效劳的效率和个性化程度极为相关。

关键词:

电子商务网站点击流数据仓库AnalysisServiceETL

Abstract:

WiththerapiddevelopmentofInternetanditsincreasinglywiderangeofapplications,agreatdealtopromotee-commercewebsite,improvingaccesstothenumberofe-commercesite.Andwiththeincreasingamountofinformationandnetworking,e-commerceenvironmentfortheeffectiveanalysisofhugeamountsofdata,mostofthetraditionalapproachistousedataanalysistoolswithanumberofwebminingalgorithmtoanalyzedata,suchasloganalysistoolscanrunonthesiteThebasicdataforstatistics,Includingthesitehourly,dailytraffic,thereferenceURL,refertothehostandpageloadingandsoon,butthedisadvantageofthismethodisalsoveryobvious,singlesourceofdataandanalysistoolitselfisnotlimitedtoaverygoodanalysisoffunctionaluserbehavior.Basedonthedatawarehousestoring,Includesnotonlythetraditionalclickstreamfromthewebloginformation,youcanalsointegratecustomerinformationresourcescompanieshad(Suchascustomerregistrationinformation,customerparticipationinthesitesurvey,etc.)Andtheabilitytousetechnologybetterandmoreefficientwebdataanalysis,Inadditiontousingtraditionaldatamining,Multi-dimensionaldatacanalsobeusedforonlineanalyticalprocessing.AndOLAPtechnologybuiltontopofDMandonlineanalyticalminingAndOLAPtechnologybuiltontopofDMandonlineanalyticalminingtechnologyonintegrateddatamininganalysis.Tohelptheenterprisetogetmorevaluablebusinessinformation.

Webdataintothedatawarehousetotheenterpriseinordertobettersupporttheenterprisebusinessdecision-makingandonlineanalyticalprocessing,iscurrentlyahotresearchdatabase.Withtherapiddevelopmentofe-commerce,

E-commerceonenterprises'businessactivitiesbegantoproducegreatimpact.E-commercegraduallybecometheenterprisemarketsalesandcustomerserviceisanimportantchannel。

Commercialwebsitesnon-profitsiteneedaccordingtothewebsiteofclickstreamtoanalyzetheuser'shabitsandhobbies,soastoprovideamoresatisfactoryservicemakestheprofitmaximization,italsoandimprovingtheefficiencyandpersonalizedwebsiteextremelyrelevantdegree.

Keywords:

e-commercesiteClickstreamDataWarehouseAnalysisServiceETL

1绪论

中国互联网络信息中心(CNNIC)在京发布的《第27次中国互联网络进展状况统计报告》显示,截止2020年12月,中国的网站数(包括境内接入和境外接入)减少到191万个,年降幅41%。

另外,自2003年开始,中国的网页规模大体维持翻番增加,2020年网页数量达到600亿个,年增加率达78.6%。

说明愈来愈多的网站充满着网络,电子商务网站的竞争压力也愈来愈大,用户对网站的效劳质量要求愈来愈高,商业网站等获利性站点为了提高效劳质量以获取用户的中意,网站的治理工作也慢慢需要从盲目走向科学,这需要通过度析用户的点击流数据来提供更中意的效劳以便获取最大的利润,它也与提高网站效劳的效率和个性化程度极为相关。

电子商务是现代商业模式,数据挖掘是先进的信息处置技术。

随着电子商务进展的势头愈来愈强劲,面向电子商务的数据挖掘将是一个超级有前景的领域。

它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来庞大的商业利润,能够为企业创建新的商业增加点。

点击流分析目的是搜集真实的行为,来试图推测用户的用意。

把点击流数据引入数据仓库能够预测用户行为的数据模型,有效提高系统的人性化。

点击流数据仓库的成立完全遵从传统数据仓库成立的原那么,其优势源于点击流数据是一种真正改良了的数据资源集,加上数据仓库系统本身的成熟应用,使点击流数据仓库具有其他方式或工具无法比拟的优势。

点击流数据仓库能够说是数据仓库方面最令人兴奋的新进展,它把传统企业用于决策的支持体系应用到互联网那个高速进展的平台。

随着Web应用的进一步展开,数据仓库在电子商务中的应用也会进一步深切,并更好地支持商务决策。

国内外研究现状

互联网的快速进展,使得对用户访问web站点产生的一系列web数据的分析的需求也愈来愈迫切,许多国家把这方面的研究作为重点资助科研项目之一。

国外在web数据挖掘方面的研究相对较早。

早在1966年,就有学者M.S.Chen、H.Mannilat、T.Yan提出来能够将数据挖掘方式用于web研究领域;1997年D.S.W.Ngu和X.Wu等人研究了SiteHelper系统;BuehnerAG,MuvennaMD等人第一次提出将数据挖掘技术应用于电子商务的环境下,以发觉市场智能;Chen.Ms,Park.Js,Yu.ps等人把web日记数据映射到关系表中,然后应用标准的数据挖掘方式发觉用户迁移模式;Hall等人还将web效劳器日记保留为数据立方体,然后在其上执行OLAP的各类操作,如提升、钻取等,用于发觉用户的访问模式;ShaIlabi等人提出的日记挖掘系统依托于客户端的数据搜集,客户端的代理为效劳器返回用户请求的页面及时刻等数据。

在法、德等欧洲国家,电子商务所产生的营业额已占商务总额的1/4,在美国那么已高达1/3以上,而欧美国家电子商务的开展也只是才十几年的时刻。

在美国,美国在线(AOL)、雅虎、电子港湾等闻名的电子商务网站在1995年前后开始赚钱,到2000年制造了7.8亿美元,IBM、亚马逊书城、戴尔电脑、沃尔玛超市等电子商务公司在各自的领域更是取得了令人难以想象的巨额利润。

另外,最近几年也显现了一些能够商用化的web数据分析工具,如比较流行的流量统计工具GoogleAnalysis,确实是由Google公司研发的一款精致的、功能壮大的web分析工具,目前它的流量分析功能够知足大多数网站的需求。

同时为了较好的整合伙源为web数据分析提供加倍完整的数据源,国外也接踵显现了很多这方面的高作:

Inmon在《电子商务的数据仓库技术》一书中论述了为实现电子商务条件下的分析性应用成立数据仓库;Sweiger等在《点击流数据仓库》一书中详细论述了点击流数据仓库中的数据来源、数据获取中的难点等问题并提出完整点击流数据仓库的多维数据仓库设计;Kimball在《数据仓库工具箱:

维度建模的完全指南》顶用了较多的例子详细介绍了web数据仓库维度建模的方式(涵盖了零售、库存、采购、教育、卫生和电子商务等多个方面),他在与Merz合著的《W曲数据仓库构建指南》一书中也对构建web数据仓库的难点和存在的问题进行了论述。

由于起步较晚,与国外相较,国内在数据仓库和数据挖掘方面的研究有着较大的差距。

若是说美国电子商务是“商务推动型”,那么中国电子商务那么更多的是“技术拉动型”,这是在进展模式上中国电子商务与美国电子商务的最大不同。

在美国,电子商务实践早于电子商务概念,企业的商务需求“推动”了网络和电子商务技术的进步,并促成电子商务概念的形成。

当Internet时期到来的时候,美国已经有了一个比较先进和发达的电子商务基础。

在中国,电子商务概念先于电子商务应用与进展,“启蒙者”是IBM等IT厂商,网络和电子商务技术需要不断“拉动”企业的商务需求,进而引致中国电子商务的应用与进展。

了解这一不同点是很重要的,这是中国电子商务进展的一大特点,也是明白得中国电子商务应用与进展的一把钥匙。

时至今日,也涌现了诸如阿里巴巴(淘宝),易趣,铛铛网等大型的B2B、C2C型的电子商务公司。

目前从事这方面研究的人员要紧在大学和一些研究机构,而且大多集中于挖掘算法的研究、数据仓库与数据挖掘的实际应用,和相关理论方面的研究,尚未显现像国外那样适于商用化的软件产品,而在web数据仓库和web数据挖掘方面的研究更是处于比较掉队的时期,数据的搜集和分析都没有达到能支持网站经营者做出决策的境界。

因此,对该方面的研究在国内仍然有专门大的空间和专门好的应用前景。

2Web点击流和数据挖掘的概念

2.1Web点击流概述

电子商务网站天天都产生大量的数据,访客点击网站产生这些数据被称作点击流数据。

它们中包括很多对企业超级有效的信息,例如客户的来源、客户的行为、客户的爱好等。

对这些数据进行有效的分析,不但能够对电子商务网站的建设起到指导作用,增强网站的粘着度,而且也能够反映出企业在市场、销售、效劳和财务等方方面面的状况。

总之,对这些数据深层次分析,能够使电子商务网站的拥有者改善客户关系、充分提高企业在市场销售和效劳等方方面面的质量。

分析这些点击流数据,即点击流分析,所需要的技术包括数据仓库、数据挖掘和CRM2等。

利用这些技术将市场、销售、效劳协同起来,可为企业带来更大的经济效益。

点击流分析不仅是电子商务企业在竞争中取胜的重要手腕,而且也是传统企业在竞争中取胜的有力武器。

传统企业利用对企业电子商务网站上的点击流数据的分析及时了解客户信息,从而为企业的市场销售效劳。

此刻点击流数据与客户信息的整合已成为WEB数据分析的最新前沿。

点击流分析法是Web访问信息挖掘的方式之一。

点击流分析以上的点击流数据为基础,利用数据挖掘等技术对数据进行分析来达到不同的目的。

它通过度析搜集到的用户在站点上运动情形,跟踪记录访问过的链结点,包括用户的来源地址、阅读站点的线路和最终抵达的目标,链接分析包括对点击过的链接的观看、它们在屏幕上的相关位置、用户在网页上停留的时刻和点击过的链接间的关系和最终结果。

通过对这些数据的有效分析,不但能够对网站的建设起到指导作用,而且也能够反映出企业在市场、销售、效劳等方方面面的状况。

点击流分析已经成为企业了解经营状况,了解客户行为的有效工具。

在电子消费方面,能够从行为上的不同表现来分辨重要客户、偶然客户和潜在客户;在Internet内联网建设和治理中,依照用户获取的信息可分析出用户的爱好和爱好,例如该用户所访问网页频率最高的特点字或关键字,最受该用户欢迎站点等,据此能够分析网内用户的不同行为表现,正确引导用户行为的健康进展。

网站的数据挖掘

点击流数据仓库的介绍

为点击流分析而成立起的数据仓库称为点击流数据仓库。

数据仓库,英文名称为DataWarehouse,可简写为DW。

数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”一书中所提出的概念被普遍同意——数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳固的(Non-Volatile)、反映历史转变(TimeVariant)的数据集合,用于支持治理决策(DecisionMakingSupport)。

关于数据仓库的概念,能够从两个层次明白得:

第一,建设数据仓库系统的目的在于支持决策,面向分析型数据处置,它不同于企业现有的操作型数据库;第二,数据仓库是对多个异构的数据源有效集成,集成后依照主题进行重组,并包括历史数据,而且寄存在数据仓库中的数据一样再也不修改。

依照数据仓库概念的含义,数据仓库具有以下四个特点[1]:

◆面向主题:

操作型数据库的数据组织面向事务处置任务,各个业务系统之间各自分离,而数据仓库中的数据是依照必然的主题域进行组织的。

◆集成的:

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上通过系统加工、汇总和整理取得的,必需排除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

◆相对稳固的:

数据仓库的数据要紧供企业决策分析之用,所涉及的数据操作主若是数据查询,一旦某个数据进入数据仓库以后,一样情形下将被长期保留,也确实是数据仓库中一样有大量的查询操作,但修改和删除操作很少,通常只需要按期的加载、刷新。

◆反映历史转变:

数据仓库中的数据通常包括历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个时期的信息,通过这些信息,能够对企业的进展历程和以后趋势做出定量分析和预测。

数据仓库和数据挖掘是两项不同的技术。

数据仓库是区别于数据库的一种新的数据存储形式,它将数据库中的数据按决策需求进行从头组织,以多维空间结构形式存储数据。

数据挖掘是从数据库中发觉知识的核心技术,它是从人工智能的机械学习中进展起来的。

尽管数据仓库和数据挖掘是两项不同的技术,可是它们又有一起的地方,二者都是在数据库的基础上进展起来的,它们都是决策支持新技术。

数据仓库利用综合数据取得宏观信息,利用历史数据进行预测;而数据挖掘是从数据库中挖掘知识,也用于决策分析。

尽管数据仓库和数据挖掘支持决策分析的方式不同,可是它们完全能够结合起来,提高决策分析的能力。

大量的数据仓库已经把数据挖掘技术作为它的前端分析工具,以提高数据仓库的决策分析能力。

数据仓库系统是一个信息提供平台,他从业务处置系统取得数据,要紧以星型模型和雪花模型进行数据组织,并为用户提供各类手腕从数据中获取信息和知识。

从功能结构化分,数据仓库系统至少应该包括数据获取(DataAcquisition)、数据存储(DataStorage)、数据访问(DataAccess)三个关键部份。

企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积存为基础。

数据仓库不是静态的概念,只有把信息及时交给需要这些信息的利用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才成心义。

而把信息加以整理归纳和重组,并及时提供给相应的治理决策人员,是数据仓库的全然任务。

因此,从产业界的角度看,数据仓库建设是一个工程,是一个进程。

以下图是数据仓库系统结构图:

  

 一个完整的数据仓库系统包括几个部份:

源数据、ETL、数据仓库、多维数据集、前端工具,元数据。

其结构如上图所示。

 ――源数据:

数据仓库的源数据范围很普遍,能够是事务系统数据库的数据,也能够是文件。

――ETL:

ETL是Extraction、Transfromation、Load的缩写,即数据的抽取、转换、装载。

是在数据仓库的实现和运行进程中,将数据由数据源系统向数据仓库加载的要紧进程。

――数据仓库数据库:

依照星型或雪花模式设计的用于存储整理后数据的关系型数据库。

它是多维数据集的数据基础。

――多维数据集:

面向OLAP分析的一种多维结构的数据存储。

它由维度和气宇值的集合进行概念。

――OLAP:

联机分析处置,是基于数据仓库上的一种多维数据分析技术。

OLAP委员会对OLAP的概念是,使分析人员、治理人员或执行人员能够从多种角度对从原始数据转换而来的、能够真正为用户所明白得的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而取得对数据更深切的明白得的一类软件技术。

――数据挖掘:

是一种利用各类分析工具在海量数据中发觉模型和数据间关系的技术,这些模型和关系能够用来做出预测。

――前端展现:

将数据仓库中数据的分析结果展现给用户的技术。

――元数据:

简单的说是关于数据的数据。

在数据仓库中元数据是概念数据仓库对象的数据。

包括数据仓库表结构、表属性;数据仓库的源数据;从源数据到数据仓库的映射等。

点击流数据仓库与传统的数据仓库不同。

第一是数据不同,点击流数据仓库的数据源更丰硕,它除包括传统数据仓库的数据源外还包括网站的日记文件;它包括的一些新的维,如页面(Page)、会话(Session)、参考(Referrer)是传统数据仓库所不具有的。

第二点击流数据仓库包括了一些新的基于网页的技术和底层结构。

点击流数据仓库与网站日记分析工具不同。

日记分析工具能够专门好的对网站运行的大体数据进行统计。

包括,网站每小时、天天的流量、参考(Referring)URL,参考(Referring)主机,页面装载情形等。

但是日记分析工具没有涉及一个网站统计的重要内容――访问网站的用户行为分析。

关于一个运行在线商务的电子商务网站来讲,仅仅有网站流量统计是不够的。

而成立点击流数据仓库的目的正是通过用户行为分析来推动网站的商务进展。

通过点击流数据仓库的分析通常能够回答以下问题:

一个网站最受欢迎的页面是哪个,最受欢迎的产品是什么;来访者从哪来,去了哪里,他们在该网站停留了多长时刻;网站哪里多余或很少有人访问;有购买行为的会话占总会话的百分比;哪个页面是会话‘杀手’;来访者利用什么类型阅读器或操作系统;他们阅读本网站的途径;来访者的身份如,来自哪个国家,什么机构;等等。

而上述的初步分析,能够进一步为市场分析、销售分析、网站治理、CRM等分析治理提供分析数据。

数据挖掘

数据挖掘(DataMining),确实是从寄存在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有效的、最终可明白得的模式的非一般进程。

数据挖掘,在人工智能领域,适应上又称为数据库中知识发觉(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发觉进程的一个大体步骤。

知识发觉进程以下三个时期组成:

(1)数据预备,

(2)数据挖掘,(3)结果表达和说明。

数据挖掘能够与用户或知识库交互。

  并非所有的信息发觉任务都被视为数据挖掘。

例如,使用数据库治理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,那么是信息检索(informationretrieval)领域的任务。

尽管这些任务是重要的,可能涉及利用复杂的算法和数据结构,可是它们要紧依托传统的运算机科学技术和数据的明显特点来创建索引结构,从而有效地组织和检索信息。

尽管如此,数据挖掘技术也用来增强信息检索的能力。

因此,成立面向点击流的数据仓库,己成为点击流数据分析中的一个大体而重要的环节。

数据挖掘原理利用数据挖掘方式发觉包括网页内容、页面之间的结构、用户访问信息、电子商务信息在内的各类网络资源中的有效知识,帮忙人们熟悉网络、改良网络设计,更好地为用户效劳。

图:

web点击流分析

图中简要给出Web点击流分析模型的结构和各部份的功能:

数据预备模块:

借助用户在Web站点上的行为数据源信息,对用户信息进行预处置,输出适合于行为分析的用户会话文件和事务文件。

数据挖掘模块:

对会话文件进行数据挖掘后,输出用户范文的频繁项目集、关联规那么和频繁访问途径;同时对事务文件挖掘后,发觉用户访问站点的事物聚类和URL页面聚类。

推荐引擎:

这是在线执行的模块,它把Web效劳器记录的活动用户的阅读行为与发觉的模式进行匹配,计算出下一步可能访问的页面,依据得分排序后,附在现行请求页面后,提供给用户。

前两个模块主若是为了发觉用户阅读行为的模式,没必要在线执行,依照需要能够一个月或更长时刻执行一次。

数据挖掘在电子商务中的应用

———降低运营本钱,提高企业

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 公务员考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1