实验二Clementine12购物篮分析关联规则Word文件下载.docx

资源描述

实验二Clementine12购物篮分析关联规则Word文件下载.docx

《实验二Clementine12购物篮分析关联规则Word文件下载.docx》由会员分享，可在线阅读，更多相关《实验二Clementine12购物篮分析关联规则Word文件下载.docx（19页珍藏版）》请在冰豆网上搜索。

实验二Clementine12购物篮分析关联规则Word文件下载.docx

啤酒与尿布这两件看上去不相关的商品常常会出此刻同一个购物篮的现象。

假如这个年青的父亲在卖场只好买到两件商品之一，则他很有可能会放弃购物而到另一家商铺，直到能够一次同时买到啤酒与尿布为止。

沃尔玛发现了这一独到的现象，开始在卖场试试将啤酒与尿布摆放在相同的地区，让年青的父亲能够同时找到这两件商品，并很快地达成购物；

而沃尔玛商场也能够让这些客户一次购置两件商品、而不是一件，进而获取了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。

自然“啤酒与尿布”的故事一定拥有技术方面的支持。

1993年美国学者Agrawal（个人翻译--艾格拉沃）提出经过剖析购物篮中的商品会合，进而找出

商品之间关系关系的关系算法，并依据商品之间的关系，找出客户的购置行为。

艾格拉沃从数学及计算机算法角度提出了商品关系关系的计算方法—Aprior算

法。

沃尔玛从上个世纪90年月试试将Aprior算法引入到POS机数据剖析中，并

获取了成功，于是产生了“啤酒与尿布”的故事。

“啤酒和尿布”的故事为何产生于沃尔玛商场的卖场中？

卖场中“啤酒与尿布”的现象俯拾皆是，为何“啤酒与尿布”的故事只产

生在沃尔玛的卖场中，而不是其余零售门店？

这里有两个原由。

第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强盛支持后

盾。

零售业目前使用的好多新技术都是沃尔玛领先“尝鲜”的，比方沃尔玛最早

在门店试试计算机记账，最早在门店收款台试试使用外形丑恶俗称“牛眼”的条码扫描器进行收款，世界上第一个发射个人通讯卫星等等。

“古人栽树，后代纳凉”，目前运用于门店管理的好多技术手段都是沃尔玛做了“第一个吃螃蟹”的，我们只可是坐收渔利而已。

因为沃尔玛具备先进的技术手段，“啤酒与尿布”的故事在沃尔玛产生就一点也不奇异了。

第二个原由是沃尔玛拥有一双锋利的慧眼。

沃尔玛是一家极其讲究卖场现场

管理的公司，沃尔玛首创人老沃尔顿最大的乐趣就是不断地在卖场巡视，更多地运用自己的双眼而不是数据来发现事实。

所以不可以忽视的是，没有沃尔玛管理人员的慧眼，“啤酒与尿布”的故事也会吞没在大批的零售数据中。

营销界好多人关于“啤酒与尿布”的故事津津乐道，吹嘘得好像发现新大陆

般！

“啤酒与尿布”的故事就是商品交错销售，这种销售现象几乎和人类历史一

样悠长，在先人披着兽皮互换贝壳、粮食、石斧等商品时，他们已经清楚地认识

商品交错销售关于商品交易的重要性，一些聪慧的家伙会采纳各种举措鼓舞客户

多互换一些商品（预计是一袋贝壳加一条鱼换一袋大米）。

“啤酒与尿布”的故事

不过对商品交错销售现象的一种现代解说，其实不是出现“啤酒与尿布”的故事之

后，才存在商品交错销售的现象。

从这个意义上讲，沃尔玛并无发现新大陆，

只可是把我们置若罔闻的现象挖出来，并从中发现了商业价值。

沃尔玛的首创人

老沃尔顿说，retailisdetail（零售就是细节）。

研究商品关系关系的方法就是购物篮剖析，在购物篮剖析方面有两个值得我

们学习的楷模，一个是美国的沃尔玛，另一个是日本的7-11便利店。

相同是购

物篮剖析，沃尔玛重申找出商品之间的关系关系，比方啤酒与尿布，而7-11便

利店的重点在于找出影响商品销售的所有要素，比方碳酸饮料与气温的关系等

等。

换句话说，沃尔玛重点是剖析购物篮内商品之间的关系关系，而日本7-11

便利店的重点是从购物篮外面找影响商品销售的关系关系。

美式购物篮剖析

以沃尔玛为代表的美食购物篮剖析的目标一般是卖场面积巨大，往常都是上

万平方米，商品种类众多，大多在10万种以上，所以要经过购物篮剖析找出吞没在不一样地区商品之间的关系关系，并将这些关系关系用于商品关系陈设、促销等详细工作中，是很难经过人工达成的。

比方啤酒在酒类地区，尿布在婴儿用品地区，两个商品陈设地区相差几十米，甚至可能是“楼上、楼下”的陈设关系，用肉眼很难发现啤酒与尿布存在关系关系的规律。

我们把找出购物篮中商品之间关系的方法称为“美式购物篮”剖析法，这种方法合适应用于近似沃尔玛这样的大卖场，用于找出不一样陈设地区商品之间的

关系。

英国的Tesco连锁商场、Safeway连锁商场也都是这种购物篮剖析的能手。

我们这个课程所主要研究的目标也是这种美食购物篮。

日式购物篮剖析

日本这个国家很奇特，固然身为岛国，可是经济发达。

剖析日式购物篮的确

能够看到日自己在经商方面的奇妙之处。

日本的商场以7-11便利店为典型，7-11

便利店营业面积都很小，一般只有100~250平方米，商品品种3000~10000种，

是典型的“螺蛳壳里做道场”。

如我们在电影或许泡沫剧里面所见，日本好多门店的经营面积狭窄，站在门

店里任何一个角落，所有的商品转个身就全看见了——真切的仰头不见低头见，

所以找出商品关系关系不是日本7-11便利店的重点：

你就是找出来啤酒与尿布

之间有“暗恋”关系，也没用！

因为啤酒与尿布原来就在一同。

自然日本7-11便利店这种有关陈设的故事也是有的，比方荞麦冷面与纳豆、

鱼肉腊肠与面包、酸奶与盒饭等等，可是毕竟起不到主要作用，日本7-11便利

店更关注的是：

●气温由28℃上升到30℃，对碳酸类饮料、凉面的销售量会有什么影响？

●下雨的时候，关东煮的销售量会有什么变化？

●盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户集体？

他们什么时

间到门店买这些商品？

所以，日自己的重点是剖析所有影响商品销售的关系要素，比方天气、温度、

时间、事件、客户集体等，这些要素我们称为商品有关性要素。

日自己关于所有影响商品销售的关系要素研究得特别透辟，因这天本就会有

气温-碳酸饮料指数、空调指数、冰激凌指数，所以就不难理解为何7-11便利

店会设置特意的气象部门，所以更能够理解为何日本7-11便利店会要求门店

每日5次将门店内外的温度、湿度上传回总部，供总部与商品销售进行对照剖析。

与商品之间的关系关系对比，日本7-11便利店认为这些关系要素更重要。

因为这是日本7-11便利店大批采纳的方式，我们也称为“日式购物篮”剖析法。

“啤酒和尿布”故事包含什么样的含义？

沃尔玛的“啤酒与尿布”的故事实质上向我们揭露了零售业将来的赢利及生

存模式。

他突显了零售卖场中一个崭新的管理理念，即商品之间是拥有关系关系的，发现并利用这些商品之间的关系关系，能够在没法大幅增添门店客户数的前

提下，经过增添购物篮中的商品数目达到增添销售额的目的，进而获取更大的经营利润。

启迪一：

购物篮大于商品

有在零售业工作经验的朋友都知道，老板查核大家的主要指标是商品销售

额，你的薪资袋取决于商品的销售额。

老板会将商品销售指标下发到个人，每个

人都只会关注自己的“一亩三分地”，卖啤酒的尽管闷头卖啤酒，卖尿布的尽管闷头卖尿布，每个柜台尽管自己的商品能否能进入客户手中的购物篮。

卖啤酒的

不关怀购物篮中的尿布，卖尿布的也冷视购物篮中的啤酒，只需别漏了自己柜台的东西就行了，因为漏了自己的商品，这个月的奖金就没了，人人只扫门前雪，

长此过去商铺的整体效益自然不会好了，效益不好就要减员，大家都没好果子吃。

反观沃尔玛的卖场管理系统中，购物篮是主要的管理对象，而不不过是商品。

为何沃尔玛会以购物篮为管理重点？

沃尔玛认为商品销售量的冲刺不过

短期行为，而零售公司的生命力取决于购物篮。

一个小小的购物篮表现了客户的真切花费需乞降购物行为，每一只购物篮里都储藏着太多的客户信息。

零售业的主旨是服务客户，沃尔玛认为商铺的管理中心应当是以购物篮为中心的顾客经营模式，商品排名只好表现商品自己的表现，而购物篮能够表现客户的购置行为及花费需求，关注购物篮能够使门店随时掌握客户的花费动向，进而使门店一直与客户保持一致。

启迪二：

购物篮方面的差距

购物篮的表现形式就是我们常说的“客单价”，客单价的高低直接反应了零

售公司的经营效益。

依据AC·

尼尔森2006年对国内零售公司的检查发现，从

周一到周五正常工作日，相同一个万米经营面积的大卖场，国内卖场的均匀客单

价是29元，家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元，好又

多、大润发、乐购等台资卖场客单价为50元。

到了周末（周六、周日）的差距更

大，国内卖场客单价为35元，台资卖场客单价为80元，外资卖场能够达到149

元，这就是我们国内公司在购物篮方面的差距。

我们知道，销售额=客单价×

客流数。

在相同客流量的状况下，我们的公司因为客单价低，已经先失一着，销售业绩要比外资公司低200％，比台资公司低60％。

其余，销售额低会带来好多问题，比方毛利额低、通道费低、与供给商的

话语权降低，甚至会直接影响到公司的生计。

所以，要想提高商业公司的销售业绩，一定改良公司购物篮，全面提高客单价，能够说零售公司的购物篮代表了公司的生计权！

另占有关报导，客户到家乐福卖场的年均匀购物频度只有9.8次，可是在快

速花费品的市场份额却比年均匀客户购物频度高达51次的华润苏果超出

％，家乐福、沃尔玛、易初莲花等外资零售公司不过利用客户几次上门购物

的时机，就获取了远比国内零售同行高好多的快速花费品市场份额。

特别要注意的是，沃尔玛、欧尚等外资零售公司在国内只有区区的十几家门

店，竟然占有了特别大的市场份额，充足显示了这些外资零售公司在购物篮方面

的确有“高招”。

“啤酒与尿布”故事的依照是商品之间的有关性（也称关系性，英文名称为

associationrule），商品有关性是指商品在卖场中不是孤立的，不一样商品在销售中

会形成互相影响关系（也称关系关系），比方“啤酒与尿布”故事中，尿布会影响啤酒的销量。

在卖场中商品之间的关系关系俯拾皆是，比方咖啡的销量会影响到咖啡伴侣、方糖的销售量，牛奶的销量会影响面包的销售量等等。

所谓事物之间的有关性是指当一个事物变化时，另一个事物也会发生变化。

当事物之间的变化是互相抵消的，比方猪肉价钱上升、猪肉销量降落，我们称这种有关性是负有关；

当事物之间的变化表现同一个方向发展时，比方气温上升、冷饮销量也上升，我们称这种有关性是正有关。

有些事物的有关性不言而喻，有些则不是那么显然。

美国华尔街股票剖析师将女性超短裙的长度与道琼斯股票指数成立了关系，超短裙的长度与股票指数成反比趋向，听说十分灵验，这就是有关性在生活中的各种表现。

商铺中的关系性更是俯拾皆是，比方烟酒销售的关系关系：

当门店邻近有建筑工地时，低档烟、酒的销售就会上升；

当邻近有高档社区时，中华烟、葡萄酒

的销售量就会上升。

提到商品有关性，好多人认为就是数据剖析的事儿，其实关于商品有关性来说，更重要的是客户心理层面的要素，毕竟是人在提着购物篮，而不是猴子。

客户在购物时的心理行为是产生商品之间关系关系最基本的原由，所以在找到购物篮规律时，一定要从客户消操心理层面解说这些关系关系，不然“啤酒与尿布”会永久逗留在啤酒与尿布两个商品身上，而没有任何的推行意义。

要想详尽认识商品有关性形成的客户心理要素，要进行大批的客户花费行为察看，建立客户购物篮场景，才可使“啤酒与尿布”的故事弘扬光大。

二、关系规则的观点

关系规则发掘发现大批数据中项集之间风趣的关系或有关系系。

它在数据挖

掘中是一个重要的课题，近来几年已被业界所宽泛研究。

关系规则发掘的一个典型例子是购物篮剖析。

关系规则研究有助于发现交易

数据库中不一样商品（项）之间的联系，找出顾客购置行为模式，如购置了某一商

品对购置其余商品的影响。

剖析结果能够应用于商品货架布局、货存安排以及根

据购置模式对用户进行分类。

Agrawal等于1993年第一提出了发掘顾客交易数据库中项集间的关系规则

问题，此后诸多的研究人员对关系规则的发掘问题进行了大批的研究。

他们的工作包含对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法发掘规则的效率；

对关系规则的应用进行推行。

近来也有独立于Agrawal的频集方法的工作，以防止频集方法的一些缺点，探究发掘关系规则的新方法。

也有一些工作着重于对发掘到的模式的价值进行评

估，他们提出的模型建议了一些值得考虑的研究方向。

关系规则发掘能够发现存在于数据库中的项目或属性间的风趣关系，这些关

系是早先未知的或许被隐蔽的。

为了正确描述关系规则发掘问题，需要给出关系规则发掘问题的正式定义，下边用事务数据库来定义关系规则。

设D交易（transaction）T的会合，D{t1,t2,,tn}，这里交易T是项的会合，

能够表述为：

T{t1,t2,,tP}而且TD。

T中的元素ij{j1,2,,p}称为项。

对应每一个交易有独一的表记，如交易号，记作TID。

设I{i1,i2,,im}是数据

集中所有项的会合，I是二进制文字的会合。

I中的任何子集称为项目集

（itemset），若|X|k，则称会合X为K项集。

设tk和X分别为D中的事务和项

目集，假如Xtk，称事务tk包含项目集X。

项目集X的支持率support（X）,若

support（X）不小于用户指定的最小支持率（记作：

minsupport），则称X为屡次项目

集，不然称X为非屡次项目集。

设X，Y是数据集D中的项目集。

若XY，

则support（X）support（Y）；

若XY，假如X是非屡次项目集，则Y也是非频

繁项目集；

若XY，假如Y是屡次项目集，则X也是屡次项目集。

一个关系规则是形如XY的蕴涵式，这里X，Y都是项目集，且XC1，

Y1，而且XIY，X，Y分别称为关系规则XY的前提和结论。

一般使用支持度（support）和置信度（confidence）两个参数来描述关系规

则的属性。

（1）支持度

规则XY在数据库D中的支持度（support）是交易集中同时包含X，Y的

事务数与所有事务数之比，记为support（XY）support（XY）。

支持度描

述了X，Y这两个项集在所有事务中同时出现的概率。

（2）置信度

规则XY在事务集中的置信度（confidence）是指同时包含X，Y的事务数与包含X的事务数之比，它用来权衡关系规则的可信程度。

记为

confidence（XY）＝support（X

Y）。

support（X）

一般状况下，只有关系规则的置信度大于希望可信度，才说明X的出现对Y

的出现有促使作用，也说了然它们之间的某种程度的有关性。

给定一个事务集D，发掘关系规则的问题就是产生支持度和置信度分别大于用户早先给定的最小支

持度和最小置信度的关系规则。

关系规则发掘的任务就是要发掘出D中所有的强

规则XY。

强规则XY对应的项目集（XY）必然是屡次项目集，屡次项

目集（XY）导出的关系规则XY的置信度可由屡次项目集X和（XY）的

支持度计算。

所以，能够把关系规则发掘区分为两个子问题：

一个是找出所有的

屡次项目集：

即所有支持度不低于给定的最小支持度的项目集。

另一个是由屡次

项目集产生强关系规则：

即从第一个子问题获取的屡次项目集中找出置信度不小

于用户给定的最小置信度的规则。

此中，第一个子问题是关系规则发掘算法的核

心问题，是权衡关系规则发掘算法的标准。

三、Apriori算法

关系规则的算法相当多，此中经典算法Apriori是最有影响的发掘布尔关系

规则屡次项目集的算法，同时大多半关系规则算法也都是经典算法Apriori的演

绎和改良。

Apriori算法是经过有候选项集的方法来产生屡次项集，它的中心思

想：

任何屡次项集的所有子集必定是屡次项集。

在Apriori算法中，遍历数据库，获取大一项集F1。

假如F1非空，由F1产生

长度为2的候选项会合C2，对事务办理数据库中的每一个事务t，求出t在C2中

的所有子集Ct，关于Ct中的每一个长度为2的候选用项集c，令c的计数c.count

加1。

当扫描事务办理数据库一遍后，挑选用出候选项会合C2中所有计数知足最小支持度的项集构成了长度为2的屡次项会合。

用以上步骤重复办理新获取的频

繁项会合，直到没有屡次项会合产生。

在这里，因为从候选项集中产生屡次项集的过程需要遍历数据库，所以怎样

正确地产生最少量目的候选项集十分重点。

候选项集产生的过程Apriori-

gen（Fk-1）被分为两个部分：

结合与剪技。

采纳这种方式，使得所有的屡次项集既不会遗漏又不会重复。

剪枝的目的是减少扫描数据库时需要比较的候选项集的数

量。

剪枝的原则是：

候选项集C的k个长度为k1的子集都在Fk1中，则保存C；

不然C被剪枝。

Apriori算法的描述以下。

输入：

①事务数据库D；

②最小支持度阀值min_sup。

输出：

D中的屡次项集L。

方法：

第1步产生屡次项集

第2步产生屡次k（2end）项集

产生屡次候选k项集

由屡次k1项集连结成为k项集

检测k项集的所有的k1子集能否为屡次项集，假如该k项集就

成为了屡次候选项集

扫描事务数据库D对每个候选k项集计数

达到最少支持度的屡次候选k项成为屡次k项集。

四、Clementine购物蓝剖析

本次实验是以clementine软件中间的数据为数据根源睁开数据发掘工作的，数据样本为Demos文件夹里的文件，数据量为一千余条，保证了实验结果的依照性和靠谱性。

实验的目的是鉴于关系规则，利用clementine实现市场购物篮剖析。

SPSSClementine支持标准化的数据发掘流程，此刻将从此中的数据理解、

数据准备、成立模型等几个方面进行本课题的研究。

下列图1是整个数据流的图形：

图1整体数据流

此次实验的研究方法能够归纳为如图2.

方法步骤数据发掘模式探究

数据集成

顾客基本信息

GRI模型

购置商品信息

关系规则成立

Rul

不一样商品之间

能否有关系

Web图形

商品与客户群

C5.0模型客户群分类性别年纪能否有关系

图2研究方法流程

4.1数据理解阶段

数据准备是整个数据发掘过程的重要部分，数据质量越高，发掘结果正确性

越高。

第一选择“数据源”选项卡里面的固定文件节点，将其增添到数据流区，并导入文件数据。

此时能够用“输出”选项卡里的表结点与数据文件连结，查察数据的状况。

数据中间18个变量的状况可见下表1.

表1研究数据字段说明

序号

字段名

字段含义

字段取值

Cardid

购置此篮商品的客户的忠

正整数

诚卡表记符

Value

购物篮的总购置价钱

正数

pmethod

购物篮的支付方法

CASH/CHQUE/CARD

Sex

性别

F/M

homeown

卡拥有者能否拥有住宅

T/F

Income

收入

Age

年纪

Fruitveg

果蔬

freshmeat

鲜肉

Dairy

乳制品

cannedveg

罐装蔬菜

cannedmeat

烤肉

frozenmeal

冻肉

Beer

啤酒

Wine

酒

Softdrink

饮料

Fish

鱼

confectionery

糖果

在上述数据中间，1-7属于顾客信息，8-18属于购物篮订单的信息，每一个字段都属于一个订单项。

4.2数据准备阶段

在数据表中间既无缺失值，又无数据重复性的问题出现，所以不需要对源数据做过多的数据过滤和预办理过程。

考虑到数据属性关于数据发掘建模的影响，需要对数据的方向属性做改正，此时可增添“种类”节点，让数据源固定文件节点连结到“种类节点”。

种类节点使用：

使用Clementine种类节点能接见每个字段的属性，能够很便利地扩大脚本内容以列出种类节点中显

展开阅读全文