超市内的数据挖掘应用.docx

资源描述

超市内的数据挖掘应用.docx

《超市内的数据挖掘应用.docx》由会员分享，可在线阅读，更多相关《超市内的数据挖掘应用.docx（8页珍藏版）》请在冰豆网上搜索。

超市内的数据挖掘应用.docx

超市内的数据挖掘应用

作者：

ZhuJianqiu 来源：

不详发布时间：

2005-11-2

POS机（checkoutscanner）最初用途是纯粹的基于操作上的方便，它的优点是可以集中设置价格，价格改变时，不用对货架上每个商品进行修改。

但是，客户对不明确标价的商品一般不买，所以最初集中设置价格的方便没有实现。

然而，在增加付帐速度，精确定价，库存控制方面起到很大的作用。

POS

首先讨论超市在将来有望成为一个信息中介商，接着介绍了三个案例。

每一个案例都演示了数据挖掘技术在该行业内的用途。

第一个案例描述如何使用汇总的、匿名的交易数据和外部

第二个案例显示了忠诚卡如何和个人消费联系起来，定位基于客户行为的目标市场。

第三个案例显示了如何使用直接和间接的数据挖掘技术（包括关联规则、自动聚集检测、决策树）来鉴别能够赢利的客户分片。

机另外一个重要的作用，开始没有被注意到，那就是产生了大量的数据 GB/TB。

这一讲探索如何利用这些数据。

demographic信息一起，研究和比较不同人种的购买行为。

行业发展趋势

零售业刚开始明白他们收集信息的真正价值，这可以参照其他行业，比如信用卡行业。

信用卡行业与零售业类似，它们收集了客户购买商品的信息，这些信息可以以其他形式卖给需要针对单个客户进行市场定位的公司。

超市收集的数据使得零售商有机会改变和品牌供应商之间的能力平衡。

POS系统所收集的数据能够回答供应商（如P&G保洁,CocaCola可口可乐,Pesi百事等等）一个问题，这个问题是供应商非常希望得到回答的：

谁在购买这种品牌的商品？

这就是我们通常所说的，知识就是力量。

“谁正在买什么？

”这种知识使得零售商有能力成为信息中介商。

　超市作为信息中介

信用卡公司作为信息中介的例子：

客户得到了某航空公司提供的免费飞行里数，该客户有经常飞行的记录，但并不经常搭乘该航空公司的班机，为什么？

客户为了得到这种优惠（免费飞行），必须填写一张清单，简单地注明所使用的信用卡。

航空公司并不能直接向信用卡公司购买这些客户的姓名和地址等信息。

因为信用卡公司必须保护客户的隐私权。

那么，信用卡公司如何进行信息中介的呢？

信用卡公司采取另外一种方式，允许航空公司提这样的问题：

哪些客户在最近六个月中，在飞行上花费超过

2000$？

对这些客户，由信用卡公司提供offer，航空公司出offer的内容，即免费旅行等优惠，来争取客户。

A的猫食，这种商品的目标客户是饲养猫的家庭，但是，他不知道谁是猫的主人，从而针对性地进行市场策划，例如对猫的主人发放优待券。

超市知道谁买了什么，因而也就知道谁是A的最好的潜在客户，该经理当然愿意为这一类信息付费。

　重心从商品转换到客户

目前，超市从匿名客户，开始支持忠诚卡客户，即原来的

超市发卡记录客户的行为，并不是用来进行数据挖掘的。

传统的做法是基于统计的：

对于每月花费超过

POS程序记录的是匿名交易数据，现在可以记录有卡的客户的信息。

如果没有客户的信息，超市将不能回答许多实际的问题。

400$的客户，超市提供一次免费的聚餐。

等等。

这种方法有一个缺陷，主要是不针对客户，只针对在超市固定的花费。

对于客户的月花费存在三种类型，一类客户不管超市如何促销，他们的花费都不会超过400$；第二类是日常月花费总超过400$，对于这一类客户，免费的聚餐不会构成吸引；最后一类客户，是确实因为此类促销活动，使得花费超过了400$。

最后一类客户才是这种策略的真正目的。

解决方案是给每一个客户不同的花费目标，这一点统计不能作到，需要使用数据挖掘的技术。

数据挖掘技术可以对每个客户在花费的价格和购买的商品上，度身定做相应的促销手段。

例如，可以给客户免费赠送某个商品，这种商品他过去没有购买过，但是通过数据挖掘，我们知道他应该喜欢。

三个案例研究

例如：

另一个转换是必须将不同大小的超市的销售进行比较

即考虑超市的销售量，为了表示与超市大小相关的测量因素，增加派生变量：

对每个超市的每一个商品增加派生变量‘

分析特定客户群的购买模式

该数据挖掘项目的客户：

某打包商品的厂商。

目的：

针对

数据：

过程：

厂商如何了解特定种族的客户的购买模型

SouthTexas的说西班牙语的购物者，进行特定种族的市场活动。

Texas连锁超市提供

商业背景

数据

厂商需要知道不同的种族的目标客户的习惯和偏爱是否有不同，而这种不同是否对品牌商品的市场定位有实际的意义。

数据来源：

Texas

销售数据不是具体的细节数据，是每周销售的汇总

各超市附近的人口统计信息

销售的产品分为五类：

数据是从

销售数据包括：

超市数据包括：

的连锁超市客户以及其竞争产品的销售数据，原因是Texas一个州有大量的说西班牙语的人口。

西班牙人口的百分比

Ready-to-eatcereals（谷类）;Desserts（餐后甜点）;Snack（小吃）;Mainmeals（主食）;Pancakeandvarietybakingmixing（烤饼等）

1996年6月到1997年12月

theactualunitssold;thedollarvolume;theequivalentcasesales

storesize;thepercentageofHispanicshoppers;thepercentageofAfrican-Americanshoppers

数据分析：

销售数据是汇总的数据，不能做市场篮子分析（

销售数据是匿名的数据，不能通过忠诚卡对客户行为进行分析

Market-basketanalysis）

数据预处理：

有些数据域包含多种不同含义，所以第一步是数据转换，将数据解码，分解成一个域表示一个明确的含义。

HISPLVL（thepercentageofHispanicshoppers）和AALEVEL（thepercentageofAfrican-Americanshoppers）

AALEVEL

HISPLVL

的域是1到10，1表示African-American的百分比是90~100%表示African-American的百分比是0~10%的域是1到15，

表示在SanAntonio之外的Hispanic的百分比是90~100%

10表示在SanAntonio之外的Hispanic的百分比是0~10%表示在SanAntonio之内的Hispanic的百分比是90~100%

15表示在SanAntonio之内的Hispanic的百分比是0~10%

根据推测，原来的数据库设计者之所以区别对待

将不同的含义包括在一个数据域，对数据挖掘是会造成混乱的。

解决方法是增加一个属性

SanAntonio，是因为历史上SanAntonio有较高的Mexican-American人口，Hispanic是近来流入的。

ALAMO，将SanAntonio的超市区别对待。

theunits,dollars,equivalentcasesbythetotalsalesvolumeofthestore

比较跨越不同层次的Hispanic人口的商品的销售

HispanicityScores’，首先将超市分成三组，分别是low,medium,highHispanic，每一组的HispanicityScores是对sales,dollars,equivalentcases加权求和，最后每一个商品（脱离超市）的HispanicityScores是用highHispanic超市的该商品HispanicityScores的平均值减去lowHispanic超市的该商品HispanicityScores的平均值。

商品的HispanicityScores是一个正数，表明该商品在Hispanic人口多的地方销售得好，相反是一个负数，表明在Hispanic人口多的地方销售得不好，正数越大销售得越好，负数越大销售的越不好。

可视化工具的作用（MineSet）

一个失败的方法

最终的结果

MineSet

将

的evidencevisualizer计算每一个输入变量对结果的贡献度。

这个工具采用统计的数据挖掘技术，称做朴素的贝叶斯建模，这种分析能够迅速地决定哪些值或值的范围对哪些变量是好的证物（evidence），属于或者不属于某一特定的分类。

这个工具用来作假定分析，用户能挑选感兴趣的变量和值，迅速地在饼图上观察与不同的结果相关的可能性的效果。

Hispanicpercentage分成5份（0~20，20~40，40~60，60~80，80~100）作为目标变量，观察其他与它相关的变量，最后发现：

thepercentageofAfrican-Americans;whetherornorthestorewasinSanAntonio;thesizeofthestore与目标变量是相关的。

市场篮子分析方法：

每个商品被销售的数量和超市的

Hispanic（低、中、高）人口做关联。

最激动的结果来自于对每个商品可视化派生变量

hispanicityscores。

MineSet

充分利用了屏幕上色彩的可视化表现能力。

表现了可视化作为一种数据挖掘的方法能取得很好的效果。

谁在超市购买酸奶？

商业背景

数据

这个案例是将厂商和它的一个商品零售联营联合在一起进行考虑。

一个零售联营中，常常将一个种类商品的某个卖主称做“种类首领（

卖主（供应商）可以通过数据挖掘技术来增加商品的利润率，从而竞争“种类首领”。

categorycaptain）”，该卖主决定着其他同类商品在商店的价格。

数据来源：

Date;Store;Lane（laneoftransaction）;Time;CustomerID;Tendertype（paymenttype）;UPC

两个文件（商品销售明细表）连接得到上述记录，连接键个超市1年POS机详细的交易记录

（universalproductcode）;Quantity;DollarAmount

Date-store-lane-time

从杂货到客户

一年的所有超市的交易记录量是巨大的，为了分析客户行为，除了上面给出的数据属性外，必须增加一些有意义的派生数据，同时，也需要增加一些辅助变量。

扩展的交易细节记录

属性

描述

CKOUT_KEY

Uniquekeyidentifyingcheckout

STOR_KEY

Uniquekeyidentifyingstoreandchain

CHN_CD

Chaincode

STOR_CD

Storecode

LANE_NBR

Lanenumber

EVNT_DT_KEY

Date（MMDDYYYY）

EVNT_TM_KEY

Time（HHMMSS）

PRD_UPC_KEY

ProductUPC

PRD_UPC_QTY

NumberofparticularUPCspurchased

PRD_UPC_AMT

$amountspentonparticularUPC

CUST_CARD_CD

FrequentshopperID

CKOUT_AMT

Totalpurchased$amount

CKOUT_ITM_QTY

Total#ofitemspurchased

UNIQUE_UPC_QTY

Total#ofdistinctUPCspurchased

PAYT_TY_NBR

Paymenttypecode

UPC_DESC

ProductUPCdescription

SIZE_DESC

Sizedescription

SIZ

Size

UOM

Unitofmeasure

CASE_PACK

Casepack

MFG_DESC

Manufacturer'sdescription

MFR_CD

ManufactureID

ITEM_NUM

Itemnumber

MARGIN

High,medium,orlowprof

超市与供应商和信用卡公司与航空公司有类似的关系，超市同样可以作为信息中介商。

设想一个销售某种品牌商品的经理，例如某种品牌

超市可以采用两种不同的方式从事信息中介，一种方式是针对匿名客户，另一种是针对注册或有忠诚卡的客户。

对第一种，超市可以编写一段优待券打印程序，当一个客户购买某种商品时，打印与该商品有关商品的优待券（关联规则）。

但是，一般而言，客户在购买了某种商品后，不会在很短的时间内购买相关商品。

对于有忠诚卡的客户，可以分析他的购买历史，向他发放下次可能会购买的商品的优待券（序列模式）。

展开阅读全文