数据挖掘在超市中的应用与分析Word下载.docx
《数据挖掘在超市中的应用与分析Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘在超市中的应用与分析Word下载.docx(14页珍藏版)》请在冰豆网上搜索。
由于超市所面对的竞争环境越来越严峻,使得很多超市的管理人员和决策人员逐渐的认识到超市在信息时代要想获得更好的发展空间,数据支持是一项必不可少的手段,尤其是近10年来商品条码技术、收银POS系统等在超市中广泛运用,这为超市企业积累了大量的销售以及库存等方面的数据,这为超市的数据分析提供了很庞大的数据资源,由于以往超市很少对这些数据资源进行完整的分析和应用,使得超市在进货选择的类型、数量、厂家等都有一定的盲目性,同时对顾客的购买行为、购买趋势以及客户的关系没有进行透彻分析和研究,导致这些方面都基本缺乏较为科学的数据进行支持,这对提高超市核心竞争力和超市以后的发展极为不利。
当人们逐渐认识到数据支持对于超市发展的作用和意义,他们也认识到在21世纪信息时代要想在如此激烈的竞争中占取有利的地位,得到最大的利润,必须要充分的利用好网络计算机信息技术、数据技术等,更深层次的去挖掘和分析以往的所有数据以及相关的数据的关系,从中提取对超市发展有利的核心决策数据,再根据决策数据来制定出相应的决策,最终使超市能够可持续的发展。
1.2国内外文献综述
数据挖掘技术的出现是上个世纪90年代,虽然发展的时间并不长,但是其发展的速度极快,它是由多个学科综合而诞生的产物,所以使得它并没有一个完整的定义,很多学者和研究人员也尝试的对数据挖掘进行定义,本文认为数据挖掘是利用数学统计技术、识别技术、计算机信息技术等技术在大量的数据中去挖掘和获取有用数据或有用关系的过程。
目前数据挖掘技术在超市的商业模式中应用的较为广泛,其功能主要包含了以下几个方面:
聚类、关联规则和序列模式的发现、分类、预测以及偏差的检测。
在国际上,对于数据挖掘的研究有了较大的突破,例如在1989年国际联合人工智能学术会议上就首次的提出了KDD一词,到目前为止,美国人工智能协会所举办的KDD会议已经多达10多次,从最先的几十个人发展到目前的几千人,各项新的研究成果以及论文论述在不断的增多,目前重点的研究内容有大规模集成开发、系统的应用、学科与学科之间的相互配合和渗透等。
国际上也有很大的研究机构和大学也在积极的研究数据挖掘技术,较为著名的大学有卡内基梅隆大学、斯坦福大学等,研究机构有美国资料勘探中心、美国计算机协会等,除了上述的研究机构和著名大学外,美国的一些主流的计算机研究刊物也对数据挖掘技术进行了专项讨论,例如IEEE中的KnowledgeandDataEngineering,它就对KDD系统设计、方法、逻辑等进行了全面的分析,详细的分析了常见的数据库动态性冗余、空值、高噪声等问题,并针对这些问题提出一系列的解决方案。
在国内,数据挖掘技术的研究较国外更晚,目前的研究成果和研究进度较国际还有一定的差距,不过近年来由于我国的经济发展较为快速,科学技术也在不断提高,使得我国的一些关于数据挖掘技术的研究机构和大学也取得了一定的成就,越来越多关于数据挖掘技术的论文和刊物被发表,这为我国未来的数据挖掘技术的研究奠定了良好的基础。
目前关于数据挖掘技术的研究主要有清华大学、中科院计算机研究所、北京大学、浙江大学、南京大学、复旦大学、中国科技大学等,这些高等院校和研究机构都有个各自的研究成果。
2.数据挖掘综述
2.1数据挖掘理论
2.1.1数据挖掘的产生和发展
2.1.2数据挖掘相关技术和方法
通常来说,数据挖掘技术可以分为两类,分别是传统的数据挖掘技术和改良后的数据挖掘技术,前者主要包括了概率论、序列统计、类别数据分析、回归分析等,后者主要包含了规则归纳分析、决策树理论分析、类神经网络分析,其中的分析方法多种多样,每一种分析方法所运用到的知识和学科相对应,以下就简单的概述常见的方法。
(1)统计学
统计学是最为常见的一种数据挖掘方法,该方法主要是通过在所选取的数据中提取未知的数学模型,具有较强的统计过程,例如涉及到数据的抽样、建模、假设判断、误差控制等过程。
(2)人工神经网络算法
该方法主要模拟的是生物神经网络的一种分析方法,主要是通过训练以进一步的学习非线性预测模型,该方法常见的操作有分类、聚类、数据特征采集等。
(3)决策树算法
该方法主要运用在数据分类上,通常有两个过程,一是决策树的构造,二是决策树的修剪,实现方法如下:
先将训练数据生成一个测试函数,再选取一些特定的数值来构建起数的分支,再对每个树的分支集中充分的建立起下层的分支和结点,从而形成决策树,然后对整个决策树进行修剪,形成一种规则,我们就可以利用这种规则对新的数据进行进一步的分类处理。
由于决策树分析方法具有转化快、速度快、易于数据库查询等优势,使得这种方法在很多领域得以广泛的运用。
(4)关联规则
在数据挖掘领域,关联规则法是目前研究较为活跃的方法,这种方法最早是由Agrawal等人在上个世纪90年代提出,目前这种方法在数据库以及人工智能方面得到广泛的关注和研究,这种方法主要反映的是数据与数据指间的定性关联关系,通过数据间的关系来对数据进行分类和挖掘,目前这种方法有并行发现算法、增量更新算法、多循环方式挖掘算法、多值属性挖掘、多层关联规则挖掘等等。
(5)遗传算法
遗传算法本质是一种优化技术,它的产生主要是根据生物进行概念对数据问题进行分析和搜索,进而对数据进行优化,采用遗传算法需要先对要求解的问题进行编码处理,先得到最初始的群体,然后再计算出个体适应度,再进行染色体的复制、交换、突变等操作,最后得到新的个体,我们可以重复上述这个过程,直到得到我们认为的最优解。
而在数据挖掘中,通常将数据挖掘问题表达成一种搜索性问题,利用遗传算法较强的搜索能力,从而得到我们想要的最优结果。
2.1.3数据挖掘应用流程
我们知道数据挖掘的最终目的是在庞大的数据中找到关键或者核心的数据,并将其作为制定决策的重要依据,所以我们仅仅是将数据发现出来还远远不够,要想发现的数据作为制定决策的依据,还需要在数据挖掘前明确应该采用什么样的方法和步骤,每个步骤的目标是什么,挖掘的数据和决策之间有什么样的关系,只有明确了每一步的任务,我们才能有条不紊的进行数据挖掘,并使挖掘的技术能够为决策提供服务。
数据挖掘的应用流程如下图所示:
图2-1数据挖掘应用流程
通过上图我们可以做出以下的解释,所谓的确定业务问题就是指定义出业务问题,即我们需要明确出数据挖掘的目的是什么,需要我们对数据和业务进行进一步的了解,如果没有这一步,那么我们很难去定义需要解决的问题,那么也就无法很好的进行数据挖掘,也就无法得到我们满意的结果,所以需要充分的发挥出数据挖掘的价值,要对目标进行明确的定义;
数据准备是指当业务问题确定后,我们就需要对选取的数据进行筛选,数据准备主要内容有数据的选择、数据的预处理、数据的加工;
数据挖掘是指通过数据的特点和数据的功能类型选择一种最科学的算法,在转换以及净化数据集上进行数据挖掘,建立起数据挖掘模型,最后对建立的模型进行评价;
结果分析就是指对数据挖掘的结果进行评价和解释,并转换为用户能够理解的语言或知识;
知识的同化是指分析得到的知识集成到业务员信息系统组织结构中。
2.2关联规则算法
目前的关联规则挖掘算法大致可以分为以下几种:
层次算法、搜索算法、抽样算法和数据集划算法。
采用关联规则算法主要注意的问题有两个,分别是降低IO操作和降低需要计算支持率项目集数量,这两个问题对于数据挖掘的效率影响较大。
关于挖掘关联规则算法,Agrawal在1993年提出了一种Apriori算法,该算法是一种关联规则经典算法,是一种基于两阶段频集思想的算法,该算法可以分解成关于两个子问题的算法,先找出全部支持度都超过了最小支持度的项集,并将这些项集成为频集,然后在从频集中去找出期望的规则。
Apriori算法作为一种经典的关联规则算法,在当时作为一种较为主流的数据挖掘方法,它通过项目集元素数目不断的增加来逐渐的完成频繁项目集的发现。
先是产生1-频繁项集L1,然后是2-频繁项集L2,当频繁项集元集元素数目无法进一步的扩展则算法停止。
例如经过K次循环后产生了K-候选集集合Ck,最后通过扫描数据库生产支持度并测试产生K-频繁项集Lk。
从上述的步骤来看,Apriori算法存在着两个问题,一是重复循环过程中会产生大量的候选集,候选集的数目是呈指数上涨,就例如1041-频繁项集产生的2-候选集的元素可能达到107,这样庞大的元素数目对空间的要求极高,再者是每个元素都必须要对数据库进行扫描来验证其是否能够加入到频繁项集中,这需要极大的I/O负载。
正因Apriori算法这两个较为致命的缺陷,使得当时人们发现算法的性能并不理想,查找数据库的成本过高,导致数据挖掘的效率不高,因此当时很多学者对Apriori算法进行改进和优化,得到了AprioriTidList算法和AprioriTid算法,前者通过链表结构储存了每个候选项条目ID,当我们需要计算出K层候选项支持度就可以将K-1层候选项链表中的几个相同条目ID进行对比即可得到,而后者在第一次扫面数据库后就不需要利用数据库来计算某层候选项支持度,仅需要集合Ck就可以达到目的。
本文以下就是主要采用了关联规则算法分析了货架摆放模型、捆绑销售模型和竞争商品分析模型。
3.关联规则挖掘的超市营销模型设计
3.1基于关联规则的优化货架摆放模型
3.1.1理论的提出
超市的经营效益主要取决于每个货架商品的销售量,销售利润也来自于每个单位货架所创作的利润。
一个较高的货架摆放或者展现的水平对于提高该单位货架货物的销售量有直接的关系,即在顾客面前的展现水平越高,则该单位货架的货物销售量就高,反之则较低,我们可以理解为,合理的商品布局不仅能够刺激顾客的购买欲望,还能够节约顾客的购物时间,这对提高超市的服务水平和利润有积极的作用,所以通过合理的利用数据挖掘技术能够分析出以往顾客的购买数据、穿行路线、购买偏好、购买习惯、货架的使用率、畅销商品的类别、厂家等,然后通过分析得到数据来建立起超市最佳的货架布局,从而提高超市的商品销售量。
3.1.2算法分析
一个超市所贩卖的商品多样化,所以对于超市货架摆放问题项目集个体并不是针对某一件商品或某一类商品。
我们利用Apriori算法或者AprioriTidList算法和AprioriTid算法可以得到满足事务数据库T的全部关联规则和频繁项目集,假设事务数据库T中含有m个事务T(T1、T2、…、Tm),商品的集合I(I1、I2、…、In),Ii对应的利润用∏i表示,可以用商品Ii的价格Pi乘以利润率Ri得到,例如事务数据库T中的某个事务Tj,Tj中的商品i数量用quantity(i,j)来表示,那么事务数据库T生产关联规则对应得到的频繁项目集集合就用FI={FI1、FI2、…、FIk}来表示。
定义l×
n矩阵M,该矩阵元素Mpq=(p=1,2,…,l,q=1,2,…,n),如果事务q中出现了关联规则P,则认为Mpq表示的是p为事务q中的一个子集。
定义Z(p,q)是关联规则p带给事务q的利润,那么该利润就等于在事务q中采用了关联规则p对应的每个商品Ii的价格Pi和利润率Ri与quantity(i)乘积之和。
定义Z(p)是关联规则p在事务数据库T中总贡献利润,可以用关联规则P在每个事务q中的Z(p,q)和,那么我们可以得到Mpq,Z(p,q)以及Z(p)的关系:
3.2基于关联规则的优化捆绑销售模型
捆绑销售是超市常采用的一种销售模式,是指两个商品或者两个以上的商品在促销过程中相互合作,从而提高销售量的一种方式,这种方式能够充分的发挥出每个商品的优势,从而提高整体商品的影响力,作为一种较新的营销模式,捆绑销售极大的提高超市商品的销售量,提高了超市的利润,目前该方式已成为了超市促销常用的方式,捆绑销售的形式多种多样,常见的有优惠购买,是指购买A商品的前提下可以优惠购买B商品;
统一购买,是指几个商品不单独标价,统一购买价格要低于单体购买价格之和。
捆绑销售在销售过程中的优势有以下几点:
销售的成本进一步的降低,宣传上可以同时宣传多个商品,能够激发顾客购买欲望,能够提高服务的质量,提高服务的满意度,但是也并不是所有的商品都能够进行捆绑销售,是否能够取得较好的效果要查看各种商品是否能够相互促进和合作,关于捆绑销售模型,也可以采用数据关联挖掘详细的研究和分析。
对于捆绑销售模型,关联规则中各项一般都表示顾客在进行一次购物时同时购买的商品组合,这里不仅仅考虑了一个商品单独的利润,也考虑了采用捆绑销售方式所带来的总体利润。
目前很多超市在计算商品利润时通常只注重了单个商品为企业所带来的利润,如果某样商品在某段时间销售的较好,则加大对该商品的进货量,反之销售的较差的商品则会减少订货量,甚至是被其他商品所替代,这种计算利润的方式没有充分的考虑到商品与商品间交叉所带来的影响,因此超市在经营过程中很有可能就丧失了一部分的潜在顾客,从而影响了整个企业的总利润。
这里提出捆绑销售模型将运用的是优化的货物摆放模型进行计算,只是两者有一定的区别,货物摆放模型中的货物摆放问题项目集个体是一类商品,而捆绑销售模型的项目集个体是单个商品,由于商品的利润率是由商品的类别所决定的,所以捆绑销售模型中我们就可以将每次交易所涉及到的关联规则进行汇总,然后根据每个商品的价格、类别以及利润率得到某个关联规则下所产生的利润,则也可以得到所有关联规则下的产生的利润。
3.3超市竞争商品分析模型
3.3.1理论提出
关联规则挖掘算法内容也主要包含两个方面,一是先将所有支持度都超过最小支持度的频繁项目集找寻出来,然后根据所找寻的频繁项目集来生产相关的关联规则。
经过第一个步骤,所有的支持度低于最小支持度的项目集都被过滤,但是这些过滤的非频繁项目集中也包含了一定的关联信息,例如I1和I2两种商品在事务数据库T中同时出现的次数并不多,但是I1和I2和另一种I3在事务数据库中出现的次数或几率都很大,那么我们则认为I1和I2商品为竞争关系,I3则是中间关系。
在超市的经营过程中,时常会出现这种情况,某一种商品在该时间段销售量大增,而另一种商品因为这种商品销售大增而减少,另一种商品销量大增时前者商品的销售量会受到影响,在经济学中称这两种商品是竞争关系,即是我们常说的替代品,和替代品对立的是互补品,指一种商品销量上升另一种商品也随之上升,反之则下降,互补品在前面就以提到,捆绑销售模型中的商品就是互补品,这里我们着重分析替代品的营销。
具有替代关系的两种商品,如果超市在营销过程中降低了某一商品的价格,那么会使该商品的销售量增加,看似销售量大而提高超市的利润,但是另一种替代商品的销售就会因此降低,这又损害了超市的利润,因此在事务数据库中找出具有竞争关系的商品对于超市制定具有的针对性的营销策略有积极的作用,防止出现上述提到的尴尬情况,但是对于大型超市来说,单凭人力从数以万计的商品上选择出竞争关系的商品难度极大,这时就可以采用以下我们分析的关联规则模型。
3.3.2算法研究和分析
假设事务数据库T中含有m个事务T(T1、T2、…、Tm),,商品的集合I(I1、I2、…、In),商品的集合I(I1、I2、…、In)为所有项集合,那么事务数据库T生产关联规则对应得到的频繁项目集集合就用FI={FI1、FI2、…、FIk}来表示。
我们假设从超市中选出两中具有竞争关系的商品Ii和Ij,那么这两种商品的支持度suppor(Ii∪Ij)应该不超过阀值maxcomp,并且这两种商品都在事务数据库T中和集合W都具有较高的支持度。
根据竞争商品的定义得知,这两种商品都出现在了关联规则中,那么无论是Ii还是Ij都应该出现在minsup频繁项目集当中,又因为这两种商品都在事务数据库T中和集合W都具有较高的支持度,那么集合W就应该包括了Ii或者Ij频繁项目集公共区域,我们设Ii与Ij是关联规则的前件,然后利用集合运算可以得到候选Ii和Ij,然后再根据这两种商品的支持度都小于阀值进一步的找出全部的Ii和Ij。
4.超市关联分析模型实现过程
4.1数据准备
对于数据挖掘技术来说,数据的收集和整理是整个挖掘工作前期最为重要的准备工作,是数据挖掘工作的开端。
本文就选择了湖南省娄底市某一大型综合超市2014年半年的销售数据作为研究样本,样本中包含了购物信息表和商品分类表两个重要部分,购物信息表中包含了所以商品销售的记录,每个记录中包含了顾客购物的日期、购物的时间、购物数量、商品代码、流水号、价格、名称、收银号、收银机器编号等,商品分类表包含了各类商品的编号、商品的名称、毛利率以及营业额等。
4.2数据预处理
该大型超市的原始数据是本文研究的重点,但是最为原始的数据其中也有一些是本文所不需要的,例如购物信息表中不仅仅包含了销售的信息,同时也包含了本文所不需要退货信息,同时也存在着同一个商品被购买多次的情况而购物信息表中仅仅记录了一次或几次,鉴于这些情况,本文所研究所需要的数据需要进行整合再进行计算,以确保我们选取的数据更符合本文的研究,这个处理成果就是数据预处理过程,通常数据预处理过程有三个方面的内容,首先是删除其中的退货信息或数据,再将同类项同一商品同一交易中的购买数量进行合并,最后将错误的数据进行修正。
本文主要采用了SAS软件对收集的原始数据进行预处理,在剔除不需要的干扰数据并尽量的保留原始数据。
经过上述的数据收集和预处理,发现该大型综合超市每天的客流量大约为2万人次,每个月的平均交易额为1200万,由于2月正是我国的春节,交易额较平时上涨50%,平均每位顾客的购买商品的件数为7件,平均购买商品的价格为13.3元,双休日顾客的流量较平时更多,顾客购买的量和频率都有明显的上升,周一到周四客流量最小,购买力也相对不高,早上9时和下午6时每日的营业额最高,此外,5月由于五一放假,销售额也上涨38%,从收集到的数据也看出该超市销售的商品超过了23000种,基本包含了人们的吃、穿、行。
商场对于商品的管理采用了分类管理的方式,将商品按照大、中、小进行分类,并依次划分在超市中的大类、中类和小类区域,然后在分的类别中进一步划分出日常用品、饮食、厨卫用品等,从数据中看出超市清洁卫生用品、厨卫用品、零食、调味品占比最高,占总商品的50%上,如下图的编号12、13、14、31。
图4-1商品频率分布
4.3关联分析模型实现过程
4.3.1数据挖掘过程
本次研究的数据挖掘过程主要有五步,分别是数据取样,数据特征的探索、分析以及预处理,数据调整和明确问题,建立模型,综合评价和解析。
数据采样注意的问题是从大量数据中根据研究问题选择出相关的样本数据子集,并不需要将全部数据进行研究,以减少数据的处理量,节约资源的同时提高数据挖掘的效率;
数据的探索是指对样本数据进行分析和观察,以期望发现数据间的规律,通过数据的分析和探索可以明确研究的方向,能够最快速的进行最有效的数据挖掘操作,并及时的对数据进行调整;
模型建立是数据挖掘工作的重点和核心,本文选择的是SAS软件包,它包含了目前主流的数据统计方法和分析方法,为本次研究提高了技术支持;
最后对上述的过程得到的结果、流程、模型等进行科学的分析和评估。
4.3.2关联规则挖掘模型实施
本次研究所建立的模型如下图所示:
图4-2关联规则分析模型
从上图我们也可以看出数据挖掘的5个步骤以及整个数据挖掘的分析全过程。
该模型中,具体的关联规则的参数设置如下图所示:
图4-3关联规则参数设置
5.超市关联规则挖掘的结果分析
5.1超市货架摆放分析
将超市的数据预处理后,得到购物信息数据库事务,再利用关联挖掘规则工具ASSOCITION对频繁项目集进行挖掘,并生成强关联规则,再根据顾客在超市购买的平均商品种类数以及为了方便进一步的计算,最小支持度、最小置信度和每个关联最多项目数分别设置为5%、10%和6,SAS软件同样也会将参数范围附件的结果运算出来,运算得到以下的结果:
表5-1不同参数下运行的结果
在实际操作中看出最小支持度越小,出现的频繁项目集也越多,规则数也就越大,通常我们将关联规则兴趣度低于1都不予考虑,数据的意义不大,将关联规则兴趣度低于1的频繁项目集剔除,根据商品的利润高低重新排列关联商品品类,得到以下的排名前21关联商品品类的结果:
表5-2关联规则商品品类
从上表可以得出,卫生清洁品组合中的纸类用品为超市创造的利润是最高的,说明该组合的销量是最好的,但是其支持度并不是最高的,最高的是纸类用品组合中的厨房配件,但是其利润也不是最高,再观察纸类用品组合中的乳制品与厨房配件,由于乳制品的利润要高于厨房配件,所以本文建议将厨房配件放在乳制品的购买路径的上游,其他组合商品同理摆放。
为了能够使顾客能够尽可能的观看完超市的货物,以提高销量,目前很多超市采用二层结构,当顾客进入1楼时观看完绝大部分的商品后才走到第二层的电梯口,同样观察完绝大部分的二层商品才可以走到出口,为了尽可能的让顾客观看商品,利用上述提到的顾客经常购买的商品来影响顾客的购物路线,从而让顾客更多的观看商品,使其产生购买的冲动,这就是超市货架摆放最终达到的目的。
通过本次的调查来看,作者建议将关联程度高的商品摆放相对远离,例如厨具餐具和个人卫浴商品,这样顾客的关联商品购买路线更长,所观看到的商品也就越多。
以下是某超市的货架摆放平面图以供参考:
图5-3某超市货架摆放平面图
5.2超市捆绑销售分析
上述就提到超市的每项商品的价格、关联性和销量都相互联系和相互影响,捆绑销售由于商品的编码不同并没有规律,我们并不能将不同包装的同种商品统一进行计算,利润通过频繁项目集中各项目加权利润和来得到,并将支持度与置信度阀值适当的降低,得到较为科学的频繁项目集,这里我们将关联规则的最小支持度、最小置信度以及频繁项目集的参数设置为0.5%、5%和4,计算得到的频繁项目集为354个,再剔除兴趣度低于1的关联规则,得到强关联规则291个。
以下根据支持度排列的前7个强关联规则图:
表5-4前7强关联规则
从规则中看出,顾客在购买雪碧时对于购买可口可乐的兴趣很大,顾客在购买酱油时很自然的联想到了醋,购买茄子时联想到西葫芦,这些购物数据也符合了人们在购物时的习惯。
5.3超市竞争商品分析
XX文库-让每个人平等地提升自我本节仍然采用了预处理后的购物信息数