数据挖掘在超市中的应用与分析.docx

上传人:b****5 文档编号:6380751 上传时间:2023-01-05 格式:DOCX 页数:13 大小:299.59KB
下载 相关 举报
数据挖掘在超市中的应用与分析.docx_第1页
第1页 / 共13页
数据挖掘在超市中的应用与分析.docx_第2页
第2页 / 共13页
数据挖掘在超市中的应用与分析.docx_第3页
第3页 / 共13页
数据挖掘在超市中的应用与分析.docx_第4页
第4页 / 共13页
数据挖掘在超市中的应用与分析.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

数据挖掘在超市中的应用与分析.docx

《数据挖掘在超市中的应用与分析.docx》由会员分享,可在线阅读,更多相关《数据挖掘在超市中的应用与分析.docx(13页珍藏版)》请在冰豆网上搜索。

数据挖掘在超市中的应用与分析.docx

数据挖掘在超市中的应用与分析

数据挖掘在超市中的应用与分析

摘要:

随着我国经济高速开展,人们生活程度的进步,超市在社会中的普及范围越来越广,极大的方便了人们的生活和工作的同时快速的促进了我国社会经济的开展,尤其是近年来的各类大型超市在城市中所占的比例越来越高,其中不乏国外的一些大型超市企业入驻我国,但正因为国内外超市在我国所占的比例和数量在不断的增加,导致目前我国超市行业的竞争程度日益剧烈,顾客在各个超市的选择上有了比较比照,顾客有了更多的选择,导致各个超市的利润空间在不断的压缩,为理解决在如此剧烈的社会竞争环境下获得更好的开展,需求新的打破问题,目前超市的运营形式从货物的采购到运输、管理、营销、效劳等方面进展了创新和完善,期望从中数据方面发现一些关联规那么,利用这些关联规那么来进步超市的销量,为此本文就主要对数据中的关联规那么算法进展分析,建立起关联规那么算法模型,再结合实例进一步的研究数据挖掘对于超市的作用。

关键词:

超市;数据挖掘;关联规那么算法;数据模型

 

研究目的和研究意义

随着信息技术的不断进步和计算机的不断普及,人们所搜集和积累的数据急剧增加。

在海量的数据中提取有用的信息、发现隐含的规那么,成为人们研究的重点。

本文通过对超市运营中存在的问题现状进展分析,再结合以往某大型超市的销售数据,期望从中去发现数据中的一些关联规那么,主要采用关联规那么算法对数据进展建模分析,利用商品之间的关联关系合理的设置货架摆放、合理的进展商品捆绑销售以及对竞争商品进展合理的促销,从而进步超市的销售量,使超市可以安康的开展。

由于超市所面对的竞争环境越来越严峻,使得很多超市的管理人员和决策人员逐渐的认识到超市在信息时代要想获得更好的开展空间,数据支持是一项必不可少的手段,尤其是近10年来商品条码技术、收银POS系统等在超市中广泛运用,这为超市企业积累了大量的销售以及库存等方面的数据,这为超市的数据分析提供了很庞大的数据资源,由于以往超市很少对这些数据资源进展完好的分析和应用,使得超市在进货选择的类型、数量、厂家等都有一定的盲目性,同时对顾客的购置行为、购置趋势以及客户的关系没有进展透彻分析和研究,导致这些方面都根本缺乏较为科学的数据进展支持,这对进步超市核心竞争力和超市以后的开展极为不利。

当人们逐渐认识到数据支持对于超市开展的作用和意义,他们也认识到在21世纪信息时代要想在如此剧烈的竞争中占取有利的地位,得到最大的利润,必需要充分的利用好网络计算机信息技术、数据技术等,更深层次的去挖掘和分析以往的所有数据以及相关的数据的关系,从中提取对超市开展有利的核心决策数据,再根据决策数据来制定出相应的决策,最终使超市可以可持续的开展。

数据挖掘技术的出现是上个世纪90年代,虽然开展的时间并不长,但是其开展的速度极快,它是由多个学科综合而诞生的产物,所以使得它并没有一个完好的定义,很多学者和研究人员也尝试的对数据挖掘进展定义,本文认为数据挖掘是利用数学统计技术、识别技术、计算机信息技术等技术在大量的数据中去挖掘和获取有用数据或有用关系的过程。

目前数据挖掘技术在超市的商业形式中应用的较为广泛,其功能主要包含了以下几个方面:

聚类、关联规那么和序列形式的发现、分类、预测以及偏向的检测。

在国际上,对于数据挖掘的研究有了较大的打破,例如在1989年国际结合人工智能学术会议上就首次的提出了KDD一词,到目前为止,美国人工智能协会所举办的KDD会议已经多达10屡次,从最先的几十个人开展到目前的几千人,各项新的研究成果以及论文阐述在不断的增多,目前重点的研究内容有大规模集成开发、系统的应用、学科与学科之间的互相配合和浸透等。

国际上也有很大的研究机构和大学也在积极的研究数据挖掘技术,较为著名的大学有卡内基梅隆大学、斯坦福大学等,研究机构有美国资料勘探中心、美国计算机协会等,除了上述的研究机构和著名大学外,美国的一些主流的计算机研究刊物也对数据挖掘技术进展了专项讨论,例如IEEE中的KnowledgeandDataEngineering,它就对KDD系统设计、方法、逻辑等进展了全面的分析,详细的分析了常见的数据库动态性冗余、空值、高噪声等问题,并针对这些问题提出一系列的解决方案。

在国内,数据挖掘技术的研究较国外更晚,目前的研究成果和研究进度较国际还有一定的差距,不过近年来由于我国的经济开展较为快速,科学技术也在不断进步,使得我国的一些关于数据挖掘技术的研究机构和大学也获得了一定的成就,越来越多关于数据挖掘技术的论文和刊物被发表,这为我国将来的数据挖掘技术的研究奠定了良好的根底。

目前关于数据挖掘技术的研究主要有清华大学、中科院计算机研究所、北京大学、浙江大学、南京大学、复旦大学、中国科技大学等,这些高等院校和研究机构都有个各自的研究成果。

 

通常来说,数据挖掘技术可以分为两类,分别是传统的数据挖掘技术和改良后的数据挖掘技术,前者主要包括了概率论、序列统计、类别数据分析、回归分析等,后者主要包含了规那么归纳分析、决策树理论分析、类神经网络分析,其中的分析方法多种多样,每一种分析方法所运用到的知识和学科相对应,以下就简单的概述常见的方法。

〔1〕统计学

统计学是最为常见的一种数据挖掘方法,该方法主要是通过在所选取的数据中提取未知的数学模型,具有较强的统计过程,例如涉及到数据的抽样、建模、假设判断、误差控制等过程。

〔2〕人工神经网络算法

该方法主要模拟的是生物神经网络的一种分析方法,主要是通过训练以进一步的学习非线性预测模型,该方法常见的操作有分类、聚类、数据特征采集等。

〔3〕决策树算法

该方法主要运用在数据分类上,通常有两个过程,一是决策树的构造,二是决策树的修剪,实现方法如下:

先将训练数据生成一个测试函数,再选取一些特定的数值来构建起数的分支,再对每个树的分支集中充分的建立起下层的分支和结点,从而形成决策树,然后对整个决策树进展修剪,形成一种规那么,我们就可以利用这种规那么对新的数据进展进一步的分类处理。

由于决策树分析方法具有转化快、速度快、易于数据库查询等优势,使得这种方法在很多领域得以广泛的运用。

〔4〕关联规那么

在数据挖掘领域,关联规那么法是目前研究较为活泼的方法,这种方法最早是由Agrawal等人在上个世纪90年代提出,目前这种方法在数据库以及人工智能方面得到广泛的关注和研究,这种方法主要反映的是数据与数据指间的定性关联关系,通过数据间的关系来对数据进展分类和挖掘,目前这种方法有并行发现算法、增量更新算法、多循环方式挖掘算法、多值属性挖掘、多层关联规那么挖掘等等。

〔5〕遗传算法

遗传算法本质是一种优化技术,它的产生主要是根据生物进展概念对数据问题进展分析和搜索,进而对数据进展优化,采用遗传算法需要先对要求解的问题进展编码处理,先得到最初始的群体,然后再计算出个体适应度,再进展染色体的复制、交换、突变等操作,最后得到新的个体,我们可以重复上述这个过程,直到得到我们认为的最优解。

而在数据挖掘中,通常将数据挖掘问题表达成一种搜索性问题,利用遗传算法较强的搜索才能,从而得到我们想要的最优结果。

我们知道数据挖掘的最终目的是在庞大的数据中找到关键或者核心的数据,并将其作为制定决策的重要根据,所以我们仅仅是将数据发现出来还远远不够,要想发现的数据作为制定决策的根据,还需要在数据挖掘前明确应该采用什么样的方法和步骤,每个步骤的目的是什么,挖掘的数据和决策之间有什么样的关系,只有明确了每一步的任务,我们才能有条不紊的进展数据挖掘,并使挖掘的技术可以为决策提供效劳。

数据挖掘的应用流程如以下图所示:

确定业务问题

知识同化

数据准备

结果分析

数据挖掘

图2-1数据挖掘应用流程

通过上图我们可以做出以下的解释,所谓确实定业务问题就是指定义出业务问题,即我们需要明确出数据挖掘的目的是什么,需要我们对数据和业务进展进一步的理解,假设没有这一步,那么我们很难去定义需要解决的问题,那么也就无法很好的进展数据挖掘,也就无法得到我们满意的结果,所以需要充分的发挥出数据挖掘的价值,要对目的进展明确的定义;数据准备是指当业务问题确定后,我们就需要对选取的数据进展挑选,数据准备主要内容有数据的选择、数据的预处理、数据的加工;数据挖掘是指通过数据的特点和数据的功能类型选择一种最科学的算法,在转换以及净化数据集上进展数据挖掘,建立起数据挖掘模型,最后对建立的模型进展评价;结果分析就是指对数据挖掘的结果进展评价和解释,并转换为用户可以理解的语言或知识;知识的同化是指分析得到的知识集成到业务员信息系统组织构造中。

那么算法

目前的关联规那么挖掘算法大致可以分为以下几种:

层次算法、搜索算法、抽样算法和数据集划算法。

采用关联规那么算法主要注意的问题有两个,分别是降低IO操作和降低需要计算支持率工程集数量,这两个问题对于数据挖掘的效率影响较大。

关于挖掘关联规那么算法,Agrawal在1993年提出了一种Apriori算法,该算法是一种关联规那么经典算法,是一种基于两阶段频集思想的算法,该算法可以分解成关于两个子问题的算法,先找出全部支持度都超过了最小支持度的项集,并将这些项集成为频集,然后在从频集中去找出期望的规那么。

Apriori算法作为一种经典的关联规那么算法,在当时作为一种较为主流的数据挖掘方法,它通过工程集元素数目不断的增加来逐渐的完成频繁工程集的发现。

先是产生1-频繁项集L1,然后是2-频繁项集L2,当频繁项集元集元素数目无法进一步的扩展那么算法停顿。

例如经过K次循环后产生了K-候选集集合Ck,最后通过扫描数据库消费支持度并测试产生K-频繁项集Lk。

从上述的步骤来看,Apriori算法存在着两个问题,一是重复循环过程中会产生大量的候选集,候选集的数目是呈指数上涨,就例如1041-频繁项集产生的2-候选集的元素可能到达107,这样庞大的元素数目对空间的要求极高,再者是每个元素都必需要对数据库进展扫描来验证其是否可以参加到频繁项集中,这需要极大的I/O负载。

正因Apriori算法这两个较为致命的缺陷,使得当时人们发现算法的性能并不理想,查找数据库的本钱过高,导致数据挖掘的效率不高,因此当时很多学者对Apriori算法进展改良和优化,得到了AprioriTidList算法和AprioriTid算法,前者通过链表构造储存了每个候选项条目ID,当我们需要计算出K层候选项支持度就可以将K-1层候选项链表中的几个一样条目ID进展比照即可得到,而后者在第一次扫面数据库后就不需要利用数据库来计算某层候选项支持度,仅需要集合Ck就可以到达目的。

本文以下就是主要采用了关联规那么算法分析了货架摆放模型、捆绑销售模型和竞争商品分析模型。

3.关联规那么挖掘的超市营销模型设计

那么的优化货架摆放模型

提出

超市的经营效益主要取决于每个货架商品的销售量,销售利润也来自于每个单位货架所创作的利润。

一个较高的货架摆放或者展现的程度对于进步该单位货架货物的销售量有直接的关系,即在顾客面前的展现程度越高,那么该单位货架的货物销售量就高,反之那么较低,我们可以理解为,合理的商品布局不仅可以刺激顾客的购置欲望,还可以节约顾客的购物时间,这对进步超市的效劳程度和利润有积极的作用,所以通过合理的利用数据挖掘技术可以分析出以往顾客的购置数据、穿行道路、购置偏好、购置习惯、货架的使用率、畅销商品的类别、厂家等,然后通过分析得到数据来建立起超市最正确的货架布局,从而进步超市的商品销售量。

算法分析

一个超市所贩卖的商品多样化,所以对于超市货架摆放问题工程集个体并不是针对某一件商品或某一类商品。

我们利用Apriori算法或者AprioriTidList算法和AprioriTid算法可以得到满足事务数据库T的全部关联规那么和频繁工程集,假设事务数据库T中含有m个事务T〔T1、T2、…、Tm〕,商品的集合I〔I1、I2、…、In〕,Ii对应的利润用∏i表示,可以用商品Ii的价格Pi乘以利润率Ri得到,例如事务数据库T中的某个事务Tj,Tj中的商品i数量用quantity〔i,j〕来表示,那么事务数据库T消费关联规那么对应得到的频繁工程集集合就用FI={FI1、FI2、…、FIk}来表示。

定义l×n矩阵M,该矩阵元素Mpq=〔p=1,2,…,l,q=1,2,…,n〕,假设事务q中出现了关联规那么P,那么认为Mpq表示的是p为事务q中的一个子集。

定义Z〔p,q〕是关联规那么p带给事务q的利润,那么该利润就等于在事务q中采用了关联规那么p对应的每个商品Ii的价格Pi和利润率Ri与quantity〔i〕乘积之和。

定义Z〔p〕是关联规那么p在事务数据库T中总奉献利润,可以用关联规那么P在每个事务q中的Z〔p,q〕和,那么我们可以得到Mpq,Z〔p,q〕以及Z〔p〕的关系:

那么的优化捆绑销售模型

捆绑销售是超市常采用的一种销售形式,是指两个商品或者两个以上的商品在促销过程中互相合作,从而进步销售量的一种方式,这种方式可以充分的发挥出每个商品的优势,从而进步整体商品的影响力,作为一种较新的营销形式,捆绑销售极大的进步超市商品的销售量,进步了超市的利润,目前该方式已成为了超市促销常用的方式,捆绑销售的形式多种多样,常见的有优惠购置,是指购置A商品的前提下可以优惠购置B商品;统一购置,是指几个商品不单独标价,统一购置价格要低于单体购置价格之和。

捆绑销售在销售过程中的优势有以下几点:

销售的本钱进一步的降低,宣传上可以同时宣传多个商品,可以激发顾客购置欲望,可以进步效劳的质量,进步效劳的满意度,但是也并不是所有的商品都可以进展捆绑销售,是否可以获得较好的效果要查看各种商品是否可以互相促进和合作,关于捆绑销售模型,也可以采用数据关联挖掘详细的研究和分析。

对于捆绑销售模型,关联规那么中各项一般都表示顾客在进展一次购物时同时购置的商品组合,这里不仅仅考虑了一个商品单独的利润,也考虑了采用捆绑销售方式所带来的总体利润。

目前很多超市在计算商品利润时通常只注重了单个商品为企业所带来的利润,假设某样商品在某段时间销售的较好,那么加大对该商品的进货量,反之销售的较差的商品那么会减少订货量,甚至是被其他商品所替代,这种计算利润的方式没有充分的考虑到商品与商品间穿插所带来的影响,因此超市在经营过程中很有可能就丧失了一部分的潜在顾客,从而影响了整个企业的总利润。

这里提出捆绑销售模型将运用的是优化的货物摆放模型进展计算,只是两者有一定的区别,货物摆放模型中的货物摆放问题工程集个体是一类商品,而捆绑销售模型的工程集个体是单个商品,由于商品的利润率是由商品的类别所决定的,所以捆绑销售模型中我们就可以将每次交易所涉及到的关联规那么进展汇总,然后根据每个商品的价格、类别以及利润率得到某个关联规那么下所产生的利润,那么也可以得到所有关联规那么下的产生的利润。

3.3超市竞争商品分析模型

关联规那么挖掘算法内容也主要包含两个方面,一是先将所有支持度都超过最小支持度的频繁工程集找寻出来,然后根据所找寻的频繁工程集来消费相关的关联规那么。

经过第一个步骤,所有的支持度低于最小支持度的工程集都被过滤,但是这些过滤的非频繁工程集中也包含了一定的关联信息,例如I1和I2两种商品在事务数据库T中同时出现的次数并不多,但是I1和I2和另一种I3在事务数据库中出现的次数或几率都很大,那么我们那么认为I1和I2商品为竞争关系,I3那么是中间关系。

在超市的经营过程中,时常会出现这种情况,某一种商品在该时间段销售量大增,而另一种商品因为这种商品销售大增而减少,另一种商品销量大增时前者商品的销售量会受到影响,在经济学中称这两种商品是竞争关系,即是我们常说的替代品,和替代品对立的是互补品,指一种商品销量上升另一种商品也随之上升,反之那么下降,互补品在前面就以提到,捆绑销售模型中的商品就是互补品,这里我们着重分析替代品的营销。

具有替代关系的两种商品,假设超市在营销过程中降低了某一商品的价格,那么会使该商品的销售量增加,看似销售量大而进步超市的利润,但是另一种替代商品的销售就会因此降低,这又损害了超市的利润,因此在事务数据库中找出具有竞争关系的商品对于超市制定具有的针对性的营销策略有积极的作用,防止出现上述提到的为难情况,但是对于大型超市来说,单凭人力从数以万计的商品上选择出竞争关系的商品难度极大,这时就可以采用以下我们分析的关联规那么模型。

假设事务数据库T中含有m个事务T〔T1、T2、…、Tm〕,,商品的集合I〔I1、I2、…、In〕,商品的集合I〔I1、I2、…、In〕为所有项集合,那么事务数据库T消费关联规那么对应得到的频繁工程集集合就用FI={FI1、FI2、…、FIk}来表示。

我们假设从超市中选出两中具有竞争关系的商品Ii和Ij,那么这两种商品的支持度suppor〔Ii∪Ij〕应该不超过阀值maxcomp,并且这两种商品都在事务数据库T中和集合W都具有较高的支持度。

根据竞争商品的定义得知,这两种商品都出如今了关联规那么中,那么无论是Ii还是Ij都应该出如今minsup频繁工程集当中,又因为这两种商品都在事务数据库T中和集合W都具有较高的支持度,那么集合W就应该包括了Ii或者Ij频繁工程集公共区域,我们设Ii与Ij是关联规那么的前件,然后利用集合运算可以得到候选Ii和Ij,然后再根据这两种商品的支持度都小于阀值进一步的找出全部的Ii和Ij。

4.1数据准备

对于数据挖掘技术来说,数据的搜集和整理是整个挖掘工作前期最为重要的准备工作,是数据挖掘工作的开端。

本文就选择了湖南省娄底市某一大型综合超市2021年半年的销售数据作为研究样本,样本中包含了购物信息表和商品分类表两个重要部分,购物信息表中包含了所以商品销售的记录,每个记录中包含了顾客购物的日期、购物的时间、购物数量、商品代码、流水号、价格、名称、收银号、收银机器编号等,商品分类表包含了各类商品的编号、商品的名称、毛利率以及营业额等。

4.2数据预处理

该大型超市的原始数据是本文研究的重点,但是最为原始的数据其中也有一些是本文所不需要的,例如购物信息表中不仅仅包含了销售的信息,同时也包含了本文所不需要退货信息,同时也存在着同一个商品被购置屡次的情况而购物信息表中仅仅记录了一次或几次,鉴于这些情况,本文所研究所需要的数据需要进展整合再进展计算,以确保我们选取的数据更符合本文的研究,这个处理成果就是数据预处理过程,通常数据预处理过程有三个方面的内容,首先是删除其中的退货信息或数据,再将同类项同一商品同一交易中的购置数量进展合并,最后将错误的数据进展修正。

本文主要采用了SAS软件对搜集的原始数据进展预处理,在剔除不需要的干扰数据并尽量的保存原始数据。

经过上述的数据搜集和预处理,发现该大型综合超市每天的客流量大约为2万人次,每个月的平均交易额为1200万,由于2月正是我国的春节,交易额较平时上涨50%,平均每位顾客的购置商品的件数为7件,平均购置,双休日顾客的流量较平时更多,顾客购置的量和频率都有明显的上升,周一到周四客流量最小,购置力也相对不高,早上9时和下午6时每日的营业额最高,此外,5月由于五一放假,销售额也上涨38%,从搜集到的数据也看出该超市销售的商品超过了23000种,根本包含了人们的吃、穿、行。

商场对于商品的管理采用了分类管理的方式,将商品按照大、中、小进展分类,并依次划分在超市中的大类、中类和小类区域,然后在分的类别中进一步划分出日常用品、饮食、厨卫用品等,从数据中看出超市清洁卫生用品、厨卫用品、零食、调味品占比最高,占总商品的50%上,如以下图的编号12、13、14、31。

图4-1商品频率分布

4.3关联分析模型实现过程

本次研究的数据挖掘过程主要有五步,分别是数据取样,数据特征的探究、分析以及预处理,数据调整和明确问题,建立模型,综合评价和解析。

数据采样注意的问题是从大量数据中根据研究问题选择出相关的样本数据子集,并不需要将全部数据进展研究,以减少数据的处理量,节约资源的同时进步数据挖掘的效率;数据的探究是指对样本数据进展分析和观察,以期望发现数据间的规律,通过数据的分析和探究可以明确研究的方向,可以最快速的进展最有效的数据挖掘操作,并及时的对数据进展调整;模型建立是数据挖掘工作的重点和核心,本文选择的是SAS软件包,它包含了目前主流的数据统计方法和分析方法,为本次研究进步了技术支持;最后对上述的过程得到的结果、流程、模型等进展科学的分析和评估。

本次研究所建立的模型如以下图所示:

图4-2关联规那么分析模型

从上图我们也可以看出数据挖掘的5个步骤以及整个数据挖掘的分析全过程。

该模型中,详细的关联规那么的参数设置如以下图所示:

图4-3关联规那么参数设置

那么挖掘的结果分析

5.1超市货架摆放分析

将超市的数据预处理后,得到购物信息数据库事务,再利用关联挖掘规那么工具ASSOCITION对频繁工程集进展挖掘,并生成强关联规那么,再根据顾客在超市购置的平均商品种类数以及为了方便进一步的计算,最小支持度、最小置信度和每个关联最多工程数分别设置为5%、10%和6,SAS软件同样也会将参数范围附件的结果运算出来,运算得到以下的结果:

表5-1不同参数下运行的结果

在实际操作中看出最小支持度越小,出现的频繁工程集也越多,规那么数也就越大,通常我们将关联规那么兴趣度低于1都不予考虑,数据的意义不大,将关联规那么兴趣度低于1的频繁工程集剔除,根据商品的利润上下重新排列关联商品品类,得到以下的排名前21关联商品品类的结果:

表5-2关联规那么商品品类

从上表可以得出,卫生清洁品组合中的纸类用品为超市创造的利润是最高的,说明该组合的销量是最好的,但是其支持度并不是最高的,最高的是纸类用品组合中的厨房配件,但是其利润也不是最高,再观察纸类用品组合中的乳制品与厨房配件,由于乳制品的利润要高于厨房配件,所以本文建议将厨房配件放在乳制品的购置途径的上游,其他组合商品同理摆放。

为了可以使顾客可以尽可能的观看完超市的货物,以进步销量,目前很多超市采用二层构造,当顾客进入1楼时观看完绝大部分的商品后才走到第二层的电梯口,同样观察完绝大部分的二层商品才可以走到出口,为了尽可能的让顾客观看商品,利用上述提到的顾客经常购置的商品来影响顾客的购物道路,从而让顾客更多的观看商品,使其产生购置的冲动,这就是超市货架摆放最终到达的目的。

通过本次的调查来看,作者建议将关联程度高的商品摆放相对远离,例如厨具餐具和个人卫浴商品,这样顾客的关联商品购置道路更长,所观看到的商品也就越多。

以下是某超市的货架摆放平面图以供参考:

图5-3某超市货架摆放平面图

5.2超市捆绑销售分析

上述就提到超市的每项商品的价格、关联性和销量都互相联络和互相影响,捆绑销售由于商品的编码不同并没有规律,我们并不能将不同包装的同种商品统一进展计算,利润通过频繁工程集中各工程加权利润和来得到,并将支持度与置信度阀值适当的降低,得到较为科学的频繁工程集,这里我们将关联规那么的最小支持度、最小置信度以及频繁工程集的参数设置为0.5%、5%和4,计算得到的频繁工程集为354个,再剔除兴趣度低于1的关联规那么,得到强关联规那么291个。

以下根据支持度排列的前7个强关联规那么图:

表5-4前7强关联规那么

从规那么中看出,顾客在购置雪碧时对于购置可口可乐的兴趣很大,顾客在购置酱油时很自然的联想到了醋,购置茄子时联想到西葫芦,这些购物数据也符合了人们在购物时的习惯。

5.3超市竞争商品分析

本节仍然采用了预处理后的购物信息数据库数据,再根据上述竞争商品分析模型中的算法计算得到具有竞争关系的商品,然后分别对阀值maxcomp与最小支持度minsup进展修改,得到不同参数下的竞争商品计算结果,计算的结论显示阀值maxcomp与最小支持度minsup的参数相差越小,产生的竞争商品组数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1