大型超市购物篮分析.docx

上传人:b****4 文档编号:1213282 上传时间:2022-10-19 格式:DOCX 页数:29 大小:88.99KB
下载 相关 举报
大型超市购物篮分析.docx_第1页
第1页 / 共29页
大型超市购物篮分析.docx_第2页
第2页 / 共29页
大型超市购物篮分析.docx_第3页
第3页 / 共29页
大型超市购物篮分析.docx_第4页
第4页 / 共29页
大型超市购物篮分析.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

大型超市购物篮分析.docx

《大型超市购物篮分析.docx》由会员分享,可在线阅读,更多相关《大型超市购物篮分析.docx(29页珍藏版)》请在冰豆网上搜索。

大型超市购物篮分析.docx

大型超市购物篮分析

题目大型超市“购物篮”问题分析

摘要

本文对于大超市商品的关联度以及商品最频繁同时购买问题进行分析,构建合理的数学模型,并给出可操作的商品销售方案。

问题一要求统计处理4717个顾客对999中商品的购买记录数据,建立数学模型,定量表达超市中多种商品间的关联关系的密切程度。

首先建立遗传算法,利用统计得出各个商品购买数量,并计算出标准差。

再对影响关联度的另一度量指标进行分析,将数据分类利用处理数据,得出商品间的欧氏距离。

最后加上实际影响因素,建立模型:

利用进行统计与描述,可以得出共有623种商品关联度为0.1888,299种商品间关联度为0.0705,88种商品间关联度为0.0245,33种商品间的关联度为0.0074,11种商品间的关联度为0.0022,5种商品间的关联度为0.0020。

问题二要求分析说明哪些商品是最频繁被同时购买的,并在问题一的基础上,用一种快速有效的方法计算。

已知问题1的结果,将商品进行分类,运用贪婪算法逐步得出被同时购买的商品数,利用得出结果。

综合以上分析可以得出,五种商品的购买组合中商品413,商品424,商品538,商品572,商品797,购买次数最高,102次,组合利润最高1485.399,总利润最高151510.698。

因此,将这组商品作为最优组合。

问题三要求根据问题1、问题2中建立的模型,对附件2中999种商品的利润进行分析,给出一种初步的促销方案。

对数据运用进行拟合,得出商品利润与商品之间的关联度符合线性关系。

对附件2中利润数据分类,分别计算结果。

最后,给出促销方案。

 

关键词遗传算法欧氏距离关联度贪婪算法

1、问题背景和重述

1.1问题背景

超市购物属于日常生活,而每天来超市购物的顾客和购买的商品都具有不稳定性。

商品的销量会因顾客的喜好或时间的影响不断变化,又因商品购买存在随机性、多元性等特点,必须估测好每种商品的需求量。

如处理不当,很可能造成仓库囤积量增多,甚至造成超市利润损失过大。

商品购买是不确定的,但某种或某些商品会获得大多数人的认可,被顾客频繁购买。

在大型超市中,商品繁多、复杂,正确分析并估算顾客对某种或某些商品的喜好,将为超市经理合理设计进货方案、处理仓库、获得最大利润、搞推销、促销活动和购物赠送活动等提供理论依据。

商品市场分析和顾客购物习惯分析,作为超市一项基础性任务,不仅可以确定超市进货合理模式及合理促销方式,还可以为各大型超市确定今后整体规划、超市规模、商品购买后评估等提供更为科学的理论依据。

1.2问题重述

现给出超市进一个星期的所有顾客购买物品的清单和相应商品的价格,分析所给数据,研究以下问题,并建立合理的数学模型:

1、附件1中的表格数据显示了该超市在一个星期内的4717个顾客对999种商品的购买记录,表格中每一行代表一个顾客的购买记录,数字代表了其购买商品的超市内部编号。

根据附件1(详见附录1),建立一种数学模型,定量表达超市中多种商品间的关联关系的密切程度。

2、根据问题1中建立的模型,寻找一种快速有效的方法从附件1的购买记录中分析出哪些商品是最频繁被同时购买的。

3、综合上述分析和求解,分析附件2(详见附录1)给出的999中商品利润,并根据问题1、问题2中建立的模型,给超市经理一个合理的“购物篮”分析报告,提供一个促销计划的初步方案。

2、问题分析

2.1问题一的分析

要定量表达超市中多种商品间的关联关系的密切程度,首先要根据附件1表格中的数据统计出各种商品被购买的数量,可以建立基于神经网络算法的遗传算法模型。

遗传算法是一种适合于复杂系统优化计算的自适应概率优化技术,能够较好地计算复杂数据和概率。

超市商品种类繁多,表格中给出的数据量多,要将这些数据进行分类,计算出标准差和欧氏距离。

标准差是数据偏离平均数的距离平方的平均数,能反应一个数据集的离散程度。

欧氏距离是指m维空间中两个点之间的真实距离,或向量的自然长度。

本题中属于二维空间,因此表示的是数据的真实值。

在平均数相同时,标准差不能反映出各个数据之间的差别,欧氏距离可以。

最终,可以综合利用标准差和欧氏距离,更好地反映商品间的关联度。

2.2问题二的分析

要分析说明999中商品中哪些商品是被最频繁同时购买的,并找出尽可能多的商品被频繁同时购买,就要先根据问题一所给附件1中的购买记录和问题一的模型,得出多种商品之间的关联度。

在遗传算法的基础上,运用贪婪算法对所得数据结果进行分类计算。

贪婪算法(Greedyalgorithm)是一种对某些求最优解问题的更简单、更迅速的设计技术。

用贪婪设计算法的特点是一步一步地进行,常以当前为基础根据某个优化测度作最优选择,而不考虑各种可能的整体情况。

它采用自顶向下、以迭代的方法做出相继的贪心选择,每做一次贪心选择就将所求问题简化为一个规模更小的子问题,可得到问题的一个最优解。

问题二已知多种商品间关联度的数据结果,因此运用贪婪算法可将本问逐步简化为规模更小的问题。

2.3问题三的分析

要给出一种初步的促销方案,使超市的效益进一步增大,就要先计算出999中商品各自给超市带来的利润,并综合商品的自身特质和顾客的喜好。

要求根据问题一、问题二建立的模型,求解问题三。

问题三属于方案题,不仅要计算统计客观数据,而且要综合多种因素考虑,并结合实际情况给出合理切实际的方案。

运用计算出各种商品组合的利润,包括单个利润、组合利润和总利润。

按照最优原则,选择符合条件的最优商品,结合问题一、问题二中的商品关联度和商品频繁购买数,选出综合最优商品。

对市场做多次调查,了解顾客喜好。

通过打折促销、赠送促销和人员推销等方法,增加商品购买力,获得更高利润。

3、符号说明

由于本文在解答过程中出现很多符号,现将这些符号进行解释:

符号

解释说明

第n个商品的编号

第n个商品被购买的次数

所有事物的集合

置信度

最大置信度

平均置信度

所有事物的集合

子项目的集合

关联度

打折数

最大利润

四、模型假设

为使得题目解决方便,现对一些客观存在但影响可忽略不计的因素进行假设:

1、假设各个商品的利润保持不变;

2、假设顾客收入基本稳定,经济发展较为平衡,即短时间内不会出现经济危机问题;

3、假设表格中的数据能真实地反映当地消费者的购物情况;

4、假设短时间内商品的销售情况维持稳定,不会出现大幅波动。

5、模型建立与求解

5.1数据预处理及模型准备

5.1.1数据预处理

对于附件和附件所给出的表格数据,发现存在少量数据的缺失。

由于表格中所给数据量大,相比较于999种商品和4717位顾客购买商品数量,缺失的数据相对可忽略不计。

由于附件1所给表格不能够直观地进行统计,就运用软件将大量数据进行分析处理,再将文本数据转化至表格。

通过统计出各个商品被购买的次数,为保证结果的精确性,多次试算统计出每种商品被顾客购买的次数,绘制出表格3(全部数量见附件1)。

5.1.2模型准备

设是所有项目的集合。

是所有事务的集合(即数据库),每个事务是一些项目的集合,包含在中,每个事务可以用唯一的标识符来标识。

设I为某些项目的集合,如果I包含在中,则称事务包含A,就相当于两个不同的的相同序列,这里包含在中,包含在中,并且I∧H=Φ。

其意义在于一个事务中某些项的出现,可推导出另一些项在同一事务中也出现为简单化,将(包含在)=>(H包含在)表示为,这里“”称为关联操作。

5.2问题一模型的建立与求解

大型超市商品种类繁多复杂,经营内容趋向大众化和综合化。

同时,超市自动标价、计价,节省了顾客的时间,也满足了顾客一次性购足的方式,深受顾客的喜欢。

超市经营方式要灵活,必须了解顾客对各种商品的购买情况,才能形成低成本、大流量的经营模式。

根据表1数据,采用商品的置信度表征商品之间关系。

因此,如果用次表示商品n被购买的次数,所有商品的集合为,n种商品被购买次数之和为,则各个商品的置信度为:

运用软件处理数据,并计算出各个商品被购买的次数,此处列出50中商品购买的次数(全部结果见附录1表1),绘制表格如下:

表1前50种商品购买的次数

商品编号

1

2

3

4

5

6

7

8

9

10

购买次数

309

269

197

265

156

152

76

673

40

181

商品编号

11

12

13

14

15

16

17

18

19

20

购买次数

18

625

5

34

122

73

301

120

102

10

商品编号

21

22

23

24

25

26

27

28

29

30

购买次数

494

179

64

236

427

238

372

280

22

0

商品编号

31

32

33

34

35

36

37

38

39

40

购买次数

398

524

220

83

322

111

67

376

353

70

这里的置信度相当于遗传学中的的序列,通过取出具有代表性的置信度或序列,作为衡量商品间关联度的一个指标。

再建立基于神经网络算法的遗传算法[1]模型,为了进一步精确地得出商品间的关联关系,采用遗传算法中的选择算法,并确定一个标准筛选出关联度较大的商品。

将最小置信度设定为千分之四,从4717个原始数据项中得到个数为17的频繁项集。

按置信度降序排列,绘制如下表2:

表217种商品的置信度

编号

368

829

529

510

0.000515

419

217

489

438

置信度

0.0071

0.0059

0.0058

0.0050

0.0050

0.0047

0.0045

编号

956

766

914

682

692

937

205

720

722

置信度

0.0045

0.0044

0.0044

0.0043

0.0043

0.0048

0.0041

0.0040

0.0040

由表2可以看出,商品368号为最大置信度,商品722号为最小置信度,最大置信度与最小置信度之间相差较大。

根据表2中的最小置信度与最大置信度将置信度均分为八份,运用软件求出各个区间内的商品个数,整理得到表3:

表3各置信区间的商品个数

置信区间

商品个数

623

299

88

33

置信区间

商品个数

11

5

0

1

 

 

将上述区间分为8个区间,再利用绘制散点图如下:

图1各个区间内的商品

分析散点图可知,在第1到第4区间商品数较多,第5到第8区间商品数较少。

即大多数商品关联度不高,只有少数商品关联度较高。

通过软件均分置信度,求出各个区间内的欧氏距离与方差,比较欧氏距离与方差,得出商品间的关联关系的密切程度。

再根据表2的区间,运用软件求解出欧氏距离与方差,绘制如下表4:

表4各个区间内的商品

置信区间

欧氏距离

0.1888

0.0705

0.0245

0.0074

标准差

0.00303

0.00294

0.00275

0.00204

置信区间

欧氏距离

0.0022

0.0020

0

0

标准差

0.00177

0.00039

0

0

利用绘制散点图如下:

图2欧式距离和标准差

通过综合比较多种商品间的标准差和欧氏距离,可以得出共有623种商品关联度为0.1888,299种商品间关联度为0.0705,88种商品间关联度为0.0245,33种

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1