西南交通大学数学建模国赛预选赛优秀论文.docx

上传人:b****5 文档编号:30051189 上传时间:2023-08-04 格式:DOCX 页数:30 大小:148.27KB
下载 相关 举报
西南交通大学数学建模国赛预选赛优秀论文.docx_第1页
第1页 / 共30页
西南交通大学数学建模国赛预选赛优秀论文.docx_第2页
第2页 / 共30页
西南交通大学数学建模国赛预选赛优秀论文.docx_第3页
第3页 / 共30页
西南交通大学数学建模国赛预选赛优秀论文.docx_第4页
第4页 / 共30页
西南交通大学数学建模国赛预选赛优秀论文.docx_第5页
第5页 / 共30页
点击查看更多>>
下载资源
资源描述

西南交通大学数学建模国赛预选赛优秀论文.docx

《西南交通大学数学建模国赛预选赛优秀论文.docx》由会员分享,可在线阅读,更多相关《西南交通大学数学建模国赛预选赛优秀论文.docx(30页珍藏版)》请在冰豆网上搜索。

西南交通大学数学建模国赛预选赛优秀论文.docx

西南交通大学数学建模国赛预选赛优秀论文

论文题目

摘要

本文针对分析消费者价值的问题,建立了聚类分析模型、主成份分析模型。

在对消费者特征指标进行筛选后,对消费者样本进行了分类,最后对各类消费者的指标进行主成份分析得出综合评价值,据此为其制定出相应的服务策略。

问题一中,为了将消费者样本进行分类,首先对消费者原始数据进行了异常数据处理以及消费者特征指标的选取,为充分利用给出的原始数据中的各项指标,我们新增了一个特征指标:

消费者购买频率,同时对其数据进行了正态性检验。

然后建立了基于样本分类的R型聚类分析模型,将消费者分为了八类,例如:

编号为M00058、M00060、M00116、M00135、M00142的消费者属于第一类消费者,编号为M00081、M00086、M00114、

M00118……的消费者属于第二类消费者。

问题二中,为了比较不同类别消费者的价值,首先对问题一中八类消费者的各项特征指标数据分别进行累加求均值,然后对消费者特征指标做主成分分析,并运用线性加权综合评价模型对各类消费者进行综合价值的打分和排序。

例如:

综合价值最高的是第四类消费者,其综合价值评分为0.9434,其次是第二类消费者,其综合评价值为:

0.8342、随后是第五类、第七类、第六类、第三类、第一类消费者,其综合价值评分分别为:

0.4977,

0.4694,0.4294,0.1849,-1.6126,-1.7465。

问题三中,为针对不同的消费群体制定不同的服务策略,首先将问题二中的各类消费者特征指标均值与特征指标总均值进行对比,将对比结果相同的消费者类别进行分类,得出四类特征相似的消费群体,例如:

第四类消费者和第二类消费者特征指标趋势一致,第七类和第八类消费者特征指标趋势一致,第五类和第六类消费者特征指标趋势一致,第一类和第三类消费者特征指标趋势一致。

根据不同特征指标均值与总均值的差异,对不同消费群体制定不同的服务策略。

最后,对八类消费者综合评价值进行聚类分类,以验证上述均值比较分类是否合理。

本文最大的特色是在于对消费者各项特征指标处理时运用了聚类分析,主成分分析、等多种方法,使用Matlab软件高效地对题目数据进行了充分地分析、检验和处理。

关键词:

消费者价值聚类分析主成份分析

一、问题提出

1.1.问题背景

信息时代来临,各大服务公司使用计算机信息系统收集了大量的客户消费信息。

为了有效的利用它们为公司的生产、营销服务,需要对信息进行分析处理,尤其是对不同消费群体的特征进行分析,发现客户价值,制定不同的策略。

1.2.问题要求

根据附件中消费数据文件,对数据进行处理分析,挖掘数据中的不同消费者群体的特征,发现客户的价值,制定不同的消费策略,建立数学模型讨论下列问题:

第一问:

对消费者进行分类;

第二问:

分析不同类别的消费者的特征,比较不同类别的消费者的价;,第三问:

针对不同的消费群体给出不同的服务策略。

二、基本假设

假设1:

附件-消费者数据表中有问题的数据经过数据预处理后所添加或改善,对后面结果无影响。

假设2:

题目中所提供的数据以及我们所收集的资料是真实可靠的。

假设3:

制定消费者服务策略时,可忽略企业自身资源限制。

三、符号说明

符号

意义

单位

备注

C

从进入系统到观测截止日的消费总次数

J

最近一次消费时间与观测截止日间隔的倒数

1

T=

值越大

D

越好

M

总消费数

Z

平均折扣率

P

消费频率

aij

第i个消费者第j类特征指标的取值

dik

欧几里得距离

DGGpq,

类Gp和Gq之间的距离

Npq

第p类消费者第q个指标变量的归一化数据平均值

rjk

第j个指标与第k个指标的相关系数

yj

第j个主成分

bj

第j个主成份的信息贡献率

四、问题分析

在问题一中,原始数据中某些消费者的指标数据有错,因此需进行数据的筛选以保证数据的合理性。

此外还需要对消费者的特征指标进行选取,以确定模型的特征变量。

最后,数据由于指标的量纲不统一性和影响趋势的不同,要进行归一化处理。

由于消费者数量很多,且某些消费者可能有一定的相似性,为了简化问题和便于分析,我们对处理后的数据表中的样本进行聚类分析,将特征变量具有相似性的样本进行聚类分类。

在问题二中,我们调用第一问中已分好的消费者类别,对各类消费者的指标变量数据取均值,整理数据,对五个指标变量其进行主成份分析,在进行各指标的权数确定,最后得出各类消费者的综合价值评分。

思路框图如下:

在问题三中,我们根据第二问求出的不同类别消费者的综合价值,对这几类消费者的综合价值进行聚类,再将各类消费者指标值与其均值做比较,作出相应评价,为其制定服务策略。

五、模型的建立与求解

5.1问题一模型建立与求解

5.1.1问题一的分析

本问题要求根据收集到的消费者原始数据对消费者进行分类。

那么,首先我们可以通过系统聚类分析法对所有的数据样本进行分类。

系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(并以分类树形图表示),使得每一类别的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。

系统聚类分析最后得到一个反应个体之间亲疏关系的自然谱系,它比较客观的描述了分类对象的各个体之间的差异和联系。

根据分类目的的不同,系统聚类分析可分为两类:

一类是对变量分析,称为R型分析;林一磊是对样品分类,称为Q型分析。

本文采用R型分析对消费者进行分类。

5.1.2问题一模型的建立

(1)指标变量的选取

根据查阅资料:

我们得知美国数据库营销数据分析教授Hughes提出RFM模型,认为消费者的消费记录中有三个主要要素构成了顾客细分的最好指标,分别为近度(顾客的近期购买行为)、频度(顾客近期购买的总体频率)、值度(顾客近期的累计购买金额)。

据此,我们直接选择原始数据中的指标变量有:

从进入系统到观测截止日的消费总次数,我们用“C”表示;总消费数,我们用“M”表示;平均折扣率,我们用“Z”表示;作为我们建立模型分析的前三个指标变量。

最近一次消费时间与观测截止日的间隔,我们用“D”表示,为了方便分析数据的线性关系,我们取最近一次消费时间与观测截止日的间隔“1/D”作为指标变量,记为“J”。

此外,为了有效利用所给消费数据中的其他特征指标变量,以及更好的为模型提供相关数据,我们将消费者进入系统日期“Din”,观测截止日期“Dend”,从进入系统到观测截止日的消费总次数进行计算,得出一个新的指标变量消费频率:

C

P=

DDendin

式中:

Din,Dend分别表示将消费者进入系统日期,观测截止日期,P表示新增变量指标消费频率。

为检验上述新增指标的合理性,我们用Matlab进行正态分布检验:

正态分布表如图所示:

图1-1消费频率的正态分布概率图

通过检验,新增变量指标消费频率满足正态分布,即该指标的数据符合数据统计的随机性,所以该指标的增加合理。

(2)异常数据的处理

观察表格发现,在平均折扣率一列中有少部分消费者统计数据是大于1的,根据平均折扣率公式定义,可知平均折扣率范围应该在0到1之间,因此消费者样本中平均折扣率大于1的数据则为异常数据。

通过使用Excel对这些异常数据的统计可知,异常数据样本占总消费者样本的11.94%,小于统计数据中大量样本随机性统计误差样本比例的20%,因此,我们选择个案剔除法,将平均折扣率大于1的消费者样本数据剔除。

(3)数据归一化处理

由于各列数据的量纲不相同,所以要对各项统计数据做归一化处理。

由于在本模型中各变量的最大值和最小值已知,原始值通过Min-max标准化能全部映射在区间[0,1]上,且为消除个别变量对计算结果的影响,本模型中各指标数据的标准化处理采用Min-max标准化方法。

用i=1,2,···,8806表示消费者M00001到M8806,j=1,2,3,4,分别表示指标变量从进入系统到观测截止日的消费总次数(F),最近一次消费时间与观测截止日的间隔(R),总消费数(M),消费频率(P)。

用aij表示第i个消费者第j个指标的取值,首先将各指标aij转化为标准化指标值,即:

bij

(i=1,2,···,8806;j=1,2,3,4.)

式中:

aij为原始数据,bij为处理后数据。

mj,Mj分别为第j个指标的最小值和最大值。

(4)将消费者样本数据进行聚类分类

Step1:

计算8809个消费者样本点两两之间的距离,构造距离矩阵dik88068806,这里距离采用欧几里得距离:

j4

2

dikbbijkj,(i,k=1,2,···,8806.)j1

使用最短距离法来测量类与类之间的距离,即类Gp和Gq之间的距离:

DGGpq,iGkGminp,qdik..

Step2:

构造8806个类,每一个类中只包含一个样本点,每一类的平台高度均为零:

Step3:

合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高度。

Step4:

若类的个数等于1,转入步骤3,否则计算新类与当前各类的距离,回到步骤2。

Step5:

利用Matlab绘制聚类图,根据需要决定聚类的个数和类。

5.1.3问题一模型的求解聚类分析:

根据聚类分析的原理,利用Matlab软件根据消费者的五个指标变量对消费者样本进行聚类,聚类树型图如下

562312197282317134298926221011141524162021251827301

图1-2消费者聚类树形图

分析上面的消费者聚类树型图可知,我们将消费者样本分为8类,结果如下表所示:

表1-1消费者分类表

分类

消费者编号

第一类

M00058、M00060、M00116、M00135、M00142

第二类

M00081、M00086、M00114、M00118……

第三类

M00167、M00018、M00332、M01332

第四类

M00025、M00035、M00044、M00051……

第五类

M00953、M01148、M01281、M01379……

第六类

M00502、M00774、M00936、M01128……

第七类

M00111、M00121、M00148、M00149……

第八类

M00203、M00220、M00236、M00243……

5.2问题二模型建立与求解

5.2.1问题二的分析

本问题要求分析不同类别消费者的特征,比较不同天类别消费者的价值。

那么,首先我们可以通过主成份分析的方法对第一问中分为八类的消费者进行排序评价。

根据第一问将消费者分为8类,将每一类消费者指标变量的数据值累加求平均值作为该类消费者该类指标的数据值,数据表如下:

a

Npqpq,p=1,2,···,8;q=1,2,3,4,5.

np

式中:

p表示消费者类别,q表示消费者的变量指标,Npq表示第p类消费者第q

个指标变量的归一化数据平均值。

利用Matlab软件对消费者分类的数据进行累加计算,经整理后如下表所示:

表2-1消费者指标均值表

类别

从进入系统到观测截止日的消费总次数(C)

最近一次消费时间与观测截止日的

间隔倒数

(J)

总消费数

(M)

消费频率

(P)

平均折扣率

(Z)

第一类消费者

0.090192308

0.002852897

0.058138665

0.001641337

0.122669271

第二类消费者

0.406940608

0.013890055

0.191869613

0.50585663

0.792672652

第三类消费者

0.173377404

0.002321694

0.071097977

0.002540537

0.165547689

第四类消费者

0.708013333

0.00634

0.3411

0.441973333

0.810966667

第五类消费者

0.175828571

0.530457143

0.166771429

0.522414286

0.6316

第六类消费者

0.083571034

0.464841034

0.076409655

0.461973448

0.737987931

第七类消费者

0.109251724

0.089510345

0.180686207

0.454686207

0.927765517

第八类消费者

0.265025

0.01885

0.22094375

0.3563625

0.78144375

5.2.2问题二模型的建立(主成份分析)

用xxxxx1,,,,2345分别表示从进入系统到观测截止日的消费总次数、最近一次消费时间与观测截止日的间隔的倒数、总消费数、平均折扣率、进入系统到观测截止日的消费频率。

用i=1,2,3,···,8分别表示第一类到第八类消费者。

第i类消费者第j个指标变量xj的值取作aij。

(1)对原始数据进行标准化处理。

将各指标aij转化成标准指标aij,即

个指标的样本均值和样本标准差。

对应地,称

x-

xjj,j=1,2,3,4.

jsj

为标准化指标变量。

(2)计算相关系数矩阵R相关系数矩阵

Rrjk44,

16

aa·

rik6i1ijik,,jk1,2,,5.61

式中:

Rjk1,rrjkki,rjk是第j个指标与第k个指标的相关系数。

(3)计算特征值和特征向量计算相关系数矩阵R的特征值123450,及对应的标准化特征

T向量uuuuu1,,,,,2345其中,由特征向量uuuuuuj1jjjjj,,,,2345组成p个新的指标变

量:

yuxuxuxuxux1111+212313414515,

yuxuxuxuxux2121222323424525,

yuxuxuxuxux3131232333434535,

yuxuxuxuxux4141242343444545,yuxuxuxuxux5151252353454555.

式中:

y1是第1主成分,y2是第2主成份;y3是第三主成份,y4是第四主成份,y5是第五主成份。

(4)选择pp5个主成份,计算综合评价值

Step1:

计算特征值j(j=1,2,3,4,5)的信息贡献率和累计贡献率,称

bj

4j,j1,2,3,4,5.

k

i1

为主成份yj的信息贡献率;

p

k

pk41

kk1

为主成份yyy1,,,2p的累积贡献率,当p接近与1(p0.85,0.90,0.95)时,

则选择前个指标变量yyy1,,,2p作为p个主成份,代替原来5个指标变量,从而可对

p个主成份进行综合分析。

Step2:

计算综合得分:

p

zbyjj.

j1

式中:

bj为第j个主成份的信息贡献率,根据综合得分值就可以进行评价。

5.2.3问题二模型的求解

将前面表----的数据整理为数据文件:

zhuchengfendata,文件见附录,利用

Matlab读取并计算出主成份的特征根,贡献率,软件求得相关系数矩阵的前四个特征根及其贡献率如表所示:

表2-2主成份分析表

序号

特征值

贡献率

累积贡献率

1

2.8737

57.4734

57.4734

2

1.6525

33.0491

90.5225

3

0.3783

7.5658

98.0883

4

0.0761

1.5216

99.6099

5

0.0195

0.3901

100.0000

可以看出,前三个特征根的累积贡献率就达到了98%以上,主成份分析效果很好。

下面选取前三个主成份进行综合评价。

前三个特征根的特征向量如表所示:

表2-3主成份对应的特征相量表

x1

x2

x3

x4

x5

第1特征向量

0.4294

0.0268

0.5370

0.5007

0.5251

第2特征向量

-0.4511

0.7175

-0.2693

0.3945

0.2316

第3特征向量

0.5504

0.6148

0.1337

-0.0787

-0.5431

由此可得三个主成份分分别为:

y10.4294x1?

0.0268x20.550x30.5370x40.5251x5,

y20.4511x1?

0.7175x20.2693x30.3945x40.2316x5,

y30.5504x1?

0.6148?

x20.1337x30.0787x40.5431x5.

从主成份的系数可以看出,第一主成份主要反映了后三个指标(总消费数M,进入系统到观测截止日的间隔T,平均折扣率Z),第二主成份主要反映了最近一次消费时间与观测截止日的间隔(j),第三主成份主要反映了从进入系统到观测截止日的消费总次数(C)、最近一次消费时间与观测截止日的间隔(j)。

把各类消费者的5个指标的标准化数据代入3个主成份的表达式,就可以得到各类消费者的3个主成分值。

分别以3个主成份的贡献率为权重,构建主成分综合评价模型,即:

Z57.4734y133.0491y17.5658.y1

把各类消费者的3个主成份值代入上式,可以得到各年度的综合评价值以及排序结果。

利用Matlab进行计算综合评价值和排序结果,如表所示:

表2-4综合价值排序表

消费者类别

第四类

第二类

第八类

第五类

第七类

第六类

第三类

第一类

名次

1

2

3

4

5

6

7

8

综合价值

评分

0.9434

0.8342

0.4977

0.4694

0.429

4

0.184

9

-

1.6126

-

1.7465

从而,对八类消费者价值进行比较,综合价值评分越高,则该类消费者的价值越高。

综合价值最高的是第四类消费者,其次是第二类、第八类、第五类、第七类、第六类、第三类消费者,最低的是第一类消费者。

5.2.4问题二结果的分析及验证

因五个指标变量对综合价值的影响趋势相同,都是越大越好,所以将每一类消费者的变量指标相加的总值进行比较,利用Excel绘图各类消费者的指标总值图如下:

图2-1消费者指标总值对比图

可发现指标总值最大的是第四类消费者,其次是第二类、第八类、第五类、第七类、第六类、第三类消费者,最低的是第一类消费者。

均与上述主成分分析的消费者综合价值排序一致。

5.3问题三模型建立与求解

5.3.1问题三的分析

通过对消费者进行价值识别后有助于挖掘不同消费群体的消费者特征,针对不同的客户群体有重点、有层次的制定不同的营销策略,优先服务于核心客户。

根据我们查阅资料可知,交易量大、消费频率高的客户是企业的重要利润来源,属于重要维持客户;购买量大但交易次数较少的客户是企业的重要发展客户;购买频率较低且购买量也少的客户属于企业一般重要客户;购买量大、购买频率高但最近一次交易时间间长的客户存在较高流失概率,是企业的重要挽留客户;购买量少、购买频率较低的客户属于企业的一般客户、无价值客户。

5.3.2问题三模型的建立

将各类客户指标数据与特征指标的均值进行比较,各指标对比有大于(等于)或小于均值两种可能结果。

如果单个类别客户的指标值大于均值,标记“↑”,反之则标记

“↓”。

表3-1各项指标总均值

进入系统的总消费次数(C)

最近一次消费时间与观测截止日的间隔倒数(J)

总消费数(M)

平均折扣率(Z)

消费频率(p)

0.141132896

0.163377162

0.343431035

0.621331685

0.343431035

进行对比整理后的结果:

表3-2指标对比

C

J

M

Z

P

第四类消费者第二类消费者

第七类消费者第八类消费者

第五类消费者第六类消费者

第一类消费者第三类消费者

其中C表示从进入系统到观测截止日的消费总次数,J表示最近一次消费时间与观测截止日的间隔的倒数,M表示总消费数,Z表示平均折扣率,P表示进入系统到观测截止日的消费频率。

通过对各特征指标趋势比较,可得出第四类消费者和第二类消费者特征指标趋势一致,第七类和第八类消费者特征指标趋势一致,第五类和第六类指标趋势一致,第一类和第三类消费者特征指标趋势一致。

5.3.3对比结果的分析

从进入系统到观测截止日的消费总次数C,最近一次消费时间与观测截止日的间隔的倒数J,总消费数M,平均折扣率Z,P表示进入系统到观测截止日的消费频率。

其中

J=1/D为日期间隔的倒数,值越大,价值越高。

第四类消费者、第二类消费者:

这类消费者与企业交易频繁、最近一次交易时间间隔短、打折商品消费量高且交易量大,客户实际贡献的价值很高,是企业的优质客户群,企业利润的主要贡献者,继续维持与这类客户的关系是企业利润的重要保障。

企业针对这类消费群体,可为其办理VIP专属会员卡,以及对他们提高服务质量,使其保持对企业忠诚度,巩固消费。

第七类消费者、第八

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1