基于spss modeler的电商运营商户研究分析报告.docx

资源描述

基于spss modeler的电商运营商户研究分析报告.docx

《基于spss modeler的电商运营商户研究分析报告.docx》由会员分享，可在线阅读，更多相关《基于spss modeler的电商运营商户研究分析报告.docx（29页珍藏版）》请在冰豆网上搜索。

基于spss modeler的电商运营商户研究分析报告.docx

基于spssmodeler的电商运营商户研究分析报告

基于spssmodeler的电商运营商户研究分析

一、研究内容

1.1、研究背景

客户在电商运营商户群中的地位十分重要。

在电商业新的市场格局重新确定后，各大电商运营商间的竞争往往首先发生在对客户资源的争夺上。

如何有效地保留现有客户、开发潜在客户、回流已流失客户是电商运营商在当前日益激烈的市场竞争中必须重视的三个环节。

所以，进行电商客户流失问题的研究，显得尤为重要。

1.2、研究目的

通过运用决策树和Logistic回归方法，找出影响客户流失的因素，建立合适的模型,对电商客户流失问题进行分析以及提供一些合理化的建议。

1.3、研究意义

了解不同区域电商客户流失的现状，并根据找到的一些影响因素，保留现有客户、开发潜在客户、回流已流失客户这三个方面提供一些建议。

1.4、研究方法

主要采用聚类、决策树和Logistic回归方法对数据进行分析。

二、数据介绍

2.1、数据来源

本次分析的数据来自数据堂的电商客户数据。

2.2、指标选取

本次分析一共选取了19个指标1000个样本，分别是：

区域、月服务、年龄、婚姻状况、居住时间、收入、受教育水平、工作时间、退休、性别、家庭人数、免费服务、设备租赁、呼叫卡服务、无线服务、长途距离、免费通信、客户类别、流失。

2.3、指标介绍

（1）区域：

电商客户来自3个不同的区域，1表示区域1,2表示区域2，3表示区域3；

（2）月服务：

电商客户上个月消费次数；

（3）年龄：

电商客户的年龄；

（4）婚姻状况：

电商客户的婚姻状况，0表示未婚，1表示已婚；

（5）居住时间：

电商客户在本区域的居住时间；

（6）收入：

电商客户以家庭为计算的收入；

（7）受教育水平：

电商客户的受教育水平，1表示高中以下，2表示高中，3表示专科，4表示本科，5表示研究生；

（8）工作时间：

电商客户已经工作的年限；

（9）退休：

电商客户的退休状态，0表示未退休，1表示已退休；

（10）性别：

电商客户的性别，0表示男性，1表示女性；

（11）家庭人数：

电商客户的家庭人口数；

（12）免费服务：

电商运营商是否提供免费服务，0表示提供，1表示不提供；

（13）设备租赁：

电商运营商是否提供设备租赁，0表示提供，1表示不提供；

（14）呼叫卡服务：

电商运营商是否呼叫卡服务，0表示提供，1表示不提供；

（15）无线服务：

电商运营商是否提供无线服务，0表示提供，1表示不提供；

（16）长途距离：

电商客户距离电商中心的距离；

（17）免费通信：

电商运营商提供免费通信的时间；

（18）客户类别：

电商运营商提供服务的类别，1表示提供基本服务，2表示提供电子服务，3表示提供附加服务，4表示提供全方位服务；

（19）流失：

电商客户上个月是否流失，0表示未流失，1表示流失。

三、数据预处理

3.1、数据审核

由上表，可得：

本次分析的数据都是有效的，不存在缺失值。

3.2、描述性统计量

描述统计量

极小值

极大值

均值

标准差

distance

600

.0000

36.7600

11.859700

7.5379513

pincome

600

8.59

4.106

hincome

600

3.0000000

62.0000000

19.593333333

9.7215638434

car

600

1.19

.935

age

600

41.66

13.485

children

600

.82

.552

people

600

2.98

1.028

area

600

180

121.85

28.380

有效的N（列表状态）

600

由上表，可得：

距离、个人收入、年收入、拥有汽车数量、教育水平、工作类型、家里人口数量、未成年人数量、房屋居住面积这8个变量的均值分别为：

11.8597、8.59、19.593333、1.19、41.66、.82、2.98、121.85，可以看出这8个连续性变量不存在量纲上的差异，因此在后面的分析中，不需要进行标准化处理。

同时，这8个变量之间存在较强的线性相关性，说明变量之间存在严重的多重共线性，可以考虑对变量进行降维后在进行分析。

Distance、Pincome、Hincome、Age、Car、People、Children、Area、为数值型变量，Gender、Education、Job、Housing、Mode是定类型变量。

数值型的均值与方差：

描述统计量

均值

方差

distance

600

12.2377

55.326

pincome

600

8.34

14.984

hincome

600

19.10

90.688

age

600

42.15

187.220

car

600

1.18

.853

people

600

2.95

1.166

children

600

.81

.287

area

600

120.78

764.494

有效的N（列表状态）

600

分类型的频率：

统计量

gender

education

mode

job

housing

有效

600

缺失

gender

频率

百分比

有效百分比

累积百分比

有效

315

52.5

285

47.5

100.0

合计

600

100.0

education

频率

百分比

有效百分比

累积百分比

有效

7.0

15.8

22.8

151

25.2

48.0

238

39.7

87.7

12.3

100.0

合计

600

100.0

mode

频率

百分比

有效百分比

累积百分比

有效

229

38.2

139

23.2

61.3

180

30.0

91.3

8.7

100.0

合计

600

100.0

job

频率

百分比

有效百分比

累积百分比

有效

168

28.0

139

23.2

51.2

8.5

59.7

12.2

71.8

107

17.8

89.7

10.3

100.0

合计

600

100.0

housing

频率

百分比

有效百分比

累积百分比

有效

9.8

541

90.2

100.0

合计

600

100.0

四、K-均值聚类分析

我们可以通过k均值算法来判断出应用聚类分析来判断每个受访者所在的小区。

又因为存在数值型变量和分类型变量两类变量，所以先对数据进行标准化，再进行K-均值聚类分析。

判断结果如上表“聚类成员”所示。

在得到居民的不同小区类型后，我们可以通过分析不同小区居民的平均出行距离、平均家庭收入、年龄分布、性别分布、家庭人口数和受教育程度来观察他们的区别。

（1）对于数值型变量，进行独立样本t检验。

分析结果如下：

组统计量

小区

均值

标准差

均值的标准误

distance

376

11.9721

7.42282

.38280

224

12.6835

7.45907

.49838

hincome

376

15.33

7.966

.411

224

25.42

8.531

.570

age

376

41.82

13.845

.714

224

42.71

13.418

.897

people

376

2.55

.976

.050

224

3.62

.895

.060

独立样本检验

方差方程的Levene检验

均值方程的t检验

Sig.

Sig.（双侧）

均值差值

标准误差值

差分的95%置信区间

下限

上限

distance

假设方差相等

.076

.783

-1.133

598

.257

-.71143

.62765

-1.94409

.52124

假设方差不相等

-1.132

467.069

.258

-.71143

.62843

-1.94632

.52347

hincome

假设方差相等

1.447

.230

-14.614

598

.000

-10.092

.691

-11.448

-8.736

假设方差不相等

-14.363

443.673

.000

-10.092

.703

-11.473

-8.711

age

假设方差相等

1.135

.287

-.773

598

.440

-.893

1.155

-3.162

1.376

假设方差不相等

-.779

480.615

.436

-.893

1.146

-3.145

1.359

people

假设方差相等

2.427

.120

-13.457

598

.000

-1.075

.080

-1.232

-.918

假设方差不相等

-13.755

501.168

.000

-1.075

.078

-1.229

-.922

由上表中的结果：

hincome、people、distance和age的sig>0.05，可知：

hincome、people、distance和age无显著区别。

（2）对于分类型变量，进行卡方分布检验。

案例处理摘要

案例

有效的

缺失

合计

百分比

gender*小区

600

100.0%

.0%

600

100.0%

education*小区

600

100.0%

.0%

600

100.0%

gender*小区

交叉表

计数

小区

合计

gender

204

111

315

172

113

285

合计

376

224

600

卡方检验

值

渐进Sig.（双侧）

精确Sig.（双侧）

精确Sig.（单侧）

Pearson卡方

1.244a

.265

连续校正b

1.063

.303

似然比

1.244

.265

Fisher的精确检验

.273

.151

线性和线性组合

1.242

.265

有效案例中的N

600

a.0单元格（.0%）的期望计数少于5。

最小期望计数为106.40。

b.仅对2x2表计算

由上表结果：

gender的渐进sig>0.05，可知1区、2区的gender的区别是不显著的。

education*小区

交叉表

计数

小区

合计

education

151

155

238

合计

376

224

600

卡方检验

值

渐进Sig.（双侧）

Pearson卡方

9.053a

.060

似然比

9.106

.059

线性和线性组合

2.287

.130

有效案例中的N

600

a.0单元格（.0%）的期望计数少于5。

最小期望计数为15.68。

由上表结果：

education的渐进sig〉0.05，可知1区和2区的education不具有显著的差别。

五、Logistic回归分析

为了查看并分析各个变量是如何影响通勤交通方式，对每个小区分别建模逻辑回归，看哪个模型对出行方式选择的拟合更好，比较模型在检验样本里的表现，并分析各个变量如何影响通勤交通方式的选择。

1区多元逻辑回归分析：

ln（odds1）=4.65-0.015*distance+0.023*princome-0.4*hicome+0.812*gender-1.076*car+2.159*people-1.65*children+15.118*house+0.01*age-0.11area

由上表可知数据都是有效的；且由表二模型拟合信息得到得整个逻辑回归的表达式是显著的；由“似然比检验”表格可知所有变量的显著性水平均小于0.05，可知自变量对于因变量mode都是显著的；而在参数估计中可得，自变量的显著性水平较低，即这些变量和mode是有关系的。

（2）对2区进行多元逻辑回归分析：

ln（odds1）=-4.65-0.015*distance-0.023*princome+0.4*hicome-0.812*gender+1.076*car-2.159*people+1.65*children+1.664*house-0.01*age+0.11area

由上表“似然比检验”可知：

pincome、age、job、children、area、housing均明显大于0.05，将其剔除，而education的sig=0.051与0.05相差不大分析结果如下：

由表一可知数据都是有效的；且由表二模型拟合信息得到得整个逻辑回归的表达式是显著的；由“似然比检验”表格可知所有变量的显著性水平均小于0.05，可知自变量对于因变量mode都是显著的；而在参数估计中可得，自变量的显著性水平较低，即这些变量和mode是有关系的。

六、决策树分析

上述采用Logistic回归分析得到的分类预测结果，找出了影响居民出行方式的因素。

这里，在采用决策树（C5.0）的分类预测，对样本进行80%建模和20%预测，再次对影响居民出行方式的因素进行分析。

为了查看并分析各个变量是如何影响通勤交通方式，对每个小区分别建模决策树，看哪个模型对出行方式选择的拟合更好，比较模型在检验样本里的表现，并分析各个变量如何影响通勤交通方式的选择。

1区决策树：

模型汇总

指定

增长方法

CHAID

因变量

mode

自变量

distance,pincome,hincome,age,gender,car,education,job,people,children,housing,area

验证

无

最大树深度

父节点中的最小个案

100

子节点中的最小个案

结果

自变量已包括

hincome,car

节点数

终端节点数

深度

风险

估计

标准误差

.402

.025

增长方法:

CHAID

因变量列表:

mode

分类

已观测

已预测

正确百分比

86.5%

0.0%

142

92.2%

0.0%

总计百分比

34.0%

0.0%

66.0%

0.0%

59.8%

增长方法:

CHAID

因变量列表:

mode

由上述决策树可知：

a.当居住地离上班地的距离≤7.0时，其出行方式主要以电动车自行车（76.8%）为通勤出行方式。

b.当居住地离上班地的距离在【7.0,22.0】区间内时，主要以电动车自行车（44,2%）为通勤出行方式，公共交通（33,2%）次之。

c.当居住地离上班地的距离>22.0时，主要以汽车（82.7%）为通勤出行方式。

在决策树模型中，分类的依据只是居住地离上班地的距离，模型分类较为粗糙单一。

而在逻辑回归分析中，先对变量进行似然比检验，把对因变量不显著的变量去除掉，循环往复，直至留下的变量全部对因变量显著时才停止，最后得到回归方程预测模型。

这样得到的模型不仅可以得出对因变量有影响的变量，还可以准确计算出每一个变量分别对出行方式的影响程度。

所以，逻辑回归对出行方式的拟合更好。

对2区进行决策树分析：

模型汇总

指定

增长方法

CHAID

因变量

mode

自变量

distance,pincome,hincome,age,gender,car,education,job,people,children,housing,area

验证

无

最大树深度

父节点中的最小个案

100

子节点中的最小个案

结果

自变量已包括

hincome,gender

节点数

终端节点数

深度

风险

估计

标准误差

.321

.031

增长方法:

CHAID

因变量列表:

mode

分类

已观测

已预测

正确百分比

100

75.2%

68.2%

84.6%

0.0%

总计百分比

48.2%

24.1%

27.7%

0.0%

67.9%

增长方法:

CHAID

因变量列表:

mode

由上表可知：

总的来说，逻辑回归分析优于决策树分析。

1．逻辑回归对数据整体结构的分析优于决策树，而决策树对局部结构的分析优于逻辑回归。

2．逻辑回归擅长分析线性关系，而决策树对线性关系的把握较差。

虽然对付非线性关系是决策树的强项，但是很多非线性关系完全可以用线性关系作为近似，而且效果很好。

线性关系在实践中有很多优点：

简洁，易理解，可以在一定程度上防止对数据的过度拟合。

3．逻辑回归对极值比较敏感，容易受极端值的影响，而决策树在这方面表现较好。

1、结论和建议

1“家庭收入”是影响是否违约的一个关键因素，其次是“性别”，最后是“是否有车”，其他因素没有进入决策树，对居民出行方式的影响很小。

2、家庭收入对出行方式影响较大，对使用汽车的影响为负。

当家庭收入≤26.0时，出行方式以公共交通（37.1%）为主，汽车（28.4%）次之。

当家庭收入>26.0时，出行方式以汽车（92.6%）为主。

通过居民出行方式选择的分析不难发现，个体机动化交通方式在对公共交通有着强烈排斥作用的同时正无时无刻地与公共交通进行激烈的竞争。

有车家庭和无车家庭在出行方式的选择上必然存在很大的差别，有车家庭出行时首选自驾车，由于自驾车需要花费取车、停车等额外时间，而且还需要缴付一定的进程及停车费用，所以在短途出行时，出行者大多数仍会采用传统的步行出行方式。

居民出行方式的选择影响着交通系统结构的建立。

我国目前正处于交通结构调整时期，出行方式日趋多样化，出行需求日益增长，为了调整城市交通各出行方式间的构成比例，建立一个可持续化的交通系统结构模式，仍需要大力发展公共交通，引导人们选择更加有益于社会、环境的出行方式

展开阅读全文