基于spss modeler的电商运营商户研究分析报告.docx
《基于spss modeler的电商运营商户研究分析报告.docx》由会员分享,可在线阅读,更多相关《基于spss modeler的电商运营商户研究分析报告.docx(29页珍藏版)》请在冰豆网上搜索。
基于spssmodeler的电商运营商户研究分析报告
基于spssmodeler的电商运营商户研究分析
一、研究内容
1.1、研究背景
客户在电商运营商户群中的地位十分重要。
在电商业新的市场格局重新确定后,各大电商运营商间的竞争往往首先发生在对客户资源的争夺上。
如何有效地保留现有客户、开发潜在客户、回流已流失客户是电商运营商在当前日益激烈的市场竞争中必须重视的三个环节。
所以,进行电商客户流失问题的研究,显得尤为重要。
1.2、研究目的
通过运用决策树和Logistic回归方法,找出影响客户流失的因素,建立合适的模型,对电商客户流失问题进行分析以及提供一些合理化的建议。
1.3、研究意义
了解不同区域电商客户流失的现状,并根据找到的一些影响因素,保留现有客户、开发潜在客户、回流已流失客户这三个方面提供一些建议。
1.4、研究方法
主要采用聚类、决策树和Logistic回归方法对数据进行分析。
二、数据介绍
2.1、数据来源
本次分析的数据来自数据堂的电商客户数据。
2.2、指标选取
本次分析一共选取了19个指标1000个样本,分别是:
区域、月服务、年龄、婚姻状况、居住时间、收入、受教育水平、工作时间、退休、性别、家庭人数、免费服务、设备租赁、呼叫卡服务、无线服务、长途距离、免费通信、客户类别、流失。
2.3、指标介绍
(1)区域:
电商客户来自3个不同的区域,1表示区域1,2表示区域2,3表示区域3;
(2)月服务:
电商客户上个月消费次数;
(3)年龄:
电商客户的年龄;
(4)婚姻状况:
电商客户的婚姻状况,0表示未婚,1表示已婚;
(5)居住时间:
电商客户在本区域的居住时间;
(6)收入:
电商客户以家庭为计算的收入;
(7)受教育水平:
电商客户的受教育水平,1表示高中以下,2表示高中,3表示专科,4表示本科,5表示研究生;
(8)工作时间:
电商客户已经工作的年限;
(9)退休:
电商客户的退休状态,0表示未退休,1表示已退休;
(10)性别:
电商客户的性别,0表示男性,1表示女性;
(11)家庭人数:
电商客户的家庭人口数;
(12)免费服务:
电商运营商是否提供免费服务,0表示提供,1表示不提供;
(13)设备租赁:
电商运营商是否提供设备租赁,0表示提供,1表示不提供;
(14)呼叫卡服务:
电商运营商是否呼叫卡服务,0表示提供,1表示不提供;
(15)无线服务:
电商运营商是否提供无线服务,0表示提供,1表示不提供;
(16)长途距离:
电商客户距离电商中心的距离;
(17)免费通信:
电商运营商提供免费通信的时间;
(18)客户类别:
电商运营商提供服务的类别,1表示提供基本服务,2表示提供电子服务,3表示提供附加服务,4表示提供全方位服务;
(19)流失:
电商客户上个月是否流失,0表示未流失,1表示流失。
三、数据预处理
3.1、数据审核
由上表,可得:
本次分析的数据都是有效的,不存在缺失值。
3.2、描述性统计量
描述统计量
N
极小值
极大值
均值
标准差
distance
600
.0000
36.7600
11.859700
7.5379513
pincome
600
3
23
8.59
4.106
hincome
600
3.0000000
62.0000000
19.593333333
9.7215638434
car
600
0
3
1.19
.935
age
600
19
65
41.66
13.485
children
600
0
2
.82
.552
people
600
1
5
2.98
1.028
area
600
70
180
121.85
28.380
有效的N(列表状态)
600
由上表,可得:
距离、个人收入、年收入、拥有汽车数量、教育水平、工作类型、家里人口数量、未成年人数量、房屋居住面积这8个变量的均值分别为:
11.8597、8.59、19.593333、1.19、41.66、.82、2.98、121.85,可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。
同时,这8个变量之间存在较强的线性相关性,说明变量之间存在严重的多重共线性,可以考虑对变量进行降维后在进行分析。
Distance、Pincome、Hincome、Age、Car、People、Children、Area、为数值型变量,Gender、Education、Job、Housing、Mode是定类型变量。
数值型的均值与方差:
描述统计量
N
均值
方差
distance
600
12.2377
55.326
pincome
600
8.34
14.984
hincome
600
19.10
90.688
age
600
42.15
187.220
car
600
1.18
.853
people
600
2.95
1.166
children
600
.81
.287
area
600
120.78
764.494
有效的N(列表状态)
600
分类型的频率:
统计量
gender
education
mode
job
housing
N
有效
600
600
600
600
600
缺失
0
0
0
0
0
gender
频率
百分比
有效百分比
累积百分比
有效
0
315
52.5
52.5
52.5
1
285
47.5
47.5
100.0
合计
600
100.0
100.0
education
频率
百分比
有效百分比
累积百分比
有效
1
42
7.0
7.0
7.0
2
95
15.8
15.8
22.8
3
151
25.2
25.2
48.0
4
238
39.7
39.7
87.7
5
74
12.3
12.3
100.0
合计
600
100.0
100.0
mode
频率
百分比
有效百分比
累积百分比
有效
1
229
38.2
38.2
38.2
2
139
23.2
23.2
61.3
3
180
30.0
30.0
91.3
4
52
8.7
8.7
100.0
合计
600
100.0
100.0
job
频率
百分比
有效百分比
累积百分比
有效
1
168
28.0
28.0
28.0
2
139
23.2
23.2
51.2
3
51
8.5
8.5
59.7
4
73
12.2
12.2
71.8
5
107
17.8
17.8
89.7
6
62
10.3
10.3
100.0
合计
600
100.0
100.0
housing
频率
百分比
有效百分比
累积百分比
有效
0
59
9.8
9.8
9.8
1
541
90.2
90.2
100.0
合计
600
100.0
100.0
四、K-均值聚类分析
我们可以通过k均值算法来判断出应用聚类分析来判断每个受访者所在的小区。
又因为存在数值型变量和分类型变量两类变量,所以先对数据进行标准化,再进行K-均值聚类分析。
判断结果如上表“聚类成员”所示。
在得到居民的不同小区类型后,我们可以通过分析不同小区居民的平均出行距离、平均家庭收入、年龄分布、性别分布、家庭人口数和受教育程度来观察他们的区别。
(1)对于数值型变量,进行独立样本t检验。
分析结果如下:
组统计量
小区
N
均值
标准差
均值的标准误
distance
1
376
11.9721
7.42282
.38280
2
224
12.6835
7.45907
.49838
hincome
1
376
15.33
7.966
.411
2
224
25.42
8.531
.570
age
1
376
41.82
13.845
.714
2
224
42.71
13.418
.897
people
1
376
2.55
.976
.050
2
224
3.62
.895
.060
独立样本检验
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
distance
假设方差相等
.076
.783
-1.133
598
.257
-.71143
.62765
-1.94409
.52124
假设方差不相等
-1.132
467.069
.258
-.71143
.62843
-1.94632
.52347
hincome
假设方差相等
1.447
.230
-14.614
598
.000
-10.092
.691
-11.448
-8.736
假设方差不相等
-14.363
443.673
.000
-10.092
.703
-11.473
-8.711
age
假设方差相等
1.135
.287
-.773
598
.440
-.893
1.155
-3.162
1.376
假设方差不相等
-.779
480.615
.436
-.893
1.146
-3.145
1.359
people
假设方差相等
2.427
.120
-13.457
598
.000
-1.075
.080
-1.232
-.918
假设方差不相等
-13.755
501.168
.000
-1.075
.078
-1.229
-.922
由上表中的结果:
hincome、people、distance和age的sig>0.05,可知:
hincome、people、distance和age无显著区别。
(2)对于分类型变量,进行卡方分布检验。
案例处理摘要
案例
有效的
缺失
合计
N
百分比
N
百分比
N
百分比
gender*小区
600
100.0%
0
.0%
600
100.0%
education*小区
600
100.0%
0
.0%
600
100.0%
gender*小区
交叉表
计数
小区
合计
1
2
gender
0
204
111
315
1
172
113
285
合计
376
224
600
卡方检验
值
df
渐进Sig.(双侧)
精确Sig.(双侧)
精确Sig.(单侧)
Pearson卡方
1.244a
1
.265
连续校正b
1.063
1
.303
似然比
1.244
1
.265
Fisher的精确检验
.273
.151
线性和线性组合
1.242
1
.265
有效案例中的N
600
a.0单元格(.0%)的期望计数少于5。
最小期望计数为106.40。
b.仅对2x2表计算
由上表结果:
gender的渐进sig>0.05,可知1区、2区的gender的区别是不显著的。
education*小区
交叉表
计数
小区
合计
1
2
education
1
31
11
42
2
65
30
95
3
84
67
151
4
155
83
238
5
41
33
74
合计
376
224
600
卡方检验
值
df
渐进Sig.(双侧)
Pearson卡方
9.053a
4
.060
似然比
9.106
4
.059
线性和线性组合
2.287
1
.130
有效案例中的N
600
a.0单元格(.0%)的期望计数少于5。
最小期望计数为15.68。
由上表结果:
education的渐进sig〉0.05,可知1区和2区的education不具有显著的差别。
五、Logistic回归分析
为了查看并分析各个变量是如何影响通勤交通方式,对每个小区分别建模逻辑回归,看哪个模型对出行方式选择的拟合更好,比较模型在检验样本里的表现,并分析各个变量如何影响通勤交通方式的选择。
1区多元逻辑回归分析:
ln(odds1)=4.65-0.015*distance+0.023*princome-0.4*hicome+0.812*gender-1.076*car+2.159*people-1.65*children+15.118*house+0.01*age-0.11area
由上表可知数据都是有效的;且由表二模型拟合信息得到得整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。
(2)对2区进行多元逻辑回归分析:
ln(odds1)=-4.65-0.015*distance-0.023*princome+0.4*hicome-0.812*gender+1.076*car-2.159*people+1.65*children+1.664*house-0.01*age+0.11area
由上表“似然比检验”可知:
pincome、age、job、children、area、housing均明显大于0.05,将其剔除,而education的sig=0.051与0.05相差不大分析结果如下:
由表一可知数据都是有效的;且由表二模型拟合信息得到得整个逻辑回归的表达式是显著的;由“似然比检验”表格可知所有变量的显著性水平均小于0.05,可知自变量对于因变量mode都是显著的;而在参数估计中可得,自变量的显著性水平较低,即这些变量和mode是有关系的。
六、决策树分析
上述采用Logistic回归分析得到的分类预测结果,找出了影响居民出行方式的因素。
这里,在采用决策树(C5.0)的分类预测,对样本进行80%建模和20%预测,再次对影响居民出行方式的因素进行分析。
为了查看并分析各个变量是如何影响通勤交通方式,对每个小区分别建模决策树,看哪个模型对出行方式选择的拟合更好,比较模型在检验样本里的表现,并分析各个变量如何影响通勤交通方式的选择。
1区决策树:
模型汇总
指定
增长方法
CHAID
因变量
mode
自变量
distance,pincome,hincome,age,gender,car,education,job,people,children,housing,area
验证
无
最大树深度
3
父节点中的最小个案
100
子节点中的最小个案
50
结果
自变量已包括
hincome,car
节点数
7
终端节点数
5
深度
2
风险
估计
标准误差
.402
.025
增长方法:
CHAID
因变量列表:
mode
分类
已观测
已预测
1
2
3
4
正确百分比
1
83
0
13
0
86.5%
2
26
0
69
0
0.0%
3
12
0
142
0
92.2%
4
7
0
24
0
0.0%
总计百分比
34.0%
0.0%
66.0%
0.0%
59.8%
增长方法:
CHAID
因变量列表:
mode
由上述决策树可知:
a.当居住地离上班地的距离≤7.0时,其出行方式主要以电动车自行车(76.8%)为通勤出行方式。
b.当居住地离上班地的距离在【7.0,22.0】区间内时,主要以电动车自行车(44,2%)为通勤出行方式,公共交通(33,2%)次之。
c.当居住地离上班地的距离>22.0时,主要以汽车(82.7%)为通勤出行方式。
在决策树模型中,分类的依据只是居住地离上班地的距离,模型分类较为粗糙单一。
而在逻辑回归分析中,先对变量进行似然比检验,把对因变量不显著的变量去除掉,循环往复,直至留下的变量全部对因变量显著时才停止,最后得到回归方程预测模型。
这样得到的模型不仅可以得出对因变量有影响的变量,还可以准确计算出每一个变量分别对出行方式的影响程度。
所以,逻辑回归对出行方式的拟合更好。
对2区进行决策树分析:
模型汇总
指定
增长方法
CHAID
因变量
mode
自变量
distance,pincome,hincome,age,gender,car,education,job,people,children,housing,area
验证
无
最大树深度
3
父节点中的最小个案
100
子节点中的最小个案
50
结果
自变量已包括
hincome,gender
节点数
5
终端节点数
3
深度
2
风险
估计
标准误差
.321
.031
增长方法:
CHAID
因变量列表:
mode
分类
已观测
已预测
1
2
3
4
正确百分比
1
100
13
20
0
75.2%
2
1
30
13
0
68.2%
3
0
4
22
0
84.6%
4
7
7
7
0
0.0%
总计百分比
48.2%
24.1%
27.7%
0.0%
67.9%
增长方法:
CHAID
因变量列表:
mode
由上表可知:
总的来说,逻辑回归分析优于决策树分析。
1.逻辑回归对数据整体结构的分析优于决策树,而决策树对局部结构的分析优于逻辑回归。
2.逻辑回归擅长分析线性关系,而决策树对线性关系的把握较差。
虽然对付非线性关系是决策树的强项,但是很多非线性关系完全可以用线性关系作为近似,而且效果很好。
线性关系在实践中有很多优点:
简洁,易理解,可以在一定程度上防止对数据的过度拟合。
3.逻辑回归对极值比较敏感,容易受极端值的影响,而决策树在这方面表现较好。
1、结论和建议
1“家庭收入”是影响是否违约的一个关键因素,其次是“性别”,最后是“是否有车”,其他因素没有进入决策树,对居民出行方式的影响很小。
2、家庭收入对出行方式影响较大,对使用汽车的影响为负。
当家庭收入≤26.0时,出行方式以公共交通(37.1%)为主,汽车(28.4%)次之。
当家庭收入>26.0时,出行方式以汽车(92.6%)为主。
通过居民出行方式选择的分析不难发现,个体机动化交通方式在对公共交通有着强烈排斥作用的同时正无时无刻地与公共交通进行激烈的竞争。
有车家庭和无车家庭在出行方式的选择上必然存在很大的差别,有车家庭出行时首选自驾车,由于自驾车需要花费取车、停车等额外时间,而且还需要缴付一定的进程及停车费用,所以在短途出行时,出行者大多数仍会采用传统的步行出行方式。
居民出行方式的选择影响着交通系统结构的建立。
我国目前正处于交通结构调整时期,出行方式日趋多样化,出行需求日益增长,为了调整城市交通各出行方式间的构成比例,建立一个可持续化的交通系统结构模式,仍需要大力发展公共交通,引导人们选择更加有益于社会、环境的出行方式