【原创】r语言逻辑回归移动通信客户流失规律分析附代码数据.docx
《【原创】r语言逻辑回归移动通信客户流失规律分析附代码数据.docx》由会员分享,可在线阅读,更多相关《【原创】r语言逻辑回归移动通信客户流失规律分析附代码数据.docx(10页珍藏版)》请在冰豆网上搜索。
有问题到淘宝找“大数据部落”就可以了
移动通信客户流失规律分析
1.研究问题
通过对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务。
2.数据来源
某年度随机抽取的1000个移动通信客户。
因变量是他们来年的流失行为(0=未流失,1=流失)。
为了能够预测客户的未来行为,我们采集了下面这些来自当
年的指标:
客户等级(区分VIP客户等级):
1,2,3,4;主叫次数(%):
7日内日
均主叫次数/90日内日均主叫次数;被叫次数(%):
7日内日均被叫次数/90日内日均通话时长;费用(%):
7日内日均通话费用/90日内日均通话费用。
该数据存放在csv文件mobile.csv中。
移动通信行业的现有企业中,一般情况下客户月流失率在3%左右,如果静态计算,则所有客户会在2-3年内全部流失。
在降低客户流失率方面,哪怕仅仅降低1%就意味着你至少可以有百万元的收入增长!
客户是一个公司最宝贵的财富,因此保持客户并增长客户就是头等重要的事情,同是又是很困难的一项任务。
在2011年底,中国的人口已达1347350000,同时手机量达到1006923000,也就是说中国的手机普及率差不多达到了75%,现有的用户数几乎已经接近人口总数。
在一个如此成熟和饱和的市场中,开拓新用户的难度可想而知。
根据美国市场
营销学会顾客满意手册的统计数据表明,吸引一个新顾客所耗费的成本大概相当于保持一个现有客户的5倍,而且从传统意义上来讲,移动通信行业保留旧客户利润
率为开发一位新客户之16倍,尤其对于剩余客户市场日渐稀疏的移动通信市场来
说,减少客户流失就意味着用更少的成本减少利润的流失,这点已经为运营商所广为接受。
由此可见客户保持的重要性,也就是说保留旧客户比开发、吸收新客户更重要。
在成熟期的产品市场中,要开拓新客户很不容易。
客户的忠诚度应该是一个企业能够生存发展的最大资产之一,拥有忠诚度的客户,会因客户有学习的效果,而使企业可以花费较少的成本来服务客户,降低了公司在服务成本上的支出,而且忠诚的客户也会宣传正面的口碑效应以作为他人的参考,进而替企业创造新的交易。
因此本文试图通过逻辑回归模型来对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务。
3.读取数据,并且查看数据概况
4.绘制变量之间的散点图
attach(data)
从上面的图中,我们可以看到各个变量之间的相关关系,其中主叫次数和被叫次数
呈正相关关系,通话时长和费用也成正相关关系。
然后绘制各个自变量和因变量(流失)的关系散点图,可以看到他们之间关系不是十分明显,从次数和流失的散点图来看,可能有正相关的关系,因此进行逻辑回归模型的分析。
5.建立逻辑回归模型
levels(data$流失)[1]"0""1"
split<-sample(1:
nrow(data),nrow(data)*(2/3))
训练集
data_train<-data[split,]
测试集
data_test<-data[-split,]
summary(fit)
Call:
glm(formula=流失~.,family=binomial(link="logit"),data=data_train)
DevianceResiduals:
Min 1Q Median 3Q Max
-3.1176 -0.7432 -0.4879 0.7124 4.1081
6.效应的显著性检验
Coefficients:
EstimateStd.ErrorzvaluePr(>|z|)
(Intercept)2.3178 0.31377.3891.47e-13***
客户等级
-0.4311
0.1613
-2.672
0.00753**
主叫次数
-0.6579
0.2393
-2.749
0.00597**
被叫次数
-2.4936
0.3065
-8.136
4.07e-16***
通话时长
0.1502
0.3542
0.424 0.67159
费用
0.2579
0.1893
1.362 0.17312
---
Signif.codes:
0'***'0.001'**'0.01'*'0.05'.'0.1''1(Dispersionparameterforbinomialfamilytakentobe1)
Nulldeviance:
895.30on665degreesoffreedomResidualdeviance:
672.74on660degreesoffreedomAIC:
684.74
NumberofFisherScoringiterations:
5
7.优势比解释
则客户等级每增加1个单位,客户流失的估计值变为exp(-0.4311)=0.6497939,
因此,客户等级越高,客户流失越低
则主叫次数每增加1个单位,客户流失的估计值变为exp(-0.6579)=0.5179379,因此,主叫次数越高,客户流失越低
则被叫次数每增加1个单位,客户流失的估计值变为exp(-2.4936)=0.08261203,
因此,被叫次数越高,客户流失越低
8.Logistics回归拟合的解释
从输出结果可以看出,回归方程为流失= 2.7885-0.5801客户等级-0.6756主叫
次数-2.6843被叫次数-0.5125通话时长+0.7565费用,变量和的统计量的估计值分别为-0.5801,-0.6756,-2.6843,-0.5125和0.7565,除了通话时长以外由对应的值都比显著性水平0.05小,可得4个偏回归系p数在显著性水平0.05下均显著不为零。
因此,可以认为客户等级、主叫次数、被叫次数和费用对客户流失具有显著的影响。
进一步地剩余方差的估计值,deviance统计量的估计值为898.52,说
明,回归方程效果较好。
9.效应的置信区间
置信区间是给定自变量值后,由回归方程得到的的流失预测值(实0y际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。
0y0y预测区间要比置信区间稍大,命令与显示结果如下
10.拟合优度与偏差
混淆矩阵
predictrealbadgood
0177 22
1 34 101
残差分析:
残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。
命令语句为plot(lm.1),显示结果如下
11.Logistics模型的残差:
皮尔逊残差与标准化残差
左上图是拟合值与残差的散点图,从图上可以发现,除去第3个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类
似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第3个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。
12.联表的Cochran-Mantel-Haenszel检验
CMH统计量=1926.2,df=1815,P-value=0.034.
由于p值小于0.05,因此可以认为不同的客户等级客户流失和主叫次数之间不是相互独立的。
13.总结
本文首先通过绘制客户流失与诸影响因素("客户等级""主叫次数""被叫次数""通话时长""费用")之间的散点图和计算它们之间的相关系数,可知客户流失与诸因素之间存在比较明显的非线性关系,因此,为简化问题,通过R软件,建立了逻辑回归模型.利用所得模型可对客户流失的因素进行探讨.
研究表明,客户流失和货币供应量与人民币短期存款利率并不存在长期的稳定
关系.因此,这里只使用此模型对我国移动通信市场作出粗略的线性估计.我们猜测只是由于影响客户流失的因素复杂,如通信公司的经营状况、客户心理等等,并最终反映在客户流失行为上来,表现在客户流失的高低.此外,移动通信市场是一个动态的过程,客户作为通信产品的需求者与供应者,通过流失率来表达对价格水平的意见.当然,值得注意的是,客户流失并不是由上述因素来决定,还有其他的影响因素。
通过回归分析可以发现,客户流失与主叫次数、通话时长息息相关。
由于移动通信市场是通信呼叫的场所。
通信市场分析方法包括技术分析、基本分析和演化分析,在此仅从技术分析角度来分析客户流失,比较片面的。
更由于在我国目前仍然以实体经济为主的经济模式之下,我国的移动通信市场仍处于青春时期,虽然非常活跃,但同时受制于国家体制。
随着经济的发展,未来的移动通信市场前景将随着经济总量的提升而不断扩大其基本面,但同时必须关注全球经济、政治的发展局势,把握国家宏观调控的尺度,不能单纯从相关影响因素的数据进行预测。