广州电信计费报告.docx
《广州电信计费报告.docx》由会员分享,可在线阅读,更多相关《广州电信计费报告.docx(15页珍藏版)》请在冰豆网上搜索。
广州电信计费报告
一、引言。
话音业务收入是目前国内各大电信运营商的重要收入来源,也是电信运营商之间竞争的焦点。
本文通过对广州电信固定电话用户2005年9月份总话费的统计分析,建立数学模型,以揭示出固定电话话费的主要组成部分以及影响因素。
通过对用户消费习惯的分析和研究,运营商能够提供更加符合用户使用习惯的话费套餐,为消费者提供更加贴心的服务,同时也可以促进人们在电信业务上的消费,创造更多的企业利润。
二、理论依据以及基本假定。
理论依据1:
若§是某一随机试验的随机变量,如果决定试验结果的是大量的偶然因素的总和,各个偶然因素之间近乎相互独立,并且每个偶然因素的单独作用相对于作用z的总和来说均匀的小,那么§就近似服从正态分布。
理论依据2:
中心极限定理:
给出一个任意形式的总体,其平均值为
,方差
有限。
如从这一总体抽出容量为n的样本,则当n无限增大时,由这些样本算出来的
的分布将趋近平均值为
,方差为
/n的正态分布。
通常n>30就可以认为是大样本。
理论依据3:
一元回归分析:
从一个变量的取值来推算出另一个变量的取值范围。
多元回归分析:
一元线性回归的逻辑推广。
当影响变量Y的主要因素有k个时,可以建立起的总体回归模型为Y=
。
可以通过最小二乘法求出回归系数的估计值。
经济学理论?
?
?
?
三、数据来源及分析:
广州电信的固定电话计费系统是我们此次研究的目标,通过分析试图建立固定电话费用的数学模型。
因此我们寻找到一组广州电信实际话费。
1.数据来源:
2005年1月1日后装电话的广州电信固定电话用户,在2005年9月的消费资料以及用户资料。
包括总话费、市话次数、长途电话时长、装机时间、客户等级、地区类型。
共19万条记录。
1)市话次数:
单位为次,市话次数与市话时长成正比,因此可认为市话次数代表市话拨打时间;
2)长途电话时长:
单位为时间,含传统长途、IP17090、96688长途;
3)装机时间:
单位为月,从装机日期到2005年9月的时间长度;
4)客户等级:
分为大客户、商业客户、普通客户、流动用户(指IC公共电话等);
5)地区类型:
分为广州市区、及广州周边地区(番禺、从化等)。
2.数据分析:
1)数据处理:
●由于原始数据有19万条记录,从中我们由电脑随机抽取500条左右的记录(538条)进行分析,以保证各变量之间的相关性能较为准确的体现。
●因变量:
固定电话总费用,其计算系统是相当复杂的,受多方面的因素影响,经过分析,我们初步确定与总话费相关的各自变量为:
市话次数、长途电话时长、装机时间、客户等级、地区类型
●自变量:
市话次数、长途电话时长为数值型数据;而客户等级、地区类型为类型数据。
因此引入类型虚拟变量:
客户等级(grade1—大客户、grade2—商业客户、grade3—普通客户,以“流通客户”做为参照基准)。
地区类型(area—广州周边地区,以“广州市”为参照基准)
部分数据截取
号码
地区
客户级别
装机时间
总话费
市话次数
长话时长
grade1
grade2
grade3
area
85271324
1
1
9
548.98
1589
26466
1
0
0
0
87609198
1
1
9
480.53
879
0
1
0
0
0
87607098
1
1
9
375.47
771
475.2
1
0
0
0
38785368
1
1
8
35
0
0
1
0
0
0
38331309
1
1
8
138.34
776
186.9
1
0
0
0
38372552
1
1
7
443.48
1184
714
1
0
0
0
38810479
1
1
7
73.46
97
1818
1
0
0
0
38681200
1
1
7
20
0
0
1
0
0
0
38798121
1
1
5
41.44
4
0
1
0
0
0
38207371
1
1
5
71.38
232
0
1
0
0
0
85171838
1
1
5
264.69
918
1632
1
0
0
0
38844416
1
1
4
356.09
38
3912
1
0
0
0
…
…
…
…
…
…
…
…
…
…
…
38886668
1
1
4
47
0
0
1
0
0
0
2)数据分析
●正态性:
固定电话总话费、固定电话市话时长、固定电话长途电话时长均为正态分布,且误差的概率正态
需要补充总话费的直方图和误差的正态概率图。
●如何证明同方差性。
做残差图,带状说明等方差
●查看长途电话与市话的相关矩阵,是否共线。
●根据计费规则可知,在给定的资费下,市话时长的增加会导致总话费的线性增加,长途电话市场的增加同样会导致总话费的线性增加。
故从理论上说,市话时长和长话时间与总话费之间存在着某种线性关系。
3)回归分析
根据原始数据(538条记录)进行回多元线性回归分析,(因变量为总话费,自变量为市话次数、长话时长、客户类型(3个)及地区类型)可以得到:
表1-1:
ModelSummary(拟合过程小结)
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
0.611536154
0.373976468
0.372808514
352.0490874
2
0.621241634
0.385941168
0.383645621
348.9943441
A:
Predictors:
(Constant),市话次数
B:
Predictors:
(Constant),市话次数,长话时长
C:
DependentVariable:
总话费
表1-2:
Coefficients(回归系数分析)
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
CollinearityStatistics
Model
B
Std.Error
Beta
Tolerance
VIF
1
(Constant)
-13.962859
17.74535841
-0.786846
0.43172
市话次数
0.367906617
0.02056025
0.611536154
17.894073
1.721E-56
1
1
2
(Constant)
-22.6269652
17.79488259
-1.271543
0.2040879
市话次数
0.362234198
0.020457429
0.602107431
17.706731
1.475E-55
0.9926245
1.007430259
长话时长
0.002366165
0.000732862
0.109788889
3.2286636
0.00132
0.9926245
1.007430259
DependentVariable:
总话费
●由表1-1可以发现,虽然我们引入了7个变量,但拟合过程中,只有2个变量(市话次数、长话时长)进入模型,同时AdjustedR
值,也只有38%,说明这2个自变量的变动对总话费影响的解释力还不到40%。
但根据分析及经验,这似乎是不可能的。
●由表1-2进一步说明了,表1-1中所显示的问题。
但同时从表1-2中,不难得出自变量:
市话次数、长话时长之间并不存在相关共线性问题(VIF≦5)
●在数据分析中,表明了此组数据附合多元回归的基本假设,那么以上问题的出现,说明了数据中可能有部分异常值存在。
表1-3:
CasewiseDiagnostics(当前话费最量的奇异值表)
CaseNumber
Std.Residual
总话费
PredictedValue
Residual
13
7.30632335
763.33
118.0028762
645.3271238
17
3.162375234
415.87
136.5548894
279.3151106
21
4.349114597
797.39
413.2567664
384.1332336
43
3.895007248
565.87
221.8455565
344.0244435
63
6.456457118
1121.46
551.1968591
570.2631409
67
-3.438584503
94.83
398.5411474
-303.7111474
75
44.4983553
4359.86
429.5664362
3930.293564
93
4.434152752
533.67
142.0258166
391.6441834
144
3.211396756
482.06
198.4150896
283.6449104
208
-3.750441233
182.29
513.5457272
-331.2557272
229
84.9029752
8901.04
1402.029874
7499.010126
254
-6.833568841
112.95
716.5213333
-603.5713333
258
-4.454971044
89.43
482.912948
-393.482948
293
4.738884542
583.97
165.4105434
418.5594566
296
3.107566545
588.87
314.3958378
274.4741622
315
-4.692783374
74.72
489.2075955
-414.4875955
327
4.302590034
773.04
393.0160237
380.0239763
367
3.065451143
384.99
114.2356582
270.7543418
446
-3.585060735
571.62
888.2685826
-316.6485826
474
-10.38706909
166.45
1083.882353
-917.4323525
●表1-3为当前总话费的奇异值表,黄色标出的记录是其总话费超出总话费均值4倍标准差的记录,这些均为异常值,由于这些记录的存在,很大程度的影响了各变量的均值,如话费、长话时长等,因此对于这些异常值应进行剔除处理。
●剔除以上12条记录的原因:
四、回归分析及建立数据模型:
1.剔除异常值,再次回归:
(526条记录)
表1-4:
ModelSummary(拟合过程小结)
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
Model
DEL1~=1.00(Unselected)
1
0.623181196
0.622462076
79.73592657
2
0.719957822
0.718886915
68.80409459
3
0.724929094
0.723348227
68.25594482
4
0.730116043
0.728043998
67.67419179
5
0.588608706
0.734281105
0.731726115
67.21449692
aPredictors:
(Constant),市话次数
bPredictors:
(Constant),市话次数,长话时长
cPredictors:
(Constant),市话次数,长话时长,GRADE1
dPredictors:
(Constant),市话次数,长话时长,GRADE1,GRADE2
ePredictors:
(Constant),市话次数,长话时长,GRADE1,GRADE2,GRADE3
fUnlessnotedotherwise,statisticsarebasedonlyoncasesforwhichDEL1=1.00.
gDependentVariable:
总话费
●7个自变量中,除了“地区area”变量没有进入模型外,其它都对“总话费”产生了影响,同时AdjustedRSquare:
达到了解73.1%,说明了市话次数、长话时长、及客户级别共同组合因素可以对总话费的73.1%进行解释,同时也说明“地区area”变量对总话费的影响很小。
表1-5:
Coefficients(回归系数分析)
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
CollinearityStatistics
B
Std.Error
Beta
Tolerance
VIF
5
(Constant)
1.33580
11.7478
0.1137
0.9095
市话次数
0.17018
0.0055
0.7293
31.0136
0.0000
0.92
1.08
长话时长
0.00204
0.0001
0.3147
13.7990
0.0000
0.98
1.02
GRADE1
71.17798
15.4170
0.1566
4.6169
0.0000
0.44
2.25
GRADE2
54.35124
13.2542
0.1861
4.1007
0.0000
0.25
4.03
GRADE3
35.32825
12.3743
0.1346
2.8550
0.0045
0.23
4.35
aDependentVariable:
总话费
bSelectingonlycasesforwhichDEL1=1.00
2.建立数据模型:
在广州:
每月每位固定电话用户的总话费=
1.34+0.17018*当月固定电话市话次数+0.00204*当月固定电话长话时长+71.17798*是大客户+54.35124*是商业客户+35.32825*是普通客户
五、模型检验与评价:
1.方差分析
表1-6:
ANOVA(方差分析)
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
5509613.711
1
5509613.711
866.588777
3.8994E-113
Residual
3331496.625
524
6357.817987
Total
8841110.336
525
2
Regression
6365226.541
2
3182613.27
672.287909
2.8115E-145
Residual
2475883.795
523
4734.003433
Total
8841110.336
525
3
Regression
6409178.106
3
2136392.702
458.564173
7.7075E-146
Residual
2431932.23
522
4658.874003
Total
8841110.336
525
4
Regression
6455036.498
4
1613759.124
352.364831
1.268E-146
Residual
2386073.838
521
4579.796235
Total
8841110.336
525
5
Regression
6491860.266
5
1298372.053
287.39106
4.4821E-147
Residual
2349250.07
520
4517.788597
Total
8841110.336
525
aPredictors:
(Constant),市话次数
bPredictors:
(Constant),市话次数,长话时长
cPredictors:
(Constant),市话次数,长话时长,GRADE1
dPredictors:
(Constant),市话次数,长话时长,GRADE1,GRADE2
ePredictors:
(Constant),市话次数,长话时长,GRADE1,GRADE2,GRADE3
fDependentVariable:
总话费
gSelectingonlycasesforwhichDEL1=1.00
●方差分析中的F值足够大,说明了回归变差显著大于剩余变差,也进一步说明了回归方程的回归效果是显著的。
2.共线性分析:
由〈表1-5:
CoefficientsVIF〉中可知,各自变量的方差膨胀因子VIF≦5,说明自变量间不存在多重相关共线性。
3.残差分析:
表1-6:
ResidualsStatistics(残差分析的统计量)
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
1.45846117
827.6689453
119.2412738
111.2000365
526
Residual
-347.5231
370.9544678
4.19436E-14
66.89366217
526
Std.PredictedValue
-1.0591977
6.370750427
6.66978E-17
1
526
Std.Residual
-5.1703596
5.518964767
5.835E-16
0.995226703
526
aDependentVariable:
总话费
bPooledCases
加入分析结论(本人不太明白,看书中说,PredictedValue的Std.Deviation,应该小于3才好,否则可能还有异常值。
而且发现确实还是有异常值(可以看输出))
图1-1:
残差的直方图
●标准化残差基本呈正态分布。
图1-2:
残差的直方图
4.数据缺陷:
1)系统差异:
数据来源于统计系统,而非生产系统,统计系统与生产系统会存在误差。
例如:
对于预存话费的用户,用户话费已在预存的金额中扣除,在统计系统中,该类用户的总话费为0,覆盖了用户真实的消费金额。
2)计费处理规则的影响:
对于上月存在计费误差的用户,本月将给予补收补退,导致本月的总金额等于实际消费金额+需补收上月少收的费用(或-补退上月多收的费用),与用户实际消费金额有出入。
3)营销套餐的影响。
例如某用户本月实际消费金额为100元,由于参加了广州电信合家欢优惠,其固定电话的封顶值为50元,最后应收的总话费为50元,产生与用户实际消费值的差异。
六、对模型现实意义的解释
(对偏回归系数、决定系数等现实意义的解释)
回归模型:
在广州,每月每位固定电话用户的总话费=
1.34+0.17018*当月固定电话市话次数+0.00204*当月固定电话长话时长+71.17798*是大客户+54.35124*是商业客户+35.32825*是普通客户
1.其中偏回归系数0.17018――表示在广州,一位固定电话的用户,在当月长话时长已确定后,每多打一次市内电话,则该用户的总话费将增加约0.17元
2.其中偏回归系数0.00204――表示在广州,一位固定电话的用户,在当月市话次数已确定后,每多打一分钟长话,则该用户的总话费将增加约0.00204元
3.其中偏回归系数71.17798――表示在广州,一位固定电话的“大客户”相比一位固定电话的“流通用户”,在拔打了相同的“长话时长”和“市话次数”后,前者话费要比后者话费高约71.18元
4.其中偏回归系数54.35124――表示在广州,一位固定电话的“商业客户”相比一位固定电话的“流通用户”,在拔打了相同的“长话时长”和“市话次数”后,前者话费要比后者话费高约54.35元
5.其中偏回归系数54.35124――表示在广州,一位固定电话的“普通客户”相比一位固定电话的“流通用户”,在拔打了相同的“长话时长”和“市话次数”后,前者话费要比后者话费高约54.35元
七、结论与体会
1.结论
1)根据回归模型:
在广州,每月每位固定电话用户的总话费=
1.34+0.17018*当月固定电话市话次数+0.00204*当月固定电话长话时长+71.17798*是大客户+54.35124*是商业客户+35.32825*是普通客户
●可以看出,每月固定电话“市话次数”对每月“总话费”的影响最大,远比“长话时长”的话费贡献要大的多。
说明总话费的主要来源以本地市话为主,因此开发更多“市话”套餐,要相比“长话”套餐可以更快的争取更多商业利润。
●客户类型中,无疑对总话费贡献最大的依次是:
大客户、商业客户、普通客户,最后是流通用户,为争取更多的商业利润,可以针对大客户、商业客户开发一些灵活的优惠政策,争取更多的商业客户向大客户转变。
●…
●…