广州电信计费报告.docx

上传人:b****8 文档编号:28279707 上传时间:2023-07-10 格式:DOCX 页数:15 大小:74.92KB
下载 相关 举报
广州电信计费报告.docx_第1页
第1页 / 共15页
广州电信计费报告.docx_第2页
第2页 / 共15页
广州电信计费报告.docx_第3页
第3页 / 共15页
广州电信计费报告.docx_第4页
第4页 / 共15页
广州电信计费报告.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

广州电信计费报告.docx

《广州电信计费报告.docx》由会员分享,可在线阅读,更多相关《广州电信计费报告.docx(15页珍藏版)》请在冰豆网上搜索。

广州电信计费报告.docx

广州电信计费报告

一、引言。

话音业务收入是目前国内各大电信运营商的重要收入来源,也是电信运营商之间竞争的焦点。

本文通过对广州电信固定电话用户2005年9月份总话费的统计分析,建立数学模型,以揭示出固定电话话费的主要组成部分以及影响因素。

通过对用户消费习惯的分析和研究,运营商能够提供更加符合用户使用习惯的话费套餐,为消费者提供更加贴心的服务,同时也可以促进人们在电信业务上的消费,创造更多的企业利润。

二、理论依据以及基本假定。

理论依据1:

若§是某一随机试验的随机变量,如果决定试验结果的是大量的偶然因素的总和,各个偶然因素之间近乎相互独立,并且每个偶然因素的单独作用相对于作用z的总和来说均匀的小,那么§就近似服从正态分布。

理论依据2:

中心极限定理:

给出一个任意形式的总体,其平均值为

,方差

有限。

如从这一总体抽出容量为n的样本,则当n无限增大时,由这些样本算出来的

的分布将趋近平均值为

,方差为

/n的正态分布。

通常n>30就可以认为是大样本。

理论依据3:

一元回归分析:

从一个变量的取值来推算出另一个变量的取值范围。

多元回归分析:

一元线性回归的逻辑推广。

当影响变量Y的主要因素有k个时,可以建立起的总体回归模型为Y=

可以通过最小二乘法求出回归系数的估计值。

经济学理论?

三、数据来源及分析:

广州电信的固定电话计费系统是我们此次研究的目标,通过分析试图建立固定电话费用的数学模型。

因此我们寻找到一组广州电信实际话费。

1.数据来源:

2005年1月1日后装电话的广州电信固定电话用户,在2005年9月的消费资料以及用户资料。

包括总话费、市话次数、长途电话时长、装机时间、客户等级、地区类型。

共19万条记录。

1)市话次数:

单位为次,市话次数与市话时长成正比,因此可认为市话次数代表市话拨打时间;

2)长途电话时长:

单位为时间,含传统长途、IP17090、96688长途;

3)装机时间:

单位为月,从装机日期到2005年9月的时间长度;

4)客户等级:

分为大客户、商业客户、普通客户、流动用户(指IC公共电话等);

5)地区类型:

分为广州市区、及广州周边地区(番禺、从化等)。

2.数据分析:

1)数据处理:

●由于原始数据有19万条记录,从中我们由电脑随机抽取500条左右的记录(538条)进行分析,以保证各变量之间的相关性能较为准确的体现。

●因变量:

固定电话总费用,其计算系统是相当复杂的,受多方面的因素影响,经过分析,我们初步确定与总话费相关的各自变量为:

市话次数、长途电话时长、装机时间、客户等级、地区类型

●自变量:

市话次数、长途电话时长为数值型数据;而客户等级、地区类型为类型数据。

因此引入类型虚拟变量:

客户等级(grade1—大客户、grade2—商业客户、grade3—普通客户,以“流通客户”做为参照基准)。

地区类型(area—广州周边地区,以“广州市”为参照基准)

部分数据截取

号码

地区

客户级别

装机时间

总话费

市话次数

长话时长

grade1

grade2

grade3

area

85271324

1

1

9

548.98

1589

26466

1

0

0

0

87609198

1

1

9

480.53

879

0

1

0

0

0

87607098

1

1

9

375.47

771

475.2

1

0

0

0

38785368

1

1

8

35

0

0

1

0

0

0

38331309

1

1

8

138.34

776

186.9

1

0

0

0

38372552

1

1

7

443.48

1184

714

1

0

0

0

38810479

1

1

7

73.46

97

1818

1

0

0

0

38681200

1

1

7

20

0

0

1

0

0

0

38798121

1

1

5

41.44

4

0

1

0

0

0

38207371

1

1

5

71.38

232

0

1

0

0

0

85171838

1

1

5

264.69

918

1632

1

0

0

0

38844416

1

1

4

356.09

38

3912

1

0

0

0

38886668

1

1

4

47

0

0

1

0

0

0

2)数据分析

●正态性:

固定电话总话费、固定电话市话时长、固定电话长途电话时长均为正态分布,且误差的概率正态

需要补充总话费的直方图和误差的正态概率图。

●如何证明同方差性。

做残差图,带状说明等方差

●查看长途电话与市话的相关矩阵,是否共线。

●根据计费规则可知,在给定的资费下,市话时长的增加会导致总话费的线性增加,长途电话市场的增加同样会导致总话费的线性增加。

故从理论上说,市话时长和长话时间与总话费之间存在着某种线性关系。

 

3)回归分析

根据原始数据(538条记录)进行回多元线性回归分析,(因变量为总话费,自变量为市话次数、长话时长、客户类型(3个)及地区类型)可以得到:

表1-1:

ModelSummary(拟合过程小结)

Model

R

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

1

0.611536154

0.373976468

0.372808514

352.0490874

2

0.621241634

0.385941168

0.383645621

348.9943441

A:

Predictors:

(Constant),市话次数

B:

Predictors:

(Constant),市话次数,长话时长

C:

DependentVariable:

总话费

表1-2:

Coefficients(回归系数分析)

 

 

UnstandardizedCoefficients

StandardizedCoefficients

t

Sig.

CollinearityStatistics

Model

 

B

Std.Error

Beta

 

 

Tolerance

VIF

1

(Constant)

-13.962859

17.74535841

 

-0.786846

0.43172

 

 

 

市话次数

0.367906617

0.02056025

0.611536154

17.894073

1.721E-56

1

1

2

(Constant)

-22.6269652

17.79488259

 

-1.271543

0.2040879

 

 

 

市话次数

0.362234198

0.020457429

0.602107431

17.706731

1.475E-55

0.9926245

1.007430259

 

长话时长

0.002366165

0.000732862

0.109788889

3.2286636

0.00132

0.9926245

1.007430259

DependentVariable:

总话费

●由表1-1可以发现,虽然我们引入了7个变量,但拟合过程中,只有2个变量(市话次数、长话时长)进入模型,同时AdjustedR

值,也只有38%,说明这2个自变量的变动对总话费影响的解释力还不到40%。

但根据分析及经验,这似乎是不可能的。

●由表1-2进一步说明了,表1-1中所显示的问题。

但同时从表1-2中,不难得出自变量:

市话次数、长话时长之间并不存在相关共线性问题(VIF≦5)

●在数据分析中,表明了此组数据附合多元回归的基本假设,那么以上问题的出现,说明了数据中可能有部分异常值存在。

表1-3:

CasewiseDiagnostics(当前话费最量的奇异值表)

CaseNumber

Std.Residual

总话费

PredictedValue

Residual

13

7.30632335

763.33

118.0028762

645.3271238

17

3.162375234

415.87

136.5548894

279.3151106

21

4.349114597

797.39

413.2567664

384.1332336

43

3.895007248

565.87

221.8455565

344.0244435

63

6.456457118

1121.46

551.1968591

570.2631409

67

-3.438584503

94.83

398.5411474

-303.7111474

75

44.4983553

4359.86

429.5664362

3930.293564

93

4.434152752

533.67

142.0258166

391.6441834

144

3.211396756

482.06

198.4150896

283.6449104

208

-3.750441233

182.29

513.5457272

-331.2557272

229

84.9029752

8901.04

1402.029874

7499.010126

254

-6.833568841

112.95

716.5213333

-603.5713333

258

-4.454971044

89.43

482.912948

-393.482948

293

4.738884542

583.97

165.4105434

418.5594566

296

3.107566545

588.87

314.3958378

274.4741622

315

-4.692783374

74.72

489.2075955

-414.4875955

327

4.302590034

773.04

393.0160237

380.0239763

367

3.065451143

384.99

114.2356582

270.7543418

446

-3.585060735

571.62

888.2685826

-316.6485826

474

-10.38706909

166.45

1083.882353

-917.4323525

●表1-3为当前总话费的奇异值表,黄色标出的记录是其总话费超出总话费均值4倍标准差的记录,这些均为异常值,由于这些记录的存在,很大程度的影响了各变量的均值,如话费、长话时长等,因此对于这些异常值应进行剔除处理。

●剔除以上12条记录的原因:

 

四、回归分析及建立数据模型:

1.剔除异常值,再次回归:

(526条记录)

表1-4:

ModelSummary(拟合过程小结)

 

 

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

Model

DEL1~=1.00(Unselected)

 

 

 

1

 

0.623181196

0.622462076

79.73592657

2

 

0.719957822

0.718886915

68.80409459

3

 

0.724929094

0.723348227

68.25594482

4

 

0.730116043

0.728043998

67.67419179

5

0.588608706

0.734281105

0.731726115

67.21449692

aPredictors:

(Constant),市话次数

bPredictors:

(Constant),市话次数,长话时长

cPredictors:

(Constant),市话次数,长话时长,GRADE1

dPredictors:

(Constant),市话次数,长话时长,GRADE1,GRADE2

ePredictors:

(Constant),市话次数,长话时长,GRADE1,GRADE2,GRADE3

fUnlessnotedotherwise,statisticsarebasedonlyoncasesforwhichDEL1=1.00.

gDependentVariable:

总话费

●7个自变量中,除了“地区area”变量没有进入模型外,其它都对“总话费”产生了影响,同时AdjustedRSquare:

达到了解73.1%,说明了市话次数、长话时长、及客户级别共同组合因素可以对总话费的73.1%进行解释,同时也说明“地区area”变量对总话费的影响很小。

表1-5:

Coefficients(回归系数分析)

Model

UnstandardizedCoefficients

StandardizedCoefficients

t

Sig.

CollinearityStatistics

B

Std.Error

Beta

Tolerance

VIF

5

(Constant)

1.33580

11.7478

 

0.1137

0.9095

 

 

 

市话次数

0.17018

0.0055

0.7293

31.0136

0.0000

0.92

1.08

 

长话时长

0.00204

0.0001

0.3147

13.7990

0.0000

0.98

1.02

 

GRADE1

71.17798

15.4170

0.1566

4.6169

0.0000

0.44

2.25

 

GRADE2

54.35124

13.2542

0.1861

4.1007

0.0000

0.25

4.03

 

GRADE3

35.32825

12.3743

0.1346

2.8550

0.0045

0.23

4.35

aDependentVariable:

总话费

bSelectingonlycasesforwhichDEL1=1.00

2.建立数据模型:

在广州:

每月每位固定电话用户的总话费=

1.34+0.17018*当月固定电话市话次数+0.00204*当月固定电话长话时长+71.17798*是大客户+54.35124*是商业客户+35.32825*是普通客户

五、模型检验与评价:

1.方差分析

表1-6:

ANOVA(方差分析)

Model

 

SumofSquares

df

MeanSquare

F

Sig.

1

Regression

5509613.711

1

5509613.711

866.588777

3.8994E-113

Residual

3331496.625

524

6357.817987

 

 

Total

8841110.336

525

 

 

 

2

Regression

6365226.541

2

3182613.27

672.287909

2.8115E-145

Residual

2475883.795

523

4734.003433

 

 

Total

8841110.336

525

 

 

 

3

Regression

6409178.106

3

2136392.702

458.564173

7.7075E-146

Residual

2431932.23

522

4658.874003

 

 

Total

8841110.336

525

 

 

 

4

Regression

6455036.498

4

1613759.124

352.364831

1.268E-146

Residual

2386073.838

521

4579.796235

 

 

Total

8841110.336

525

 

 

 

5

Regression

6491860.266

5

1298372.053

287.39106

4.4821E-147

Residual

2349250.07

520

4517.788597

 

 

Total

8841110.336

525

 

 

 

aPredictors:

(Constant),市话次数

bPredictors:

(Constant),市话次数,长话时长

cPredictors:

(Constant),市话次数,长话时长,GRADE1

dPredictors:

(Constant),市话次数,长话时长,GRADE1,GRADE2

ePredictors:

(Constant),市话次数,长话时长,GRADE1,GRADE2,GRADE3

fDependentVariable:

总话费

gSelectingonlycasesforwhichDEL1=1.00

●方差分析中的F值足够大,说明了回归变差显著大于剩余变差,也进一步说明了回归方程的回归效果是显著的。

2.共线性分析:

由〈表1-5:

CoefficientsVIF〉中可知,各自变量的方差膨胀因子VIF≦5,说明自变量间不存在多重相关共线性。

3.残差分析:

表1-6:

ResidualsStatistics(残差分析的统计量)

 

Minimum

Maximum

Mean

Std.Deviation

N

PredictedValue

1.45846117

827.6689453

119.2412738

111.2000365

526

Residual

-347.5231

370.9544678

4.19436E-14

66.89366217

526

Std.PredictedValue

-1.0591977

6.370750427

6.66978E-17

1

526

Std.Residual

-5.1703596

5.518964767

5.835E-16

0.995226703

526

aDependentVariable:

总话费

bPooledCases

加入分析结论(本人不太明白,看书中说,PredictedValue的Std.Deviation,应该小于3才好,否则可能还有异常值。

而且发现确实还是有异常值(可以看输出))

图1-1:

残差的直方图

 

●标准化残差基本呈正态分布。

图1-2:

残差的直方图

4.数据缺陷:

1)系统差异:

数据来源于统计系统,而非生产系统,统计系统与生产系统会存在误差。

例如:

对于预存话费的用户,用户话费已在预存的金额中扣除,在统计系统中,该类用户的总话费为0,覆盖了用户真实的消费金额。

2)计费处理规则的影响:

对于上月存在计费误差的用户,本月将给予补收补退,导致本月的总金额等于实际消费金额+需补收上月少收的费用(或-补退上月多收的费用),与用户实际消费金额有出入。

3)营销套餐的影响。

例如某用户本月实际消费金额为100元,由于参加了广州电信合家欢优惠,其固定电话的封顶值为50元,最后应收的总话费为50元,产生与用户实际消费值的差异。

六、对模型现实意义的解释

(对偏回归系数、决定系数等现实意义的解释)

回归模型:

在广州,每月每位固定电话用户的总话费=

1.34+0.17018*当月固定电话市话次数+0.00204*当月固定电话长话时长+71.17798*是大客户+54.35124*是商业客户+35.32825*是普通客户

1.其中偏回归系数0.17018――表示在广州,一位固定电话的用户,在当月长话时长已确定后,每多打一次市内电话,则该用户的总话费将增加约0.17元

2.其中偏回归系数0.00204――表示在广州,一位固定电话的用户,在当月市话次数已确定后,每多打一分钟长话,则该用户的总话费将增加约0.00204元

3.其中偏回归系数71.17798――表示在广州,一位固定电话的“大客户”相比一位固定电话的“流通用户”,在拔打了相同的“长话时长”和“市话次数”后,前者话费要比后者话费高约71.18元

4.其中偏回归系数54.35124――表示在广州,一位固定电话的“商业客户”相比一位固定电话的“流通用户”,在拔打了相同的“长话时长”和“市话次数”后,前者话费要比后者话费高约54.35元

5.其中偏回归系数54.35124――表示在广州,一位固定电话的“普通客户”相比一位固定电话的“流通用户”,在拔打了相同的“长话时长”和“市话次数”后,前者话费要比后者话费高约54.35元

七、结论与体会

1.结论

1)根据回归模型:

在广州,每月每位固定电话用户的总话费=

1.34+0.17018*当月固定电话市话次数+0.00204*当月固定电话长话时长+71.17798*是大客户+54.35124*是商业客户+35.32825*是普通客户

●可以看出,每月固定电话“市话次数”对每月“总话费”的影响最大,远比“长话时长”的话费贡献要大的多。

说明总话费的主要来源以本地市话为主,因此开发更多“市话”套餐,要相比“长话”套餐可以更快的争取更多商业利润。

●客户类型中,无疑对总话费贡献最大的依次是:

大客户、商业客户、普通客户,最后是流通用户,为争取更多的商业利润,可以针对大客户、商业客户开发一些灵活的优惠政策,争取更多的商业客户向大客户转变。

●…

●…

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 小升初

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1