判定系数与相关系数的深入研究.docx
《判定系数与相关系数的深入研究.docx》由会员分享,可在线阅读,更多相关《判定系数与相关系数的深入研究.docx(7页珍藏版)》请在冰豆网上搜索。
判定系数与相关系数的深入研究
什么叫相关性?
比如某个地区人的身高与体重的关系,某个学校学生学习时间与学习成绩的关系,我们的收入与教育水平的关系等等,除此之外,在我们工作中也有大量相关性的应用实例,例如我们在定位质差原因中运用常规MRR与质差MRR的电平分布间的相关性,在定位互调干扰小区时运用干扰系数与话务量的相关性,在分析质差成因时运用全网质差话务比例与弱信号的相关性等等,既然我们的工作离不开相关性的运用,那我们有必要深入的去了解相关性的计算及其原理。
一、概念介绍
说到相关性分析会使我们联想到线性回归和散点图的概念,它们同属于回归分析中的概念,都是被广泛应用的相关性分析方法:
线性回归:
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一,通俗点来说回归分析是寻找相关关系中非确定性关系的某种确定性,相关性可以从涉及到的变量数量、表现形式及变化方向进行分类,如下图所示:
散点图:
散点图是用于表示因变量随自变量而变化的大致趋势,是将变量相关性图形化的工具,用于判断的分析两组变量之间是否存在某种关联或总结坐标点的分布模式,散点图主要体现变量间的关系主要有:
正线性相关、负线性相关、非线性(曲线)相关和不相关四种相关关系,其中线性相关又分强线性相关和一般线性相关,具体形态如以下图例所示:
1)强正(负)线性相关
2)正(负)线性相关
3)非线性(曲线)相关&不相关
二、线性回归主要参数解释:
通过Excel的“数据分析”功能可以计算出线性回归分析数据,如下图所示:
我们主要关注【回归统计】中可以反映变量间相关性的“相关系数MultipleR”和“判定系数Rsquare”两个指标:
1.MultipleR(相关系数R):
相关系数是建立在相关分析基础上,用来分析衡量变量x和变量y之间相关程度的大小。
通常用r表示,该值的范围为:
-1≤r≤1,与值对应的相关性的强弱关系如下图所示:
相关系数计算公式及案例:
现假设在判断10BSZCW小区是否存互调干扰嫌疑时,通过话务量与干扰系数的相关性进行定位,该小区24小时的综合话务量及干扰系数如下表所示(灰色部分为计算演示值):
10BSZCW
综合话务量
干扰系数
X的平方
Y的平方
X*Y
2012/12/270:
00
22.33
4.25
498.84
18.05
94.90
2012/12/271:
00
11.78
2.72
138.75
7.43
32.10
2012/12/272:
00
10.01
2.34
100.19
5.46
23.40
2012/12/273:
00
2.38
1.57
5.64
2.47
3.73
2012/12/274:
00
2.00
1.38
4.00
1.89
2.75
2012/12/275:
00
1.78
1.52
3.17
2.32
2.71
2012/12/276:
00
2.59
1.58
6.73
2.49
4.09
2012/12/277:
00
5.26
2.05
27.67
4.19
10.77
2012/12/278:
00
8.30
2.35
68.90
5.52
19.50
2012/12/279:
00
8.09
2.74
65.40
7.49
22.14
2012/12/2710:
00
10.01
2.95
100.11
8.70
29.52
2012/12/2711:
00
8.25
2.69
68.10
7.23
22.19
2012/12/2712:
00
10.00
2.98
99.91
8.88
29.79
2012/12/2713:
00
8.52
2.63
72.57
6.90
22.38
2012/12/2714:
00
7.60
2.34
57.71
5.49
17.80
2012/12/2715:
00
10.06
2.90
101.17
8.39
29.13
2012/12/2716:
00
9.93
2.88
98.53
8.31
28.62
2012/12/2717:
00
11.74
3.10
137.91
9.61
36.40
2012/12/2718:
00
16.81
3.81
282.44
14.52
64.04
2012/12/2719:
00
19.43
3.98
377.35
15.86
77.37
2012/12/2720:
00
24.70
4.54
610.18
20.64
112.23
2012/12/2721:
00
26.16
4.83
684.37
23.36
126.44
2012/12/2722:
00
27.51
4.75
756.92
22.60
130.79
2012/12/2723:
00
22.72
4.59
516.19
21.04
104.22
∑(合计值)
287.95
71.47
4882.78
238.86
1047.01
表中的时间段数量(24个)则为公式中的n,综合话务量为x、干扰系数为y,根据公式要求,先对数据进行求和与汇总,汇总后的数据如下表所示:
n=24
X
Y
X的平方
Y的平方
X*Y
∑(合计值)
287.95
71.47
4882.78
238.86
1047.01
套入公式后计算结果如下:
r=241047.01-287.9571.47244882.78-287.95224238.86-71.472=98.30%
2.RSquare(判定系数R2):
判定系数(又称拟合优度或决定系数)是建立在回归分析基础之上的,用于研究一个随机变量对别一个随机变量的解释程度,该值的取值范围为0≤R2≤1,值越接近1,说明自变量对因变量的解释程度越高,自变量引起的因变量变动占总变动的百分比越高。
判定系数算法及案例:
以相关系数中案例的数据为基础计算10BSZCW的判定系数,如下:
n=24
X
Y
X的平方
Y的平方
X*Y
∑(合计值)
287.95
71.47
4882.78
238.86
1047.01
套入公式后计算得出结果如下:
r2=(241047.01-287.9571.47)2[244882.78-287.952][24238.86-71.472]=96.64%
案例说明:
10BSZCW小区的相关性系数为:
98.30%,可以判断该小区的话务量与干扰系数为正相关关系且接近绝对相关值1,说明小区话务量与干扰系数之间的关系密切;小区的判定系数为:
96.64%,非常接近1,说明该小区的话务量变化导致干扰变化占总变化的96.64%,由此可以判断出该小区存在互调干扰的机率非常大;
如下图10BSZCW小区话务量与干扰系数趋势图及散点图所示,小区话务量的曲线与干扰系数的典型形态几乎是一模一样的,从散点图的分布来看,两组变量形成的点在同一直线上,说明两组变量是存在较强的线性相关;
三、相关系数与判定系数函数的运用方法:
在进行质差原因定位及规律性质差分析等工作时,我们都需要对全网的小区进行分析,所以在数据分析上必须要满足批量计算的功能,才能更好的为我们提高工作效率,而在我们常软件Excel中也已经包含了相关系数及判定系数的计算函数,只要掌握使用方法,便可以迅速完成全网小区的相关系数计算工作:
相关系数计算函数:
CORREL(array1,array2)
Array1 第一组数值单元格区域
Array2 第二组数值单元格区域
函数说明:
²如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内;
²如果array1和array2的数据点的个数不同,函数CORREL返回错误值#N/A;
²如果array1或array2为空,或者其数值的s(标准偏差)等于零,函数CORREL返回错误值#DIV/0!
;
应用案例:
判定系数计算函数:
RSQ(known_y's,known_x's)
Known_y's 为数组或数据点区域
Known_x's 为数组或数据点区域
函数说明:
²参数可以是数字或者是包含数字的名称、数组或引用;
²逻辑值和直接键入到参数列表中代表数字的文本被计算在内;
²如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内;
²如果参数为错误值或为不能转换成数字的文本,将会导致错误;
²如果known_y's和known_x's为空或其数据点个数不同,函数RSQ返回错误值#N/A;
²如果known_y's和known_x's函数只包含1个数据点,则RSQ函数返回错误值#DIV/0!
;
应用案例:
四、相关系数与判定系数的应用场景:
通过以上介绍及案例呈现,我们不难发现相关系数与判定系数的区别:
系数名称
相关系数
判定系数
公式表达式:
值的范围:
-1≤r≤1
0≤R2≤1
表示方向性:
是(大于0为正相关,小于0为负相关)
否
表示关联程度:
是
是
变量总离差平方和解释:
否
是(r2值越大,说明回归模型拟合得愈优。
)
根据上表可见,两种系数都可以反映变量的相关度,各有各的特点,结合我们的工作内容,我们建议在需要判断负相关或放宽门限筛查时可采用相关系数,如下图所示P1TCEB4小区的话务量与干扰系数呈现负相关形态(话务低时干扰大,话务高时干扰低),可以初步判断该小区的干扰并非由互调引起,而是可能因外部干扰导致;
从理论上来说,判定系数是反映因变量的变化有多少是因自变量引起的,所以更能体现变量间的关系的拟合度,因此判定系数的准确度高于相关系数,所以需要提高批量定位过程中的准确度时就考虑使用判定系数,这样可以更加准确的定位到问题小区,如下图所示,GQWLY23小区的相关系数为90.35%,但它的判定系数只有81.63%,而且从它的话务量与干扰系数的趋势来看,只有在闲时小区话务较少时干扰系数才与话务量比较相关,而当话务高于70Erlang以后,干扰系数就保持在4级左右而没有随话务的波动而波动了,这类小区的干扰问题则不一定是互调引起的,通过判定系数则能准确将该小区过滤,避免不必要优化;
五、Excel涉及回归分析的其它函数介绍:
Excel为回归分析除了文中提到的RSQ外还提供了多个其它函数用于建立回归模型和预测,它们分别是:
²INTERCEPT返回线性回归模型的截距
²SLOPE返回线性回归模型的斜率
²FORECAST返回一元线性回归模型的预测值
²STEYX计算估计的标准误差
²TREND计算线性回归线的趋势值
²GROWTH返回指数曲线的趋势值
²LINEST返回线性回归模型的参数
²LOGEST返回指数曲线模型的参数
六、总结
随着网优工作的精细化趋势,