判定系数与相关系数的深入研究.docx

资源描述

判定系数与相关系数的深入研究.docx

《判定系数与相关系数的深入研究.docx》由会员分享，可在线阅读，更多相关《判定系数与相关系数的深入研究.docx（7页珍藏版）》请在冰豆网上搜索。

判定系数与相关系数的深入研究.docx

判定系数与相关系数的深入研究

什么叫相关性？

比如某个地区人的身高与体重的关系，某个学校学生学习时间与学习成绩的关系，我们的收入与教育水平的关系等等，除此之外，在我们工作中也有大量相关性的应用实例，例如我们在定位质差原因中运用常规MRR与质差MRR的电平分布间的相关性，在定位互调干扰小区时运用干扰系数与话务量的相关性，在分析质差成因时运用全网质差话务比例与弱信号的相关性等等，既然我们的工作离不开相关性的运用，那我们有必要深入的去了解相关性的计算及其原理。

一、概念介绍

说到相关性分析会使我们联想到线性回归和散点图的概念，它们同属于回归分析中的概念，都是被广泛应用的相关性分析方法：

线性回归：

线性回归是利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法之一，通俗点来说回归分析是寻找相关关系中非确定性关系的某种确定性，相关性可以从涉及到的变量数量、表现形式及变化方向进行分类，如下图所示：

散点图：

散点图是用于表示因变量随自变量而变化的大致趋势，是将变量相关性图形化的工具，用于判断的分析两组变量之间是否存在某种关联或总结坐标点的分布模式，散点图主要体现变量间的关系主要有：

正线性相关、负线性相关、非线性（曲线）相关和不相关四种相关关系，其中线性相关又分强线性相关和一般线性相关，具体形态如以下图例所示：

1）强正（负）线性相关

2）正（负）线性相关

3）非线性（曲线）相关&不相关

二、线性回归主要参数解释：

通过Excel的“数据分析”功能可以计算出线性回归分析数据，如下图所示：

我们主要关注【回归统计】中可以反映变量间相关性的“相关系数MultipleR”和“判定系数Rsquare”两个指标：

1.MultipleR（相关系数R）：

相关系数是建立在相关分析基础上，用来分析衡量变量x和变量y之间相关程度的大小。

通常用r表示，该值的范围为：

-1≤r≤1，与值对应的相关性的强弱关系如下图所示：

相关系数

判定系数

公式表达式：

值的范围：

-1≤r≤1

0≤R2≤1

表示方向性：

是（大于0为正相关，小于0为负相关）

否

表示关联程度：

是

变量总离差平方和解释：

否

是（r2值越大，说明回归模型拟合得愈优。

）

根据上表可见，两种系数都可以反映变量的相关度，各有各的特点，结合我们的工作内容，我们建议在需要判断负相关或放宽门限筛查时可采用相关系数，如下图所示P1TCEB4小区的话务量与干扰系数呈现负相关形态（话务低时干扰大，话务高时干扰低），可以初步判断该小区的干扰并非由互调引起，而是可能因外部干扰导致；

从理论上来说，判定系数是反映因变量的变化有多少是因自变量引起的，所以更能体现变量间的关系的拟合度，因此判定系数的准确度高于相关系数，所以需要提高批量定位过程中的准确度时就考虑使用判定系数，这样可以更加准确的定位到问题小区，如下图所示，GQWLY23小区的相关系数为90.35%，但它的判定系数只有81.63%，而且从它的话务量与干扰系数的趋势来看，只有在闲时小区话务较少时干扰系数才与话务量比较相关，而当话务高于70Erlang以后，干扰系数就保持在4级左右而没有随话务的波动而波动了，这类小区的干扰问题则不一定是互调引起的，通过判定系数则能准确将该小区过滤，避免不必要优化；

五、Excel涉及回归分析的其它函数介绍：

Excel为回归分析除了文中提到的RSQ外还提供了多个其它函数用于建立回归模型和预测，它们分别是：

²INTERCEPT返回线性回归模型的截距

²SLOPE返回线性回归模型的斜率

²FORECAST返回一元线性回归模型的预测值

²STEYX计算估计的标准误差

²TREND计算线性回归线的趋势值

²GROWTH返回指数曲线的趋势值

²LINEST返回线性回归模型的参数

²LOGEST返回指数曲线模型的参数

六、总结

随着网优工作的精细化趋势，

展开阅读全文