协方差和相关系数.docx

上传人:b****6 文档编号:7133307 上传时间:2023-01-21 格式:DOCX 页数:10 大小:713.93KB
下载 相关 举报
协方差和相关系数.docx_第1页
第1页 / 共10页
协方差和相关系数.docx_第2页
第2页 / 共10页
协方差和相关系数.docx_第3页
第3页 / 共10页
协方差和相关系数.docx_第4页
第4页 / 共10页
协方差和相关系数.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

协方差和相关系数.docx

《协方差和相关系数.docx》由会员分享,可在线阅读,更多相关《协方差和相关系数.docx(10页珍藏版)》请在冰豆网上搜索。

协方差和相关系数.docx

协方差和相关系数

如何通俗易懂地解释「协方差」与「相关系数」的概念?

其背后的原理为何可以达到衡量「相关性」的效果?

1条评论 分享

5个回答

傅渥成 ,统计物理/复杂系统/生物物理

184 人赞同

看到这个问题,马上想到我那天回答的另一个问题了。

我们在刻画这个世界之间的各种关系的时候,常常会希望度量“距离”:

1.对于空间中的两个点,我们可以用勾股定理定义平方和作为距离;

2.对于两个二进制序列,或者两段基因序列,我们可以用汉明距离来度量二者之间的差异,作为“距离”;

3.那么假如对于两个复杂的量(描述这两个量可能用很多很多的参数),那么这时候怎样度量二者之间的“相关性”呢?

按照真正的逻辑顺序来讲,应该是这样讲的:

 

把所有的这些复杂的参数排成一列,就拍成了一个向量,很多很多的这样的向量构成了一个向量空间。

向量空间里面的东西没有“距离”这样的概念,对于一个向量空间里面的向量,甚至没有“长度”这样的概念,因为向量空间只是一个代数结构,没有度量或者拓扑的概念在其中,那这时候怎样度量向量的长度来呢?

接下来,又怎样来确定两个向量之间的“距离”呢?

对于一个可以定义距离的结构(度量空间),我们需要有一些要求,认为满足这些要求的一个函数就可以认为是距离,例如我们要求:

A到B的距离等于B到A的距离,A到A的距离等于0,两个点之间的距离非负,三角不等式。

那么对于一个向量空间,怎样可以最自然地给它一个“范数”,使得它有可能推广到一个距离空间(度量空间)呢?

最自然的方法就是引入“内积”的概念了,通过内积的运算,得到内积空间,再用内积来定义距离(范数),于是也就有可能得到距离空间。

 

为什么内积空间可以变成一个度量空间呢?

这就是我在“学一门课的时候,要注意理解和思考,不要一味的背公式,背习题是什么意思?

”这个问题里面,我反复用到了Cauchy不等式,目的也正在此。

Cauchy不等式为我们提供了判断两个向量是否相关的方案:

(a?

b)/|a||b|可以作为度量相关性的一个函数,而它的直观意义是什么,请看下面。

—————————————这是一条分割线——————————————

好了,截止到目前,都是我认为一个比较正常,且不算太难的一种解释的方法,如果觉得这样理解起来还有困难,那么接下来就只能用能让中学生听懂的,最直观的方法了,但是我并不喜欢这样直观的讲法,因为这个讲法的逻辑是很混乱的,事先就引入了很多不应该过早引入的概念,不过为了帮助理解,也就这样吧:

●有两个向量,我们希望定义它们是不是相关。

一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就距离小,夹角大,就距离大。

●但是怎样来计算夹角呢?

为了让这种计算可行,我们要选一种恰当的三角函数来算。

●正弦函数的不太好的一个原因是因为加上个90°,正弦算出来得到的结果一样,而两个向量的夹角是30°还是120°这是完全的两码事,此外,正弦函数也不适合推广到高维度向量的计算中的“两两比较”。

●那么考虑用余弦吧,这个可以很方便地区分30°和120°,而且还有一个好处——余弦的计算非常简单,用内积就可以计算了,中学数学中就学过:

(x1,y1)?

(x2,y2)=x1x2+y1y2,这就是内积,你要是喜欢,也可以把这个叫做“协方差”。

●但是这个内积的定义很奇怪哎?

要是两个向量本身就长,那这个也算不出夹角来,所以再要除以两个向量本身的长度,即,夹角:

cos=(a?

b)/|a||b|;

●这样,那么两个量是不是相关,怎么来判断?

就用余弦的大小就可以了,我们把两个向量的夹角的余弦,就叫做“相关系数”,正如上面的式子所指出的,写开了就是:

分子上面的就是一个内积的计算,也就是前面我说的“协方差”,分子下面是两个勾股定理乘起来,是两个向量的长度。

如果两个向量平行,则它们夹角的余弦(也就是“相关系数”)就等于1或者-1,同向的时候是1,反向的时候就是-1。

如果两个向量垂直,则夹角的余弦就等于0,说明二者不相关。

●再写我都不好意思了,我觉得这样应该很容易就可以懂了……

184 编辑于2013-03-15 37条评论 感谢 

更多

 ?

 作者保留权利

GerYoung ,EE2CS摄影/篮球/音乐爱好者

65 人赞同

协方差、相关系数是紧密相关的,二者都是用来描述两个连续变量的线性相关关系。

本答案先简要阐述相关概念,再具体阐述几何上的理解,最后提出一点个人看法。

简要阐述如下:

一.协方差

只表示线性相关的方向,取值正无穷到负无穷。

也就是说,协方差为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。

注意:

协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。

二.相关系数

不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。

也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。

同时,相关系数的绝对值越接近1,线性关系越显著。

通常情况下,当相关系数的绝对值大于2/sqrt(N),N为样本点的数量时,我们认为线性关系是存在的。

三.协方差与相关系数的关系

协方差的公式为 

相关系数的公式为

,其中Sx,Sy分别表示x和y的标准差。

由两者的相关关系,可以看出为什么相关系数比协方差多阐述了线性相关的程度:

原因在于协方差和大小和x,y的取值范围紧密相关,举个例子,x,y都取值[-1000,1000]或都取值[-0.001,0.001],这两者的协方差肯定呈现量级般的差异,但是都除以标准差后,相当于在同样的尺度上衡量问题,所以相关系数是有意义的,反映了线性相关的程度。

备注:

其实也不一定必须得除以标准差,只要除的值等够度量数据的波动范围就可以了,标准差只是一种通俗惯例的选择。

具体阐述如下:

回答协方差(相关系数)的几何意义。

本质上,它就是数据的点积度量

,点积的几何意义是一个向量在另一个向量上的投影,或者理解成两个向量的重合程度。

当向量角为0时,重合值最大;当向量角为90时,重合值最小。

同时,考虑点积时,也必须考虑向量x,y的长度。

如果不考虑x,y的取值范围,那么点积的意义只是向量的夹角是锐角直角还是钝角,其值并不能反映向量的重合程度(和协方差很像)。

为了能够确切反映向量的重合程度,我们可以把x,y向量都比例化,那么点积不仅反映了夹角,还反映了向量的重合程度(和相关系数类似)。

此外,还有一种更直观的理解,可以参考variance-Howwouldyouexplaincovariancetosomeonewhounderstandsonlythemean?

,讲的很棒。

最后,一些值得注意的地方

协方差,相关系数这些只不过是数学工具,对于二值变量的相关关系,最好是先做出散点图,再利用这些数学工具去分析,否则容易得出错误的结果。

观察图片如下:

这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。

单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。

对这个问题感兴趣的可以搜索下Anscombe’sQuartet。

65 发布于2015-03-14 3条评论 感谢 

更多

 ?

 作者保留权利

silvagolden ,程序员

24 人赞同

看看哥的博客就明白了

终于明白协方差的意义了

协方差代表了两个变量之间的是否同时偏离均值。

如果正相关,这个计算公式,每个样本对(Xi,Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。

下面这个图就很直观。

下面转载自:

协方差的意义

在概率论中,两个随机变量X与Y之间相互关系,大致有下列3种情况:

当X,Y的联合分布像上图那样时,我们可以看出,大致上有:

X越大Y也越大,X越小Y也越小,这种情况,我们称为“正相关”。

当X,Y的联合分布像上图那样时,我们可以看出,大致上有:

X越大Y反而越小,X越小Y反而越大,这种情况,我们称为“负相关”。

当X,Y的联合分布像上图那样时,我们可以看出:

既不是X越大Y也越大,也不是X越大Y反而越小,这种情况我们称为“不相关”。

怎样将这3种相关情况,用一个简单的数字表达出来呢?

在图中的区域

(1)中,有X>EX,Y-EY>0,所以(X-EX)(Y-EY)>0;

在图中的区域

(2)中,有X0,所以(X-EX)(Y-EY)<0;

在图中的区域(3)中,有X0;

在图中的区域(4)中,有X>EX,Y-EY<0,所以(X-EX)(Y-EY)<0。

当X 与Y 正相关时,它们的分布大部分在区域

(1)和(3)中,小部分在区域

(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>0 。

当X与Y负相关时,它们的分布大部分在区域

(2)和(4)中,小部分在区域

(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<0。

当X与Y不相关时,它们在区域

(1)和(3)中的分布,与在区域

(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0。

所以,我们可以定义一个表示X,Y相互关系的数字特征,也就是协方差

cov(X,Y)=E(X-EX)(Y-EY)。

当cov(X,Y)>0时,表明 X与Y 正相关;

当 cov(X,Y)<0时,表明X与Y负相关;

当 cov(X,Y)=0时,表明X与Y不相关。

这就是协方差的意义。

24 编辑于2015-12-03 3条评论 感谢 

更多

 ?

 作者保留权利

煦超 ,一块儿不知疲倦的橡皮

33 人赞同

先说协方差。

两个变量有多大的“可能”朝一个方向改变?

协方差就是用来形容这个“可能”的程度的。

比如你和我是两个变量,你变大我也变大,你变小我也变小,那么咱俩的协方差就是正数。

相反,如果你变大我却变小,你变小我却变大,那么咱俩的协方差就是负数。

这时候再来看一下协方差的公式

其中X,Y就是两个随机变量,如果我是X你是Y,那么当我变大(即大于均值)时,

的值就为正,这时候你也变大(即大于你的均值),那么

的值也是正的。

假设现在有十个时刻,分别为

时刻,我变大你变大,

的值为正。

时刻,我变大你也变大,

的值还是为正。

如果在这十个时刻里面,每次我变大的时候,你也变大,那么十个

的值都是正的,那么这十个值得均值也肯定是正的。

就说明,咱们俩朝一个方向改变的“可能”的程度,很大。

这时候再考虑两种情况

1.我变大了很多,你变大了一点

2.我变大了很多,你也变大了很多

这时候,两种情况的协方差都是正值,但是第二种情况的值就要大于第一种情况。

代入公式也很容易理解吧。

相反,负值就是我变大你变小,思路是一样的。

33 发布于2014-11-01 2条评论 感谢 

更多

 ?

 作者保留权利

呵呵whatever ,知乎影响我看书。

我乱改了密码,一段时间…

3 人赞同

一群人欲研究不同地区的蚂蚁爬行速度和本地极限风速的关系。

用协方差当然可以做出来。

协方差的思路是,先给数学期望,即平均值。

如果该地区的蚂蚁爬速和极限风速都高于或者都低于各自平均值,那么假定它们“正联系”多一些

如果一个越高于平均值,另外一个就越低于平均值,那么假定它们的“负联系”多一些

其它情况就认为两者任何联系都没有

因此出现了下面协方差的公式:

根据正负数的计算法则,这样构造一个协方差公式,恰好就把这三种情况表示出来了。

(实际上这种表示是否合理还要商榷,它忠实反映现实了吗?

为什么“不相关”是在负相关和正相关之间呢?

幸好大多数研究不需要涉及探讨不相关和相关的关系,不然又有很多人草率地用这种数量关系来表述一种现实关系了)。

后来又来了一帮人,欲研究,蚂蚁爬速和极限风速的关系,和蚂蚁爬速和本地经纬度的关系,哪个更强这个问题。

那么毛病就来了。

经纬度的变化幅度显然要比风速大很多,或者在另外一些情况下小很多。

这样,协方差公式出来的表示两者“共变”的东西,在不同变量计算下就不公平了。

你看,假如在数的层级上,经纬度的变化最多用几十来衡量,风速的变化可能要用几百,几千,上万,怎么不可能,我把单位变成厘米/s、毫米/s了。

这样协方差的大小反映的不仅仅是共变的幅度,而且是在事物本身计量方式的基础上的共变幅度。

计量单位都是人规定的。

一厘米也是1,一光年也是1,你怎么区分?

真希望有一个尺子,把世间万物的变化都“归一化”,放到一个变化幅度上来衡量啊。

这个东西不就是标准差吗?

因此得到相关公式。

最后贴一段以前做行为数据的时候,要做选择回归到标准系数或者非标准系数的时候,给课题组老大看得一段话:

要报告标准系数还是要用非标准系数要视情况而定。

如果多种自变量没有相同的单位,应该尽量用标准系数(例如性别和年龄对于成绩的影响)。

而多种自变量的单位是相同的,那么还要审慎地视情况而定:

用非标准系数,然后将多种自变量的均值和标准差展示出来,这样有利于实验报告的外部效度,因为自变量改变消耗的“能量”在现实世界中是不一而足的;而简单地报告标准系数,则有利于向读者展示实验报告的内部信度,因为报告展示的是本次实验样本自变量改变消耗“能量”等价基础上的结果。

很多实验通常用每个样本的slope值和0做单样本t检验(不是统计课本上那种总体回归做的单样本t检验)。

-无穷到+无穷的斜率压缩到-1到+1(类似log(ax)),并非是线性转化,并且绝对值上限为1,无法满足t检验的假设。

因为当相关系数或者标准回归系数太接近±1时,则显然不是对称分布,方差也会被压缩。

因此这里的slope应该用非标准回归系数。

如果需要去除单位的影响,需要对相关系数或者标准回归系数进行FisherZ转化。

转化后实际上依然不是对称分布,但已经可以做t检验了。

3 编辑于2016-02-28 添加评论 感谢 

更多

 ?

 作者保留权利

我来回答这个问题

写回答…

我要回答

关注问题 329人关注该问题

换一换

相关问题

●大数定律是必然的吗?

 22个回答

●统计学假设检验中p值的含义具体是什么?

 41个回答

●在进行线性回归时,为什么最小二乘法是最优方法?

 55个回答

●机器学习专家与统计学家观点上有哪些不同?

 40个回答

●强大数定律和弱大数定律的本质区别?

 12个回答

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1