协方差和相关系数.docx

资源描述

协方差和相关系数.docx

《协方差和相关系数.docx》由会员分享，可在线阅读，更多相关《协方差和相关系数.docx（10页珍藏版）》请在冰豆网上搜索。

协方差和相关系数.docx

协方差和相关系数

如何通俗易懂地解释「协方差」与「相关系数」的概念？

其背后的原理为何可以达到衡量「相关性」的效果？

1条评论分享

5个回答

傅渥成，统计物理/复杂系统/生物物理

184 人赞同

看到这个问题，马上想到我那天回答的另一个问题了。

我们在刻画这个世界之间的各种关系的时候，常常会希望度量“距离”：

1.对于空间中的两个点，我们可以用勾股定理定义平方和作为距离；

2.对于两个二进制序列，或者两段基因序列，我们可以用汉明距离来度量二者之间的差异，作为“距离”；

3.那么假如对于两个复杂的量（描述这两个量可能用很多很多的参数），那么这时候怎样度量二者之间的“相关性”呢？

按照真正的逻辑顺序来讲，应该是这样讲的：

把所有的这些复杂的参数排成一列，就拍成了一个向量，很多很多的这样的向量构成了一个向量空间。

向量空间里面的东西没有“距离”这样的概念，对于一个向量空间里面的向量，甚至没有“长度”这样的概念，因为向量空间只是一个代数结构，没有度量或者拓扑的概念在其中，那这时候怎样度量向量的长度来呢？

接下来，又怎样来确定两个向量之间的“距离”呢？

对于一个可以定义距离的结构（度量空间），我们需要有一些要求，认为满足这些要求的一个函数就可以认为是距离，例如我们要求：

A到B的距离等于B到A的距离，A到A的距离等于0，两个点之间的距离非负，三角不等式。

那么对于一个向量空间，怎样可以最自然地给它一个“范数”，使得它有可能推广到一个距离空间（度量空间）呢？

最自然的方法就是引入“内积”的概念了，通过内积的运算，得到内积空间，再用内积来定义距离（范数），于是也就有可能得到距离空间。

为什么内积空间可以变成一个度量空间呢？

这就是我在“学一门课的时候，要注意理解和思考，不要一味的背公式，背习题是什么意思？

”这个问题里面，我反复用到了Cauchy不等式，目的也正在此。

Cauchy不等式为我们提供了判断两个向量是否相关的方案：

（a?

b）/|a||b|可以作为度量相关性的一个函数，而它的直观意义是什么，请看下面。

—————————————这是一条分割线——————————————

好了，截止到目前，都是我认为一个比较正常，且不算太难的一种解释的方法，如果觉得这样理解起来还有困难，那么接下来就只能用能让中学生听懂的，最直观的方法了，但是我并不喜欢这样直观的讲法，因为这个讲法的逻辑是很混乱的，事先就引入了很多不应该过早引入的概念，不过为了帮助理解，也就这样吧：

●有两个向量，我们希望定义它们是不是相关。

一个很自然的想法，用向量与向量的夹角来作为距离的定义，夹角小，就距离小，夹角大，就距离大。

●但是怎样来计算夹角呢？

为了让这种计算可行，我们要选一种恰当的三角函数来算。

●正弦函数的不太好的一个原因是因为加上个90°，正弦算出来得到的结果一样，而两个向量的夹角是30°还是120°这是完全的两码事，此外，正弦函数也不适合推广到高维度向量的计算中的“两两比较”。

●那么考虑用余弦吧，这个可以很方便地区分30°和120°，而且还有一个好处——余弦的计算非常简单，用内积就可以计算了，中学数学中就学过：

（x1,y1）?

（x2,y2）=x1x2+y1y2，这就是内积，你要是喜欢，也可以把这个叫做“协方差”。

●但是这个内积的定义很奇怪哎？

要是两个向量本身就长，那这个也算不出夹角来，所以再要除以两个向量本身的长度，即，夹角：

cos=（a?

b）/|a||b|;

●这样，那么两个量是不是相关，怎么来判断？

就用余弦的大小就可以了，我们把两个向量的夹角的余弦，就叫做“相关系数”，正如上面的式子所指出的，写开了就是：

分子上面的就是一个内积的计算，也就是前面我说的“协方差”，分子下面是两个勾股定理乘起来，是两个向量的长度。

如果两个向量平行，则它们夹角的余弦（也就是“相关系数”）就等于1或者-1，同向的时候是1，反向的时候就是-1。

如果两个向量垂直，则夹角的余弦就等于0，说明二者不相关。

●再写我都不好意思了，我觉得这样应该很容易就可以懂了……

184 编辑于2013-03-15 37条评论感谢

作者保留权利

GerYoung ，EE2CS摄影/篮球/音乐爱好者

65 人赞同

协方差、相关系数是紧密相关的，二者都是用来描述两个连续变量的线性相关关系。

本答案先简要阐述相关概念，再具体阐述几何上的理解，最后提出一点个人看法。

简要阐述如下：

一.协方差

只表示线性相关的方向，取值正无穷到负无穷。

也就是说，协方差为正值，说明一个变量变大另一个变量也变大；取负值说明一个变量变大另一个变量变小，取0说明两个变量没有相关关系。

注意：

协方差的绝对值不反映线性相关的程度（其绝对值与变量的取值范围有关系）。

二.相关系数

不仅表示线性相关的方向，还表示线性相关的程度，取值[-1,1]。

也就是说，相关系数为正值，说明一个变量变大另一个变量也变大；取负值说明一个变量变大另一个变量变小，取0说明两个变量没有相关关系。

同时，相关系数的绝对值越接近1，线性关系越显著。

通常情况下，当相关系数的绝对值大于2/sqrt（N），N为样本点的数量时，我们认为线性关系是存在的。

三.协方差与相关系数的关系

协方差的公式为