协方差和相关系数文档格式.docx
《协方差和相关系数文档格式.docx》由会员分享,可在线阅读,更多相关《协方差和相关系数文档格式.docx(10页珍藏版)》请在冰豆网上搜索。
为什么内积空间可以变成一个度量空间呢?
这就是我在“学一门课的时候,要注意理解和思考,不要一味的背公式,背习题是什么意思?
”这个问题里面,我反复用到了Cauchy不等式,目的也正在此。
Cauchy不等式为我们提供了判断两个向量是否相关的方案:
(a?
b)/|a||b|可以作为度量相关性的一个函数,而它的直观意义是什么,请看下面。
—————————————这是一条分割线——————————————
好了,截止到目前,都是我认为一个比较正常,且不算太难的一种解释的方法,如果觉得这样理解起来还有困难,那么接下来就只能用能让中学生听懂的,最直观的方法了,但是我并不喜欢这样直观的讲法,因为这个讲法的逻辑是很混乱的,事先就引入了很多不应该过早引入的概念,不过为了帮助理解,也就这样吧:
●有两个向量,我们希望定义它们是不是相关。
一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就距离小,夹角大,就距离大。
●但是怎样来计算夹角呢?
为了让这种计算可行,我们要选一种恰当的三角函数来算。
●正弦函数的不太好的一个原因是因为加上个90°
,正弦算出来得到的结果一样,而两个向量的夹角是30°
还是120°
这是完全的两码事,此外,正弦函数也不适合推广到高维度向量的计算中的“两两比较”。
●那么考虑用余弦吧,这个可以很方便地区分30°
和120°
,而且还有一个好处——余弦的计算非常简单,用内积就可以计算了,中学数学中就学过:
(x1,y1)?
(x2,y2)=x1x2+y1y2,这就是内积,你要是喜欢,也可以把这个叫做“协方差”。
●但是这个内积的定义很奇怪哎?
要是两个向量本身就长,那这个也算不出夹角来,所以再要除以两个向量本身的长度,即,夹角:
cos<
a,
b>
=(a?
b)/|a||b|;
●这样,那么两个量是不是相关,怎么来判断?
就用余弦的大小就可以了,我们把两个向量的夹角的余弦,就叫做“相关系数”,正如上面的式子所指出的,写开了就是:
分子上面的就是一个内积的计算,也就是前面我说的“协方差”,分子下面是两个勾股定理乘起来,是两个向量的长度。
如果两个向量平行,则它们夹角的余弦(也就是“相关系数”)就等于1或者-1,同向的时候是1,反向的时候就是-1。
如果两个向量垂直,则夹角的余弦就等于0,说明二者不相关。
●再写我都不好意思了,我觉得这样应该很容易就可以懂了……
编辑于2013-03-15
37条评论
感谢
更多
?
作者保留权利
GerYoung
,EE2CS摄影/篮球/音乐爱好者
65
协方差、相关系数是紧密相关的,二者都是用来描述两个连续变量的线性相关关系。
本答案先简要阐述相关概念,再具体阐述几何上的理解,最后提出一点个人看法。
简要阐述如下:
一.协方差
只表示线性相关的方向,取值正无穷到负无穷。
也就是说,协方差为正值,说明一个变量变大另一个变量也变大;
取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。
注意:
协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。
二.相关系数
不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。
也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;
同时,相关系数的绝对值越接近1,线性关系越显著。
通常情况下,当相关系数的绝对值大于2/sqrt(N),N为样本点的数量时,我们认为线性关系是存在的。
三.协方差与相关系数的关系
协方差的公式为
相关系数的公式为
,其中Sx,Sy分别表示x和y的标准差。
由两者的相关关系,可以看出为什么相关系数比协方差多阐述了线性相关的程度:
原因在于协方差和大小和x,y的取值范围紧密相关,举个例子,x,y都取值[-1000,1000]或都取值[-0.001,0.001],这两者的协方差肯定呈现量级般的差异,但是都除以标准差后,相当于在同样的尺度上衡量问题,所以相关系数是有意义的,反映了线性相关的程度。
备注:
其实也不一定必须得除以标准差,只要除的值等够度量数据的波动范围就可以了,标准差只是一种通俗惯例的选择。
具体阐述如下:
回答协方差(相关系数)的几何意义。
本质上,它就是数据的点积度量
,点积的几何意义是一个向量在另一个向量上的投影,或者理解成两个向量的重合程度。
当向量角为0时,重合值最大;
当向量角为90时,重合值最小。
同时,考虑点积时,也必须考虑向量x,y的长度。
如果不考虑x,y的取值范围,那么点积的意义只是向量的夹角是锐角直角还是钝角,其值并不能反映向量的重合程度(和协方差很像)。
为了能够确切反映向量的重合程度,我们可以把x,y向量都比例化,那么点积不仅反映了夹角,还反映了向量的重合程度(和相关系数类似)。
此外,还有一种更直观的理解,可以参考variance-Howwouldyouexplaincovariancetosomeonewhounderstandsonlythemean?
,讲的很棒。
最后,一些值得注意的地方
协方差,相关系数这些只不过是数学工具,对于二值变量的相关关系,最好是先做出散点图,再利用这些数学工具去分析,否则容易得出错误的结果。
观察图片如下:
这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;
x值的方差都是10.0,y值的方差都是3.75;
它们的相关度都是0.816,线性回归线都是y=3+0.5x。
单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。
对这个问题感兴趣的可以搜索下Anscombe’sQuartet。
发布于2015-03-14
3条评论
silvagolden
,程序员
24
看看哥的博客就明白了
终于明白协方差的意义了
协方差代表了两个变量之间的是否同时偏离均值。
如果正相关,这个计算公式,每个样本对(Xi,Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。
下面这个图就很直观。
下面转载自:
协方差的意义
在概率论中,两个随机变量X与Y之间相互关系,大致有下列3种情况:
当X,Y的联合分布像上图那样时,我们可以看出,大致上有:
X越大Y也越大,X越小Y也越小,这种情况,我们称为“正相关”。
当X,Y的联合分布像上图那样时,我们可以看出,大致上有:
X越大Y反而越小,X越小Y反而越大,这种情况,我们称为“负相关”。
当X,Y的联合分布像上图那样时,我们可以看出:
既不是X越大Y也越大,也不是X越大Y反而越小,这种情况我们称为“不相关”。
怎样将这3种相关情况,用一个简单的数字表达出来呢?
在图中的区域
(1)中,有X>
EX,Y-EY>
0,所以(X-EX)(Y-EY)>
0;
在图中的区域
(2)中,有X<
0,所以(X-EX)(Y-EY)<
在图中的区域(3)中,有X<
EX,Y-EY<
在图中的区域(4)中,有X>
0。
当X
与Y
正相关时,它们的分布大部分在区域
(1)和(3)中,小部分在区域
(2)和(4)中,所以平均来说,有E(X-EX)(Y-EY)>
0
。
当X与Y负相关时,它们的分布大部分在区域
(2)和(4)中,小部分在区域
(1)和(3)中,所以平均来说,有(X-EX)(Y-EY)<
当X与Y不相关时,它们在区域
(1)和(3)中的分布,与在区域
(2)和(4)中的分布几乎一样多,所以平均来说,有(X-EX)(Y-EY)=0。
所以,我们可以定义一个表示X,Y相互关系的数字特征,也就是协方差
cov(X,Y)=E(X-EX)(Y-EY)。
当cov(X,Y)>
0时,表明
X与Y
正相关;
当
cov(X,Y)<
0时,表明X与Y负相关;
cov(X,Y)=0时,表明X与Y不相关。
这就是协方差的意义。
编辑于2015-12-03
煦超
,一块儿不知疲倦的橡皮
33
先说协方差。
两个变量有多大的“可能”朝一个方向改变?
协方差就是用来形容这个“可能”的程度的。
比如你和我是两个变量,你变大我也变大,你变小我也变小,那么咱俩的协方差就是正数。
相反,如果你变大我却变小,你变小我却变大,那么咱俩的协方差就是负数。
这时候再来看一下协方差的公式
其中X,Y就是两个随机变量,如果我是X你是Y,那么当我变大(即大于均值)时,
的值就为正,这时候你也变大(即大于你的均值),那么
的值也是正的。
假设现在有十个时刻,分别为
在
时刻,我变大你变大,
的值为正。
时刻,我变大你也变大,
的值还是为正。
如果在这十个时刻里面,每次我变大的时候,你也变大,那么十个
的值都是正的,那么这十个值得均值也肯定是正的。
就说明,咱们俩朝一个方向改变的“可能”的程度,很大。
这时候再考虑两种情况
1.我变大了很多,你变大了一点
2.我变大了很多,你也变大了很多
这时候,两种情况的协方差都是正值,但是第二种情况的值就要大于第一种情况。
代入公式也很容易理解吧。
相反,负值就是我变大你变小,思路是一样的。
发布于2014-11-01
2条评论
呵呵whatever
,知乎影响我看书。
我乱改了密码,一段时间…
3
一群人欲研究不同地区的蚂蚁爬行速度和本地极限风速的关系。
用协方差当然可以做出来。
协方差的思路是,先给数学期望,即平均值。
如果该地区的蚂蚁爬速和极限风速都高于或者都低于各自平均值,那么假定它们“正联系”多一些
如果一个越高于平均值,另外一个就越低于平均值,那么假定它们的“负联系”多一些
其它情况就认为两者任何联系都没有
因此出现了下面协方差的公式:
根据正负数的计算法则,这样构造一个协方差公式,恰好就把这三种情况表示出来了。
(实际上这种表示是否合理还要商榷,它忠实反映现实了吗?
为什么“不相关”是在负相关和正相关之间呢?
幸好大多数研究不需要涉及探讨不相关和相关的关系,不然又有很多人草率地用这种数量关系来表述一种现实关系了)。
后来又来了一帮人,欲研究,蚂蚁爬速和极限风速的关系,和蚂蚁爬速和本地经纬度的关系,哪个更强这个问题。
那么毛病就来了。
经纬度的变化幅度显然要比风速大很多,或者在另外一些情况下小很多。
这样,协方差公式出来的表示两者“共变”的东西,在不同变量计算下就不公平了。
你看,假如在数的层级上,经纬度的变化最多用几十来衡量,风速的变化可能要用几百,几千,上万,怎么不可能,我把单位变成厘米/s、毫米/s了。
这样协方差的大小反映的不仅仅是共变的幅度,而且是在事物本身计量方式的基础上的共变幅度。
计量单位都是人规定的。
一厘米也是1,一光年也是1,你怎么区分?
真希望有一个尺子,把世间万物的变化都“归一化”,放到一个变化幅度上来衡量啊。
这个东西不就是标准差吗?
因此得到相关公式。
最后贴一段以前做行为数据的时候,要做选择回归到标准系数或者非标准系数的时候,给课题组老大看得一段话:
要报告标准系数还是要用非标准系数要视情况而定。
如果多种自变量没有相同的单位,应该尽量用标准系数(例如性别和年龄对于成绩的影响)。
而多种自变量的单位是相同的,那么还要审慎地视情况而定:
用非标准系数,然后将多种自变量的均值和标准差展示出来,这样有利于实验报告的外部效度,因为自变量改变消耗的“能量”在现实世界中是不一而足的;
而简单地报告标准系数,则有利于向读者展示实验报告的内部信度,因为报告展示的是本次实验样本自变量改变消耗“能量”等价基础上的结果。
很多实验通常用每个样本的slope值和0做单样本t检验(不是统计课本上那种总体回归做的单样本t检验)。
-无穷到+无穷的斜率压缩到-1到+1(类似log(ax)),并非是线性转化,并且绝对值上限为1,无法满足t检验的假设。
因为当相关系数或者标准回归系数太接近±
1时,则显然不是对称分布,方差也会被压缩。
因此这里的slope应该用非标准回归系数。
如果需要去除单位的影响,需要对相关系数或者标准回归系数进行FisherZ转化。
转化后实际上依然不是对称分布,但已经可以做t检验了。
编辑于2016-02-28
添加评论
我来回答这个问题
写回答…
我要回答
关注问题
329人关注该问题
换一换
相关问题
●大数定律是必然的吗?
22个回答
●统计学假设检验中p值的含义具体是什么?
41个回答
●在进行线性回归时,为什么最小二乘法是最优方法?
55个回答
●机器学习专家与统计学家观点上有哪些不同?
40个回答
●强大数定律和弱大数定律的本质区别?
12个回答