1、最新线性回归方程中的相关系数r-作者xxxx-日期xxxx线性回归方程中的相关系数r线性回归方程中的相关系数rr=(Xi的平均数)(Y平均数)根号下(Xi平均数)2*(YiY平均数)2R就是相关系数的平方,R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数判定系数R2也叫拟合优度、可决系数表达式是:R2=ES/TS1-/TSS该统计量越接近于1,模型的拟合优度越高。问题:在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。这就
2、有了调整的拟合优度:2=1-(RS/(n-1))/(TSS/(n-)在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:k1为残差平方和的自由度,n-为总体平方和的自由度。总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。R = R接近于1表明Y与1, X2 ,, Xk之间的线性关系程度密切;R接近于0表明与1,2 , k之间的线性关系程度不密切相关系数就是线性相关度的大小,1为(100%)绝对正相关,为%,为(100)绝对负相关相关系数绝对值越靠近1,线性相
3、关性质越好,根据数据描点画出来的函数自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)。分为一元线性回归和多元线性回归线性回归方程中,回归系数的含义一元:Y=a b表示X每变动(增加或减少)个单位,Y平均变动(增加或减少)b各单位多元:=1X1+b2X+3X3+a 在其他变量不变的情况下,某变量变动1单位,
4、引起平均变动量以b为例:2表示在X1、X3(在其他变量不变的情况下)不变得情况下,X2每变动单位,y平均变动单位就一个reg来说y+ba+b的误差称为epined sm osuree的误差是不能解释的是residualum o sqare总误差就是TS所以SS=RSES判定系数也叫拟合优度、可决系数。表达式是该统计量越接近于1,模型的拟合优度越高。问题:在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。这就有了调整的拟合优度 在样本容量一定的
5、情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,1为总体平方和的自由度。总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。顺便补充一下:一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增加解释变量来实现,可是解释变量多了后很多解释变量的系数T检验不显著了,而且增加很多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不精确;修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变
6、量个数对其影响了。首先有一个恒等式:TS = ESS+ RSS即 总偏差平方和 回归平方和 残差平方和通常情况,我们都是讨论解释变量对总效应的贡献,使用一个叫“拟合优度(或者叫“判定系数”)的指标其定义为:回归平方和 /总偏差平方和=ESSTSS = (TSSRSS)/TS =(9235)/92如果说随机误差对总效应的贡献,那可以直接 RSS/TS因为 (TSRS)SS 就可以化为 RSS / SSSS中person(皮尔逊相关系数)看r值还是P值,确定相关性两个值都要看,r值表示在样本中变量间的相关系数,表示相关性的大小;p值是检验值,是检验两变量在样本来自的总体中是否存在和样本一样的相关性
7、。SPS回归系数 SIG在SSS软件统计结果中,不管是回归分析还是其它分析,都会看到“SIG”,IGsinificae,意为“显著性,后面的值就是统计出的P值,如果P值0.1P0 假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定1;拒绝,就接受H1。检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝0;反之,差异不显著,接受H0。克朗巴哈系数(Cronbchs )是一个统计量,是指量表所有可能的项目划分方法的得到的折半信度系数的平均值,是最常用的信度测量方法。它最先被美国教育学家eeCrnbach在1951年命名.计算公式: 其中K为样本数,X为总样
8、本的方差,2i为目前观测样本的方差。通常Conbac 系数的值在0和1之间如果X系数不超过0。6,一般认为内部一致信度不足;达到0.-0。8时表示量表具有相当的信度,达0。80.9时说明量表信度非常好.ronach系数的一个重要特性是它们值会随着量表项目的增加而增加,因此,rnbah 系数可能由于量表中包含多余的测量项目而被人为地、不适当地提高。还有一种可以和Cronbach 系数同时使用的系数。系数能够帮助评价,在计算Cronba 系数的过程中,平均数的计算是否掩盖了某些不相关的测量项目。不同的研究者对信度系数的界限值有不同的看法,有学者认为,在基础研究中Conbach 系数至少应达到8才能
9、接受,在探索研究中Cronbc系数至少应达到0。7才能接受,而在实务研究中,Cronbch系数只需达到0。6即可。Crobach 系数的实施技巧要做信度分析需先检查每个问项是否都是同方向的(即都是正面问法,也就是题间的相关系数都是正的),如有一题与其它题相关系数都是负的,应考虑将此题先“变号或“删除”后再进行计算系数。如有受测者乱答,可将它的数据删除后再算值.对问卷调查当有题目与其它题目是负相关时须注意是否反向问法.如是,则应先将得分反向,再计算信度或是删除该题。若为测验,则不能做反向处理,只能做删除题目。标准化 Crnbach 系数的定义若一份量表有n题,题间的平均相关系数为r,则此量表的标准化系数为=n/(n1)r+
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1