双变量回归与相关.docx
《双变量回归与相关.docx》由会员分享,可在线阅读,更多相关《双变量回归与相关.docx(13页珍藏版)》请在冰豆网上搜索。
双变量回归与相关
第9章双变量回归与相关
单变量univariate——计量资料
第1节直线回归
1、直线回归的概念
散点图scatterplot
自变量independentvariable——X
应变量dependentvariable——Y
直线回归linearregression简单回归simpleregression
——直线回归方程linearregressionequation
Y=a+bX经验回归方程,样本回归方程
回归方程的预测值predictedvalue
a常数项constantterm——是回归直线在Y轴上的截距intercept
——————当X取值为0时相应Y的均数估计值。
b回归系数coefficientofregression——是直线的斜率slope
——————当X变化一个单位时Y的平均改变的估计值。
b>0时直线从左下方走向右上方,Y随X的增大而增大
b<0时直线从左上方走向右下方,Y随X的增大而减小
b=0时直线与X轴平行,Y与X无直线关系
2、直线回归方程的求法
残差residual剩余值——“最小二乘”leastsumofsquares
Lxy为X与Y的离均差交叉乘积和,离均差积和
3、直线回归中的统计推断
(1)回归方程的假设检验
1、方差分析SS总=SS回+SS残
——————V总=V回+V残,V总=n-1,V回=1,V残=n-2
——————F=【SS回/SS回】/【SS残/V残】=MS回/MS残
2、t检验
(2)总体回归系数B的可信区间
(3)利用回归方程进行估计和预测
1、总体均数的可信区间
2、个体Y值得预测区间
第2节直线相关
1、直线相关的概念
直线相关linearcorrelation简单相关simplecorrelation————散点图
——双变量正态分布资料比variatenormaldistribution
正相关positivecorrelation——两变量X、Y同时下鞥大或减小,变化趋势是同向的
负相关negativecorrelation——X、Y间呈反向变化
完全正相关perfectpositivecorrelation——在一条直线上,X、Y是同向变化
完全负相关perfectnegativecorrelation——在同一直线上,X、Y呈反向变化
零相关zerocorrelation————两变量间没有直线相关关系
2、相关系数的意义与计算
相关系数correlationcoefficient
Peason积差相关系数coefficientofproductmomentcorrelation
r表示样本相关系数,p表示总体相关系数
相关系数没有单位,其值为-1《r《1
r值为正————正相关
r值为负————负相关
r绝对值等于1——完全相关
r=0——————零相关
3、相关系数的统计推断
(1)相关系数的假设检验
(2)总体相关系数的可信区间
4、决定系数coefficientofdetermination——回归平方与总平方和之比
5、直线回归于相关应用的注意事项
1、根据分析目的选择变量及统计方法
2、进行相关、回归分析前应绘制散点图
3、用残差图考察数据是否符合模型假设条件
4、结果的解释及正确应用
第3节秩相关
秩相关rankcorrelation等级相关
——是用双变量等级数据作直线相关分析,对原变量分布不作要求,属于非参数统计方法。
1、不服从双变量正态分布二而不宜作积差相关分析
——————原始数据的基本统计描述,直观的散点图
2、总体分布型未知
3、原始数据是用等级表示
1、Spearman秩相关
2、相同秩较多时Rs的校正
第9章双变量回归与相关
单变量资料
散点图
变量间关系问题:
1、依存关系:
应变量Y随自变量X变化而变化——回归分析
2、互依关系:
应变量Y与自变量X间的彼此关系——相关分析
第1节直线回归
两变量的散点图
回归——两个变量或多个变量之间某种数量依存关系
直线回归用直线方程来描述两变量间的回归关系——直线回归方程
Y=a+bX
直线回归模型的四个假设
1、线性linearity——反应变量均数与X间呈直线关系
2、独立independence——每个观察值之间彼此独立
3、正态normality——对于任何给定的XY服从正态分布
4、标准差相等equalstandarddeviation——对于任何X值,随机变量Y的标准差相等
直线回归方程:
Y=a+bX
a常数项,回归直线在Y轴上的截距intercept
————其统计意义是当X=0时相应的均数估计值
b斜率slope,回归系数regressioncoefficient
————当X变化一个单位时Y的平均改变的估计值(b个单位)
b>0,Y随X的增大而增大(减少而减少)——斜上
b<0,Y随X的增大而减少(减少而增大)——斜下
b=0,Y与X无直线关系
IbI越大,表示Y随X变化越快,直线越陡峭。
2、直线回归方程的求法
回归系数与截距的计算
残差剩余值——最小二乘法原理
1、绘制散点图
2、计算X、Y、Lxx、Lyy、Lxy
3、求回归系数b和截距a
4、列出回归方程
3、直线回归中的统计推断
(1)回归方程的假设检验
1、方差分析法SS总=SS回+SS残
F=MS回/MS残
2、t检验————t=F平方根
(2)总体回归系数的可信区间
(3)利用回归方程进行估计与预测
1、总体均数的可信区间
2、个体Y值的预测区间
第2节直线相关linearcorrelation
1、直线相关的概念
直线相关分析:
描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。
条件:
两变量X、Y都来自正态分布的随机变量
散点呈椭圆形分布——XY同时增减——正相关
——————————XY此增彼减——负相关
散点在同一条直线上——XY变化趋势相同——完全正相关
—————————————————不同——完全负相关
XY变化互不影响或无直线相关关系——————零相关
2、相关系数的意义与计算
直线相关系数pearson积差相关系数
—说明具有直线关系的两变量间相关的密切程度与相关方向的指标
r样本相关系数,p总体相关系数
r无单位,-1《r《1
r值为正——正相关
r——负——负相关
IrI=1————完全相关
IrI=0————零相关
步骤:
1、绘制散点图2、计算
样本相关系数r的大小与样本量有关
特别n=2,当两个点的连线不平行于横轴和纵轴时,r=1或r=-1
样本相关系数大小不能直接评价两个变量之间的相关性
3、相关系数的统计推断
(1)相关系数的假设检验
1、t检验
2、查表法
(2)总体相关系数的可信区间————正态分布
4、决定系数coefficientofdetermination
R=SS回/SS总
对直线回归的拟合优度检验等价于对总体回归系数的假设检验
5、直线回归与应用相关的注意事项
1、根据分析目的选择变量及统计方法
2、进行相关、回归分析前应绘制散点图
3、用残差图考察数据是否符合模型的假设条件
4、结果的解释及正确应用
直线相关与回归的区别与联系
区别
1、资料要求不同
直线回归要求应变量Y服从正态分布,X可以是精确测量和严格控制的变量,一般称为I型回归;直线相关要求两个变量XY服从双变量正态分布,这种资料若要进行回归分析称为II型回归。
2、应用情况不同
直线回归说明两变量间依存变化的数量关系,直线相关则是说明两变量的相关关系
3、r与b有区别
(1)、取值范围不同
(2)意义不同:
r说明具有直线关系的两个变量间关系的密切程度与相关方向;b表示X每改变一个单位Y平均改变b个单位。
(3)回归系数与原度量单位有关,二相关系数无单位
联系
1、r与b正负号一致
r为正时,b也为正,表示两变量是正相关,是同向变化。
——负,———负,——————负相关——反向变化
2、r与b的假设检验等价
对同一组资料若同时进行r与b的假设检验,可得到相同的t值;可用r的假设检验代替b的假设检验
3、II型回归
4、可用回归解释相关
决定系数:
即相关系数的平方,是回归平方和与总的离均差平方和之比,反映应变量Y的总变异中可用回归关系解释的部分。
越接近于r,表明利用回归方程进行预测越有意义
第3节等级相关
Spearman等级相关
Rs等级相关系数:
说明2个变量相关关系的密切程度与相关方向的
等级相关——秩相关——一种非参数统计方法
适用于:
1、双变量来自非正态总体
2、总体分布未知
3、数据一端或两端不确定的资料(开放型资料)
4、等级资料
n《50——查rs界值表
n>50——u检验
第9章双变量回归与相关
医学统计学工作的步骤(内容):
1、设计
2、收集资料:
准确、完整、及时
3、整理资料:
系统化、条理化
4、分析资料
(1)统计描述——变量的特征;集中趋势、离散趋势
(2)统计描述——参数估计(样本统计量/总体参数)——假设检验(比较样本之间统计量的差别;不同样本是否属于同一总体)
共同特点:
研究的变量是单一的
客观事物之间是相互联系的,仅对变量进行单独的研究是不够的。
两个变量的关系是确定的、绝对稳定的,可以用数学函数式表述——
两个变量的关系是非确定的,表现为随机性的一种趋势。
1、依存关系——因变量随自变量而定——回归分析
2、相关关系——因变量与自变量共变——相关分析
第1节直线回归
一、直线回归概念——用来分析两变量呈直线依存关系的统计方法
——————————要求因变量资料呈正态分布
Y=a+bX
2、直线回归方程的求法
残差——最小二乘法
3、回归直线的绘制
4、直线回归的统计推断
由于抽样误差的存在,即使从回归系数B=0的XY总体中随机抽样,所得到的样本回归系数b也不一定=0.因此需要对B是否为0作假设检验。
(一)Lyy的分析——SS总=SS回+SS剩
SS总是Y的总变异,即未考虑影响因素时Y的变异
SS回反映由于X与Y的回归关系而引起的Y的变异部分
SS剩反映X对Y的线性影响之外的一切因素引起的Y的变异部分,即考虑回归之后Y真正的随机误差。
自由度:
V总=n-1,V回=1,V剩=n-2
(2)方差分析——F=MS回/MS剩
(3)t检验——————t2=F
(4)直线回归方程的应用
1、利用回归方程分析两变量的依存关系
2、利用回归方程进行预测
3、利用回归方程进行统计控制
第2节直线相关
1、直线相关的概念
——用来分析两变量呈直线型相关关系的统计方法
——要求两变量资料都呈正态分布
2、根据散点图的分布
——正相关、负相关、完全正相关、完全负相关、无相关(0相关)、非线性相关
3、相关系数的计算及意义
r无单位,-1《r《1
r>0——正相关
r<0——负相关
r=0——零相关
IrI=1——完全相关
同一组资料,相关系数r与回归系数b的符号相同
4、相关系数的假设检验
r不等于0原因:
p=0由于抽样误差引起;p不等于0,存在相关关系
1、t检验
2、查r界值表
5、决定系数——在总平方和中回归平方和所占的比重。
——其值大小反映了回归贡献的相对程度
——也就是Y的总变异中回归关系所能解释的百分比。
1、回归平方和的大小决定了相关系数r绝对值的大小,回归平方和越接近总平方和,则r绝对值越接近1,说明相关的实际效果越好。
2、利用决定系数还可对回归或相关作假设检验。
F值与回归系数的方差分析的F值一致,
F与回归系数、相关系数的t检验的t2相等。
第三节直线相关与直线回归的关系
一、进行回归和相关分析时的注意事项
(1)做回归分析和相关分析时一定要有实际意义。
————内在联系;Y正态分布;X正态分布、能精确测量和严格控制的非随机变量。
(2)在进行回归和相关分析前,应绘制散点图。
——————————模型基本假设;异常点
(3)直线回归方程用于预测时应尽量避免不合理的外延
(4)双变量小样本的直线回归方程经t检验只能推断总体两变量间有无直线关系,二不能推断相关的密切程度,要推断相关的密切程度样本含量必须很大。
(5)对结果应有正确解释。
反映两变量间数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。
P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。
相关关系不一定是因果关系,也可能是伴随关系,有相关关系不能证明事物间确有内在联系。
2、回归和相关的区别
1、资料要求不同
回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为I型回归。
相关要求两个变量X、Y服从双变量正态分布,这种资料若进行回归分析称为II型回归。
2、应用情况不同
回归用于表述两变量间的依存关系,是单向的。
相关用于表述两变量间的相关关系,是双向的。
3、相关系数和回归系数的绝对值大小无直接关系
-1《r《1,r无单位
-&&
3、回归与相关的联系
1、方向一致
对于同一组资料,若同时计算相关系数r和回归系数b,它们的正负号是一致的。
2、假设检验等价
对于同一组资料,相关系数r和回归系数b的假设检验得到的t值相等。
由于相关系数r的假设检验可以直接查表,而回归系数b的假设检验计算比较繁琐,故在实际应用中常以前者代替后者。
3、互相解释
决定系数反映了回归平方和在总平方和中所占的比重,当总变异一定时,回归平方和的大小决定相关系数的大小,回归平方和越接近总平方和,回归效果越好,相关系数越接近1.
用决定系数可以从回归的角度,进一步了解相关程度,对相关程度做出更为可靠的解释。