统计学教案习题直线相关与回归Word下载.docx
《统计学教案习题直线相关与回归Word下载.docx》由会员分享,可在线阅读,更多相关《统计学教案习题直线相关与回归Word下载.docx(21页珍藏版)》请在冰豆网上搜索。
相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样
本相关系数,ρ表示总体相关系数。
它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
2.计算公式
相关系数r没有单位,其值为-1≤r≤1。
其绝对值愈接近1,两个变量间的直线相关愈密切;
愈接近0,相关愈不密切。
r值为正表示正相关,说明一变量随另一变量增减而增减,方向相同;
r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;
r的绝对值等于1为完全相关。
3.样本相关系数r的假设检验
(1)r界值表法;
(2)t检验法。
(三)直线回归与相关的区别与联系
1.区别
(1)资料要求:
直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;
直线相关要求两个变量X、Y服从双变量正态分布。
这种资料若进行回归分析称为Ⅱ型回归。
(2)应用情况:
直线回归是说明两变量依存变化的数量关系;
直线相关是说明两变量间的相关关系。
(3)意义:
b表示X每增(减)一个单位时,Y平均改变b个单位;
r说明具有直线关系的两个变量间关系的密切程度与相关方向。
(4)计算:
b=lxy/lxx;
r=lxy/
。
(5)取值范围:
—∞<b<+∞;
-1≤r≤1。
(6)单位:
b有单位;
r没有单位。
2.联系
(1)方向一致:
对一组数据若能同时计算b和r,它们的符号一致。
(2)假设检验等价:
对同一样本,r和b的假设检验得到的t值相等,即tb=tr。
(3)用回归解释相关:
决定系数
,回归平方和越接近总平方和,
则r2越接近1,说明引入相关的效果越好。
(四)秩相关
秩相关,又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:
⒈ 不服从双变量正态分布而不宜作积差相关分析;
⒉ 总体分布型未知;
⒊ 用等级表示的原始数据。
三、典型试题分析
1.回归系数的假设检验()
A.只能用r的检验代替B.只能用t检验
C.只能用F检验D.三者均可
答案:
D[评析]本题考点:
回归系数假设检验方法的理解。
回归系数的假设检验常用的方法有:
①方差分析;
②t检验。
对同一样本,r和b的假设检验等价,r和b的假设检验得到的t值相等,即tb=tr。
故回归系数的假设检验用三者均可。
2.已知r1=r2,那么()
A.b1=b2B.tb1=tb2
C.tr1=tr2D.两样本决定系数相等
答案:
D[评析]本题考点:
直线相关系数与回归系数关系的理解。
因为相关系数r和回归系数b的计算公式不同,不能推导出b1=b2;
r和b的假设检验等价,即tr1=tb1,tr2=tb2,而不是tb1=tb2,tr1=tr2;
样本决定系数为r2,已知r1=r2,则两样本决定系数相等,即r12=r22。
3.|r|>
r0.05(n-2)时,可认为两变量X与Y间()
A.有一定关系B.有正相关关系
C.一定有直线关系D.有直线关系
直线相关系数假设检验的理解。
因为直线相关系数r是样本的相关系数,它是相应总体相关系数ρ的估计值。
由于抽样误差的影响,必须进行显著性检验。
r的假设检验是检验两变量是否有直线相关关系。
|r|>
r0.05(n-2)时,P<
0.05,拒绝H0,接受H1,认为总体相关系数ρ≠0,因此可认为两变量X与Y间有直线关系。
4.相关系数检验的无效假设H0是()
A.ρ=0B.ρ≠0
C.ρ>
0D.ρ<
A[评析]本题考点:
直线相关系数显著性检验中检验假设的理解。
因为r是样本相关系数,它是总体相关系数ρ的估计值。
要判两变量间是否有相关关系,就要检验r是否来自总体相关系数ρ为零的总体。
因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得r值也常不等于零。
5.同一双变量资料,进行直线相关与回归分析,有()。
A.r>
0,b<
0B.r>
0,b>
C.r<
0D.r与b的符号毫无关系
B[评析]本题考点:
直线相关与回归的区别与联系的理解。
因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的符号一致。
因此,同一双变量资料,进行直线相关与回归分析,有r>
0。
四、习题
(一)单项选择题
1.下列()式可出现负值。
A.∑(X—
)2B.∑Y2—(∑Y)2/n
C.∑(Y—
)2D.∑(X—
)(Y—
)
2.Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位kg,则此方程()。
A.截距改变B.回归系数改变
C.两者都改变D.两者都不改变
3.已知r=1,则一定有()。
A.b=1B.a=1
C.SY.X=0D.SY.X=SY
4.用最小二乘法确定直线回归方程的原则是各观察点()。
A.距直线的纵向距离相等
B.距直线的纵向距离的平方和最小
C.与直线的垂直距离相等
D.与直线的垂直距离的平方和最小
5.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。
A.
B.
C.
D.
6.直线回归系数假设检验,其自由度为()。
A.nB.n-1
C.n-2D.2n-1
7.应变量Y的离均差平方和划分,可出现()。
A.SS剩=SS回B.SS总=SS剩
C.SS总=SS回D.以上均可
8.下列计算SS剩的公式不正确的是()。
B.
D.
9.直线相关系数可用()计算。
B.
C.
D.以上均可
10.当r=0时,
回归方程中有()。
A.a必大于零B.a必等于
C.a必等于零D.a必等于
(二)名词解释
1.直线回归2.回归系数3.剩余平方和4.回归平方和5.直线相关
6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关
(三)是非题
1.剩余平方和SS剩1=SS剩2,则r1必然等于r2。
2.直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。
3.两变量关系越密切r值越大。
(四)简答题
1.用什么方法考察回归直线图示是否正确?
2.剩余标准差的意义和用途?
3.某资料n=100,X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?
4.r与rs的应用条件有何不同?
5.应用直线回归和相关分析时应注意哪些问题?
6.举例说明如何用直线回归方程进行预测和控制?
7.直线回归分析时怎样确定因变量与自变量?
(五)计算题
1.10名20岁男青年身高与前臂长的数据见表10-2。
⑴计算相关系数并对ρ=0进行假设检验;
⑵计算总体ρ的95%可信区间。
表10-210名20岁男青年身高与前臂长
身高(cm)
170
173
160
155
188
178
183
180
165
前臂长(cm)
45
42
44
41
47
50
46
49
43
2.某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。
⑴此资料有无可疑的异常点?
⑵求直线回归方程并对回归系数作假设检验。
⑶试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。
⑷求进食量为900g时,个体Y值的95%容许区间,并解释其意义。
表10-3八只大白鼠的进食量和体重增加量
鼠号
1
2
3
4
5
6
7
8
进食量(g)
800
780
720
867
690
787
934
750
增量(g)
185
158
130
134
167
186
133
3.某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如下,试检验两者有无相关?
表10-4八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度
城市编号
肺癌标化死亡率(1/10万)
5.60
18.50
16.23
11.40
13.80
8.13
18.00
12.10
苯并(a)芘(μg/100m3)
0.05
1.17
1.05
0.10
0.75
0.50
0.65
1.20
4.就下表资料分析血小板和出血症的关系。
表10-512例病人的血小板浓度和出血症的关系
病例号
9
10
11
12
血小板数(109/L)
120
310
420
540
740
1060
1260
1230
1440
2000
出血症状
++
+++
±
-
+
五、习题答题要点
1.D2.C3.C4.B5.C6.C7.D8.B9.D10.D
1.直线回归(linearregression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。
2.回归系数(regressioncoefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。
3.剩余平方和(residualsumofsquares),SS剩即
,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分。
在散点图中,各实测点离回归直线越近,
也就越小,说明直线回归的估计误差越小。
4.回归平方和(regressionsumofsquares),SS回即
,它反映由于X与Y的直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。
回归平方和越大,说明回归效果越好。
5.直线相关(linearcorrelation)又称简单相关(simplecorrelation),用于双变量正态分布资料。
6.零相关(zerrocorrelation)是指两变量间没有直线相关关系。
11.相关系数又称积差相关系数(coefficientofproduct-momentcorrelation),以符号r表示样本相关系数,ρ表示总体相关系数。
12.决定系数(coefficientofdetermination)即r的平方,
,说明当SS总固定不变时,回归平方和的大小决定了r平方的大小。
回归平方和越接近总平方和,则r平方值越接近1。
13.曲线直线化(rectification)是曲线拟合的重要手段之一。
对于某些非线性的资料可以通过简单的变量变换使之直线化,用直线回归分析方法来分析。
14.秩相关又称等级相关(rankcorrelation),是用双变量等级数据作直线相关分析,适用于下列资料:
⑴不服从双变量正态分布而不宜作积差相关分析;
⑵总体分布型未知;
⑶用等级表示的原始数据。
(三)是非题
1.错。
两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一定相等,故两样本相关系数r1与r2不一定相等。
2.正确。
3.错。
相关系数r有正负之分,其值为-1≤r≤1,在总体相关系数不为零,即两变量确有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;
1.用以下三种方法判定:
⑴直线必须通过点(
)。
⑵若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a。
⑶直线是否在自变量X的实测范围内。
2.剩余标准差用sY.X表示:
其意义是指当X对Y的影响被扣除后,Y方面仍有变异。
这部分变异与X无关,纯属抽样变异。
故sY.X是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。
剩余标准差可用于:
⑴估计回归系数b的标准误,
,进行回归系数的区间估计和假设检验。
⑵估计总体中当X为某一定值时,估计值
的标准误。
并可计算
的可信区间,sY.X可作为预报精度的指标。
⑶估计总体中当X为某一定值时,个体Y值的标准差。
,并计算个体Y值的容许区间。
3.n=100,r=0.1时,对相关系数进行t检验,按检验水准α=0.05,拒绝H0(ρ=0),接受H1(ρ≠0),认为两变量有相关关系,但决定系数r2=0.12=0.01,表示回归平方和在总平方和中仅占1%,说明两变量间相关关系实际意义不大。
4.积差相关系数r用于描述双变量正态分布资料的相关关系。
等级相关系数rs适用于下列资料:
⑴不服从双变量正态分布而不宜作积差相关分析的资料;
⑵总体分布型未知的资料;
⑶原始资料是用等级表示的资料。
5.注意以下五个问题
⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。
⑵在进行回归分析和相关分析之前,应绘制散点图。
但观察点的分布有直线趋势时,才适宜作回归、相关分析。
如果散点图呈明显曲线趋势,应使之直线化再行分析。
散点图还能提示资料有无可疑异常点。
⑶直线回归方程的应用范围一般以自变量的取值范围为限。
若无充分理由证明超过自变量取值范围外还是直线,应避免外延。
⑷双变量的小样本经t检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。
⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。
6.用直线回归方程进行预测和控制的步骤
⑴根据研究目的确定预报因子(X)和预报量(Y),由X估计Y值,收集资料。
⑵建立预报方程
,并进行回归系数假设检验。
若P小于临界值,则回归方程成立。
⑶根据回归方程在X实测范围内对Y进行预测,并计算X为某定值时,个体Y值波动范围(容许区间)。
例如,1~7岁儿童,X为年龄,Y为体重,可根据年龄预测(估计)体重。
统计控制是利用回归方程进行逆估计,如要求因变量Y值在一定范围内波动,可以通过控制自变量X的取值来实现。
步骤同前。
例如,针刺哑门穴,进针深度Y与颈围X间存在直线关系,可根据X取值达到控制Y的目的。
7.Ⅰ型回归中,X为精密测量和严格控制的变量,Y为正态变量。
Ⅱ型回归中,X、Y均为服从正态分布的随机变量,可计算两个回归方程。
何者为X,何者为Y,根据研究目的确定。
例如,测得某一人群的身高和体重两变量,若目的只是由身高估计体重,则确定X为身高,Y为体重。
(五)计算题
1.由原始数据及散点图的初步分析(图10-1),估计本资料有直线趋势。
(1)计算相关系数
与ρ=0进行假设检验。
H0:
ρ=0,即身高与前臂长间无直线相关关系
H1:
ρ≠0,即身高与前臂长间有直线相关关系
α=0.05
,查t界值表,得0.002<
P<
0.005,按α=0.05水准拒绝H0,接受H1,故可认为20岁男青年身高与前臂长呈正直线相关。
⑵算总体ρ的95%可信区间。
对r作z变换:
或,z=tanh—10.8227=1.1651
z的95%可信区间:
按r=tanhz对z作反变换,得20岁男青年身高与与前臂长总体相关系数的95%可信区间为(0.4005,0.9567)。
2.由原始数据及散点图初步分析(图10-2),估本资料有直线趋势,故作下列计算。
∑X=6328,∑X2=5048814,
∑Y=1273,∑Y2=206619,
,∑XY=1018263
图10-2大白鼠的进食量与增加体重散点图
(1)回归系数假设检验:
β=0,即进食量与增重之间无直线关系
β≠0,即进食量与增重之间有直线关系α=0.05
1方差分析,见表10-6。
表10-6方差分析表
变异来源
SS
υ
MS
F
总变异
4052.875
回归
2954.905
16.147
剩余
1097.970
182.995
计算得F=16.147,查F界值表,得P<
0.01,按α=0.05水准,拒绝H0,接受H1,可认为大白鼠的进食量与增加体重间有直线关系。
2t检验:
按υ=6,查t界值表,得0.01>
P>
0.05,按α=0.05水准,拒绝H0,接受H1,结论同上。
本题
故可用直线回归方程
来描述大白鼠的进食量与增加体重的关系。
异常点即对应于残差(Y-
)绝对值特大的观测数据见表10-7。
表10-7残差的计算
序号
X
Y
Y-
161.474
23.526
156.254
1.746
140.594
-10.594
178.961
1.039
132.764
1.236
158.081
8.919
196.448
-10.448
148.424
-15.424
由散点图及残差分析,第一号点(X=800,Y=185)为可疑的异常点。
⑵根据以上的计算结果,进一步求其总体回归系数的95%可信区间。
绘制回归直线并图示回归系数95%可信区间。
总体回归系数β的95%可信区间:
(b-t0.05(n-2)Sb,b+t0.05(n-2)Sb)
=(0.261-2.447×
13.5107∕
,0.261+2.447×
=(0.1022,0.4198)
取X1=690,代入回归方程
=-47.326+0.261X,得Y1=132.76;
X2=934,Y2=196.45。
在图上确定(690,132.76)和(934,196.45)两个点,以直线连接即得回归直线的图形见图10-2。
按回归系数的95%可信区间下限和上限分别代入
,得
=78.285,
=-172.937。
回归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线,回归方程为:
=78.285+0.1022X,
=-172.937+0.4198X
⑶估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明其含义。
当X=900时,
的95%可信区间:
(
-t0.05(6)
,
+t0.05(6)
=(187.574-2.447×
8.5446,187.574+2.447×
8.5446)=(166.67,208.48)
即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为166.67~208.48g。
其含义为:
当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。
=-47.326+0.261X=187.574,个体Y值的95%容许区间:
-t0.05(6)SY,
+t0.05(6)SY)
16.0002,187.574+2.447×
16.0002)=(148.42,226.73)
即估计总体中,进食量为900g时,有95%的大白鼠增加体重在148.42~226.73g范围内。
3.本题资料不服从双变量正态分布,宜计算等级相关系数。
计算过程见表10-8
表10-8八个城市的肺癌标化死亡率和大气中苯并(a)芘的相关分析
苯并(a)芘
⑴
⑵
等级
⑶
⑷
⑸
d
⑹=⑶-⑸
d2
⑺