教育多元统计学与SPSS软件67相关回归.docx
《教育多元统计学与SPSS软件67相关回归.docx》由会员分享,可在线阅读,更多相关《教育多元统计学与SPSS软件67相关回归.docx(69页珍藏版)》请在冰豆网上搜索。
教育多元统计学与SPSS软件67相关回归
第六章相关分析
我们在实际工作中所遇到的变量,都是相互联系、相互制约的,从而它们之间存在着一定的关系。
人们通过各种实践,发现变量之间的关系大致可以分为两种:
①确定性的关系,即函数关系;
②非确定性的关系,即相关关系。
相关分析是研究相关关系的一种常用的统计方法,分为简单相关分析与偏相关分析。
第一节简单相关分析
1.相关系数
相关关系:
变量之间有关,但又不能由一个或几个变量去完全惟一确定另一个变量取值的关系(或很难用函数关系表达出来)。
相关关系的密切程度用简单相关系数(在不引起混淆的情况下,简称相关系数)反映,用r表示,其值在-1到+1之间,绝对值愈接近1,表明密切程度愈高,关系愈密切;愈接近0,表明密切程度愈低,关系愈不密切。
这里的密切是指线性关系,当r的值很小时,只能说明无线性关系,事实上有可能存在其他的关系,如曲线关系等。
r的符号表示两个变量的相关方向:
r>0时,两变量存在着正相关关系,一个变量的取值随着另一个变量取值的增大而增大;r<0时,两变量存在着负相关关系,一个变量的取值随着另一个变量取值的增大而减小。
r的计算公式为:
Lxy
r=
LxxLyy
其中:
Lxy=Σ(x-x)(y-y),Lxx=Σ(x-x)2,Lyy=Σ(y-y)2
=Σxy-1/n×ΣxΣy=Σx2-1/n×(Σx)2=Σy2-1/n×(Σy)2
在用相关系数分析问题时,要进行检验。
原假设:
ρ=0
对显著性水平α,自由度n-2,查表得临界值rα,若|r|>rα,则显著。
注:
若n很大,即使r很小,也很容易得到“显著”的结论。
因而在相关分析的过程中,除说明是否显著外,还应对r的大小加以说明。
一般情况下,可以这样判断:
|r|≥0.7,高度相关;
0.4≤|r|<0.7,中度相关;
|r|<0.4,低度相关。
2.SPSS软件操作步骤
选择“Analyze”→“Correlate”→“Bivariate”项,弹出如图6.1.1所示的对话框。
图6.1.1相关系数计算对话框
2.1Variables框
存放变量。
2.2CorrelationCoefficients项
⑴Pearson
积差相关,用于连续变量或等间距测度的变量。
⑵Kendall′stau-b
等级相关,计算分类变量间的秩相关。
⑶Spearman
等级相关,计算斯皮尔曼相关。
当变量不服从正态分布或总体分布未知时,可使用Kendall′stau-b或Spearman相关。
2.3TestofSignificance项
⑴Two-tailed
双尾检验,用于事先不知道相关方向(即正相关还是负相关)的情况。
⑵One-tailed
单尾检验,用于事先知道相关方向的情况。
双尾、单尾检验也称为双侧、单侧检验。
双侧检验时,当原假设被拒绝后,还有两种可能,显著性水平α分布在图形的两侧。
有时在进行检验前,可以判定一种情况不成立,当原假设被拒绝后,只剩下一种情况了。
在同一显著性水平下,由于单侧检验的临界值比双侧检验的临界值靠近总体均值,因此,容易检验出显著性差异来。
2.4FlagsignificantCorrlations项
在相关系数右上方用“*”标出检验结果。
“*”表示显著性水平为0.05;“**”表示显著性水平为0.01。
2.5Options按钮
图6.1.2Options对话框
⑴Statistics项
①Meansandstandarddeviations
输出均值与标准差。
②Cross-productdeviationsandcovariances
输出叉积离差阵和协方差阵。
⑵MissingValues项
①Excludecasespairwise
剔除本计算变量含有缺失值的数据。
②Excludecaseslistwise
剔除所有计算变量含有缺失值的数据。
3.应用举例
例6.1.1为研究学生的平时作文成绩x与高考作文成绩y的关系,随机抽取50名考生,数据见表6.1.1,试进行相关分析。
表6.1.1平时作文成绩x与高考作文成绩y
序号
1
2
3
4
5
6
7
8
9
10
x
80
78
90
92
82
72
90
84
64
76
y
29
24
30
32
28
25
27
30
15
25
注:
为节省篇幅与输入量,本例只取了10人,实际问题中应尽量多取一些。
选择“Analyze”→“Correlate”→“Bivariate”项,将变量x、y放入“Variables”框;选中“pearson”、“Two-tailed”。
按“Options”按钮,选中“Meansandstandarddeviations”与“Cross-productdeviationsandcovariances”。
计算结果如下。
表6.1.2平均数与标准差
DescriptiveStatistics
Mean
Std.Deviation
N
X
80.800000
8.804039
10
Y
26.500000
4.790036
10
表6.1.3相关系数与检验结果
Correlations
X
Y
X
PearsonCorrelation
1.000
0.869
Sig.(2-tailed)
.
0.001
SumofSquaresandCross-products
697.600
330.000
Covariance
77.511
36.667
N
10
10
Y
PearsonCorrelation
0.869
1.000
Sig.(2-tailed)
0.001
.
SumofSquaresandCross-products
330.000
206.500
Covariance
36.667
22.944
N
10
10
**Correlationissignificantatthe0.01level(2-tailed).
SumofSquaresandCross-products:
积差平方和
Covariance:
协方差
平时作文成绩x与高考作文成绩y的相关系数为0.869,P=0.001<0.01,高度显著,说明两者之间存在着线性相关关系,又相关系数值较大,说明高度相关。
第二节偏相关分析
1.偏相关系数
相关分析的结果往往因为第3个变量的作用,使得相关系数不能真正反映两个变量之间的相关程度,而偏相关系数反映的是除去其他变量的影响后两个变量的真正关系。
偏相关系数用r′表示,如x1、x2在除去x3的影响后的偏相关系数称为x1、x2对x3的偏相关系数,记为r′12,3,其计算公式为:
r12-r13·r23
r′12,3=
(1-r213)(1-r223)
其中,r12、r13、r23为简单相关系数。
偏相关系数计算公式的一般形式为:
-dij
r′ij=
diidjj
称为变量xi与xj在除去其他变量的影响后的偏相关系数,dij为简单相关系数矩阵R(p+1阶)的逆矩阵的元素。
2.SPSS软件操作步骤
选择“Analyze”→“Correlate”→“Partial”项,弹出如图6.2.1所示的对话框。
2.1Valiables框
存放偏相关分析的变量。
2.2Controllingfor框
存放控制的变量。
2.3TestofSignificance项
含义同第一节。
图6.2.1偏相关系数计算对话框
2.4Displayactualsignificancelevel
在显示相关系数的同时,显示实际的显著性概率,不选此项,用“*”代替。
2.5Options按钮
Zero-ordercorrelation:
显示零阶相关矩阵,即Pearson相关矩阵。
其余各项的含义同第一节。
3.应用举例
例6.2.1某地29名13岁男童身高(X1)、体重(X2)与肺活量(y)的数据见表6.2.1,试进行控制体重影响作用的身高与肺活量的相关分析。
表6.2.1身高体重肺活量
(1)
序
身高
体重
肺活量
序
身高
体重
肺活量
1
135.1
32.0
1750.0
16
153.0
47.2
1750.0
2
139.9
30.4
2000.0
17
147.6
40.5
2000.0
3
163.6
46.2
2750.0
18
157.5
43.3
2250.0
4
146.5
33.5
2500.0
19
155.1
44.7
2750.0
5
156.2
37.1
2750.0
20
160.5
37.5
2000.0
6
156.4
35.5
2000.0
21
143.0
31.5
1750.0
7
167.8
41.5
2750.0
22
149.4
33.9
2250.0
8
149.7
31.0
1500.0
23
160.8
40.4
2750.0
9
145.0
33.0
2500.0
24
159.0
38.5
2500.0
表6.2.1身高体重肺活量
(2)
序
身高
体重
肺活量
序
身高
体重
肺活量
10
148.5
37.2
2250.0
25
158.2
37.5
2000.0
11
165.5
49.5
3000.0
26
150.0
36.0
1750.0
12
135.0
27.6
1250.0
27
144.5
34.7
2250.0
13
153.3
41.0
2750.0
28
154.6
39.5
2500.0
14
152.0
32.0
1750.0
29
156.5
32.0
1750.0
15
160.5
47.2
2250.0
选择“Analyze”→“Correlate”→“Partial”项,将用于偏相关分析的变量x1与y放入“Valiables”框,用于控制的变量x2放入“Controllingfor”框,选中“Displayactualsignificancelevel”。
按“Options”按钮,选中“Meansandstandarddeviations”与“Zero-ordercorrelation”。
计算结果如下。
VariableMeanStandardDevCases
X1152.57598.362229
Y2206.8966448.554129
X237.65175.745529
以上是平均数、标准差。
ZeroOrderPartials
X1YX2
X11.00000.58840.7194
(0)(27)(27)
P=.P=0.001P=0.000
Y0.58841.00000.6127
(27)(0)(27)
P=0.001P=.P=0.000
X20.71940.61271.0000
(27)(27)(0)
P=0.000P=0.000P=.
(Coefficient/(D.F.)/2-tailedSignificance)
"."isprintedifacoefficientcannotbecomputed
以上是简单相关系数。
身高与肺活量的相关系数为0.5884,身高与体重的相关系数为0.7194,体重与肺活量的相关系数为0.6127。
P值均小于0.01,高度显著。
表明身高、体重、肺活量之间均存在着线性相关关系,特别是身高与体重关系较为密切。
Controllingfor..X2
X1Y
X11.00000.2688
(0)(26)
P=.P=0.167(不显著)
Y0.26881.0000
(26)(0)
P=0.167P=.
(Coefficient/(D.F.)/2-tailedSignificance)
以上是偏相关系数,在除去体重的影响后,身高与肺活量的偏相关系数为0.2688,检验结果为不显著,表明身高与肺活量之间不存在线性相关关系。
这是因为身高与体重之间的关系较为密切,在分析身高与肺活量之间的相关关系时,也包括了体重的正效应,当排除了体重的影响后,身高与肺活量就不存在相关关系了。
由本例知,身高与肺活量的相关系数为0.5884、偏相关系数为0.2688,系数值相差很大,有的问题甚至两者的符号不同,此时,应该以偏相关系数的结论为准。
因为偏相关系数才能真正反映两个变量的本质联系,而简单相关系数则可能由于其他变量的影响,反映的只是表面的非本质的联系,甚至可能完全是假象。
第三节距离分析
距离分析用来研究变量或观测值之间的相似性,其结果可用于因子分析、聚类分析等较为复杂的分析过程。
距离分析根据计算的变量或观测值之间的相似系数,对其进行分类。
计算调用“Analyze”→“Correlate”→“Distances”项。
详见有关参考文献。
第七章回归分析
回归分析是研究变量之间关系的一种统计方法,利用它可以给出预测方程,根据一个或几个自变量的值预测因变量的值,并且可以确定这种预测的精度;还可以进行因素分析,对于共同影响因变量的诸多因素,找出哪些是主要因素、哪些是次要因素。
回归分析的内容较多,常用的有线性回归、曲线回归、非线性回归、Logistic回归、Cox回归、概率单位回归等,本章只介绍常用的几种方法。
第一节线性回归分析
线性回归分析研究的是因变量与自变量之间的线性依存关系。
1.一元线性回归分析
1.1一元线性回归方程
Y=a+bx
其中,x为自变量,Y为因变量,a为回归常数,b为回归系数。
1.2确定回归直线的原则
具有线性相关关系的两个变量可以用直线来表示它们之间的关系,这样的直线可以作出许多条,但用哪一条直线表示它们之间的关系好呢?
这就需要有一个明确的原则:
使所配的这条直线要与所有的散点最接近,也即要使平方和:
Q=∑(yi-yi)2
达到极小值,常用的方法是最小二乘法。
其中,yi为观测值,yi为预测值。
1.3关系描述
仍用相关系数r描述因变量与自变量之间的关系。
1.4检验
对计算出的回归方程,要进行检验,若回归方程显著,才能进行预测,方法见下面的“多元线性回归分析”。
1.5应用举例
例7.1.1一般来说,物理成绩受数学成绩的影响较大,今收集到20名学生的物理、数学成绩,试建立用数学成绩预测物理成绩的回归方程。
表7.1.120名学生物理数学成绩
数学X
78
67
89
76
83
91
74
69
94
66
物理Y
74
63
70
75
81
86
67
63
89
62
数学X
77
86
67
93
85
65
90
83
75
81
物理Y
79
88
65
90
78
67
80
91
73
82
选择“Analyze”→“Regression”→“Linear”项,将因变量Y放入“Dependent”框,自变量X放入“Independents”框。
在“Method”中选择默认的方法“Entre”,回归方程中保留全部自变量。
按“Statistics”按钮,除了两个默认项“Estimates”、“Modelfit”外,另外选择“Rsquaredchange”、“Descriptives”、“Casewisediagnostic”中的“AllCases”项,输出回归分析的一些常用结果与每一例的标准化残差、实测值、预测值及残差。
按“Save”按钮,选择两个“Unstandardized”项,保存未标准化的预测值与残差。
计算结果如下。
表7.1.2相关系数
ModelSummary
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
0.836
0.699
0.683
5.4694
aPredictors:
(Constant),X
相关系数为0.836,说明物理成绩与数学成绩确实存在着较高的线性相关关系。
表中各项分别为:
复相关系数、判定系数、调整的判定系数、剩余标准差。
表7.1.3方差分析表
ANOVA
Model
SumofSquares
df
MeanSquare
F
Sig.
1Regression
Residual
Total
1252.095
1
1252.095
41.856
0.000
538.455
18
29.914
1790.550
19
aPredictors:
(Constant),X
bDependentVariable:
Y
P=0.000<0.01,相关系数或回归方程高度显著。
表7.1.4回归方程系数表
Coefficients
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1(Constant)
X
8.184
10.576
0.774
0.449
0.855
0.132
0.836(标准化系数)
6.47
0.000
aDependentVariable:
Y
回归方程为:
y=8.184+0.855x
表7.1.5残差统计结果
ResidualsStatisticsa
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
(预测值)
63.7886
88.5969
76.1500
8.11786
20
Residual(残差)
-14.31965
11.81312
0.00000
5.32351
20
Std.PredictedValue(标准预测值)
-1.523
1.533
0.000
1.000
20
Std.Residual
(标准残差)
-2.618
2.160
0.000
0.973
20
aDependentVariable:
y
利用回归方程可以帮助具体分析学生的学习情况,如:
第13名学生:
数学67,物理65,经回归方程预测为:
65(符合一般规律)。
第17名学生:
数学90,物理80,经回归方程预测物理成绩应为:
85(注意学习方法或其他学习环节)。
第18名学生:
数学83,物理91,经回归方程预测物理成绩应为:
79(提高数学成绩)。
2.多元线性回归分析
2.1线性模型
Y=b0+b1x1+b2x2+…+bpxp
其中,xi为自变量,Y为因变量,b0为常数项,bi为回归系数,也称为偏回归系数,它表示在其他所有自变量不变的情况下,自变量xi每变化一个单位,引起因变量y平均变化的数值。
2.2检验
①回归方程
用方差分析法进行检验,经推导可得出:
S总=Lyy=∑(yi-y)2=U+Q
其中U=ΣbjLjy,Q=Lyy-U
S总称为总离差平方和,反映了yi总的离散程度,即总差异的大小;U称为回归平方和,反映了由于自变量与因变量的线性关系而引起yi之间差异的大小;Q称为剩余平方和,反映了由于自变量与因变量线性关系以外的随机因素引起yi之间差异的大小。
检验用F统计量:
U/p
F=
Q/(n-p-1)
查F分布表得Fα,若F>Fα,回归方程显著。
其中n为人数,p为自变量个数。
②回归系数
经检验具有显著意义的回归方程,只是对p个自变量这一整体而言的,并不能说明每个自变量对因变量的影响都是显著的,那么,哪些自变量的影响显著、哪些自变量的影响不显著呢?
这就需要对回归系数进行检验,从方程中剔除那些影响不显著的自变量。
2.3复相关系数R
R表示因变量与所有自变量之间的线性相关的密切程度,其取值范围在0~1之间,愈接近1,表明线性关系愈密切,愈接近0,表明线性关系愈不密切。
复相关系数的计算公式为:
U
R=
Lyy
R2称为判定系数,它是回归平方和在总平方和中所占的比率,体现了回归模型所能解释的因变量变异性的比率,如例7.1.1中的R2=0.699,说明因变量Y的变异中有69.9%是由自变量引起的。
SPSS软件中给出的“AdjustedRSquare”是消除了自变量个数影响的R2的修正值,其计算公式为:
n-1
AR2=1-(1-R2)×
n-p-1
其中n为人数,p为自变量个数。
2.4剩余标准差Sy
剩余标准差表示观测值偏离回归直线的平均误差,用来衡量预测的精确度,其值愈小愈精确。
在用回归方程进行预测时,不要只满足检验的结论是否显著,还应结合剩余标准差Sy的大小进行分析,虽回归方程显著,但若其值较大,仍不能用于预测。
剩余标准差的计算公式为:
Q
Sy=
n-p-1
Sy只能用于同类问题的比较,不同的问题不便于比较。
有学者通过研究,引进了标准剩余标准差Sy′的概念:
Sy′=Sy/
×100%(
为因变量的平均数)
若Sy′在(0,1%)、(1%,2%)、(2%,3%)、(3%,4%)、(5%,∝)范围内,则结论分别为预测精度高、较高、一般、较低、低。
用建立的回归方程说明问题,最好标明Sy、Sy′,否则,既影响了研究课题本身的质量,又给使用回归方程的人带来一定的困惑。
2.5残差图
利用残差图可以判断模型的拟合效果,若各点呈随机分布,并大部分在±26的范围内(68%的在±6内,96%的点在±26内),说明模型的拟合效果好,若大部分在该范围外,说明模型的拟合效果不好。
2.6共线性
指自变量之间的相关关系太高,这种情况会给回归分析带来困扰。
实际问题中尽量挑选关系不密切的变量作为自变量。
3.逐步回归分析
多元回归方程中包含了所有的自变量,这似乎是较为理想的方程,然而事实上并不尽如此。
若回归方程中含有对因变量不显著的自变量,反而