教育多元统计学与SPSS软件67相关回归.docx

上传人:b****6 文档编号:7357427 上传时间:2023-01-23 格式:DOCX 页数:69 大小:440.42KB
下载 相关 举报
教育多元统计学与SPSS软件67相关回归.docx_第1页
第1页 / 共69页
教育多元统计学与SPSS软件67相关回归.docx_第2页
第2页 / 共69页
教育多元统计学与SPSS软件67相关回归.docx_第3页
第3页 / 共69页
教育多元统计学与SPSS软件67相关回归.docx_第4页
第4页 / 共69页
教育多元统计学与SPSS软件67相关回归.docx_第5页
第5页 / 共69页
点击查看更多>>
下载资源
资源描述

教育多元统计学与SPSS软件67相关回归.docx

《教育多元统计学与SPSS软件67相关回归.docx》由会员分享,可在线阅读,更多相关《教育多元统计学与SPSS软件67相关回归.docx(69页珍藏版)》请在冰豆网上搜索。

教育多元统计学与SPSS软件67相关回归.docx

教育多元统计学与SPSS软件67相关回归

第六章相关分析

我们在实际工作中所遇到的变量,都是相互联系、相互制约的,从而它们之间存在着一定的关系。

人们通过各种实践,发现变量之间的关系大致可以分为两种:

①确定性的关系,即函数关系;

②非确定性的关系,即相关关系。

相关分析是研究相关关系的一种常用的统计方法,分为简单相关分析与偏相关分析。

 

第一节简单相关分析

1.相关系数

相关关系:

变量之间有关,但又不能由一个或几个变量去完全惟一确定另一个变量取值的关系(或很难用函数关系表达出来)。

相关关系的密切程度用简单相关系数(在不引起混淆的情况下,简称相关系数)反映,用r表示,其值在-1到+1之间,绝对值愈接近1,表明密切程度愈高,关系愈密切;愈接近0,表明密切程度愈低,关系愈不密切。

这里的密切是指线性关系,当r的值很小时,只能说明无线性关系,事实上有可能存在其他的关系,如曲线关系等。

r的符号表示两个变量的相关方向:

r>0时,两变量存在着正相关关系,一个变量的取值随着另一个变量取值的增大而增大;r<0时,两变量存在着负相关关系,一个变量的取值随着另一个变量取值的增大而减小。

r的计算公式为:

Lxy

r=

LxxLyy

其中:

Lxy=Σ(x-x)(y-y),Lxx=Σ(x-x)2,Lyy=Σ(y-y)2

=Σxy-1/n×ΣxΣy=Σx2-1/n×(Σx)2=Σy2-1/n×(Σy)2

在用相关系数分析问题时,要进行检验。

原假设:

ρ=0

对显著性水平α,自由度n-2,查表得临界值rα,若|r|>rα,则显著。

注:

若n很大,即使r很小,也很容易得到“显著”的结论。

因而在相关分析的过程中,除说明是否显著外,还应对r的大小加以说明。

一般情况下,可以这样判断:

|r|≥0.7,高度相关;

0.4≤|r|<0.7,中度相关;

|r|<0.4,低度相关。

2.SPSS软件操作步骤

选择“Analyze”→“Correlate”→“Bivariate”项,弹出如图6.1.1所示的对话框。

图6.1.1相关系数计算对话框

2.1Variables框

存放变量。

2.2CorrelationCoefficients项

⑴Pearson

积差相关,用于连续变量或等间距测度的变量。

⑵Kendall′stau-b

等级相关,计算分类变量间的秩相关。

⑶Spearman

等级相关,计算斯皮尔曼相关。

当变量不服从正态分布或总体分布未知时,可使用Kendall′stau-b或Spearman相关。

2.3TestofSignificance项

⑴Two-tailed

双尾检验,用于事先不知道相关方向(即正相关还是负相关)的情况。

⑵One-tailed

单尾检验,用于事先知道相关方向的情况。

双尾、单尾检验也称为双侧、单侧检验。

双侧检验时,当原假设被拒绝后,还有两种可能,显著性水平α分布在图形的两侧。

有时在进行检验前,可以判定一种情况不成立,当原假设被拒绝后,只剩下一种情况了。

在同一显著性水平下,由于单侧检验的临界值比双侧检验的临界值靠近总体均值,因此,容易检验出显著性差异来。

2.4FlagsignificantCorrlations项

在相关系数右上方用“*”标出检验结果。

“*”表示显著性水平为0.05;“**”表示显著性水平为0.01。

2.5Options按钮

图6.1.2Options对话框

⑴Statistics项

①Meansandstandarddeviations

输出均值与标准差。

②Cross-productdeviationsandcovariances

输出叉积离差阵和协方差阵。

⑵MissingValues项

①Excludecasespairwise

剔除本计算变量含有缺失值的数据。

②Excludecaseslistwise

剔除所有计算变量含有缺失值的数据。

3.应用举例

例6.1.1为研究学生的平时作文成绩x与高考作文成绩y的关系,随机抽取50名考生,数据见表6.1.1,试进行相关分析。

表6.1.1平时作文成绩x与高考作文成绩y

序号

1

2

3

4

5

6

7

8

9

10

x

80

78

90

92

82

72

90

84

64

76

y

29

24

30

32

28

25

27

30

15

25

注:

为节省篇幅与输入量,本例只取了10人,实际问题中应尽量多取一些。

选择“Analyze”→“Correlate”→“Bivariate”项,将变量x、y放入“Variables”框;选中“pearson”、“Two-tailed”。

按“Options”按钮,选中“Meansandstandarddeviations”与“Cross-productdeviationsandcovariances”。

计算结果如下。

表6.1.2平均数与标准差

DescriptiveStatistics

Mean

Std.Deviation

N

X

80.800000

8.804039

10

Y

26.500000

4.790036

10

表6.1.3相关系数与检验结果

Correlations

X

Y

X

PearsonCorrelation

1.000

0.869

Sig.(2-tailed)

.

0.001

SumofSquaresandCross-products

697.600

330.000

Covariance

77.511

36.667

N

10

10

Y

PearsonCorrelation

0.869

1.000

Sig.(2-tailed)

0.001

.

SumofSquaresandCross-products

330.000

206.500

Covariance

36.667

22.944

N

10

10

**Correlationissignificantatthe0.01level(2-tailed).

SumofSquaresandCross-products:

积差平方和

Covariance:

协方差

平时作文成绩x与高考作文成绩y的相关系数为0.869,P=0.001<0.01,高度显著,说明两者之间存在着线性相关关系,又相关系数值较大,说明高度相关。

 

第二节偏相关分析

1.偏相关系数

相关分析的结果往往因为第3个变量的作用,使得相关系数不能真正反映两个变量之间的相关程度,而偏相关系数反映的是除去其他变量的影响后两个变量的真正关系。

偏相关系数用r′表示,如x1、x2在除去x3的影响后的偏相关系数称为x1、x2对x3的偏相关系数,记为r′12,3,其计算公式为:

r12-r13·r23

r′12,3=

(1-r213)(1-r223)

其中,r12、r13、r23为简单相关系数。

偏相关系数计算公式的一般形式为:

-dij

r′ij=

diidjj

称为变量xi与xj在除去其他变量的影响后的偏相关系数,dij为简单相关系数矩阵R(p+1阶)的逆矩阵的元素。

2.SPSS软件操作步骤

选择“Analyze”→“Correlate”→“Partial”项,弹出如图6.2.1所示的对话框。

2.1Valiables框

存放偏相关分析的变量。

2.2Controllingfor框

存放控制的变量。

2.3TestofSignificance项

含义同第一节。

图6.2.1偏相关系数计算对话框

2.4Displayactualsignificancelevel

在显示相关系数的同时,显示实际的显著性概率,不选此项,用“*”代替。

2.5Options按钮

Zero-ordercorrelation:

显示零阶相关矩阵,即Pearson相关矩阵。

其余各项的含义同第一节。

3.应用举例

例6.2.1某地29名13岁男童身高(X1)、体重(X2)与肺活量(y)的数据见表6.2.1,试进行控制体重影响作用的身高与肺活量的相关分析。

表6.2.1身高体重肺活量

(1)

身高

体重

肺活量

身高

体重

肺活量

1

135.1

32.0

1750.0

16

153.0

47.2

1750.0

2

139.9

30.4

2000.0

17

147.6

40.5

2000.0

3

163.6

46.2

2750.0

18

157.5

43.3

2250.0

4

146.5

33.5

2500.0

19

155.1

44.7

2750.0

5

156.2

37.1

2750.0

20

160.5

37.5

2000.0

6

156.4

35.5

2000.0

21

143.0

31.5

1750.0

7

167.8

41.5

2750.0

22

149.4

33.9

2250.0

8

149.7

31.0

1500.0

23

160.8

40.4

2750.0

9

145.0

33.0

2500.0

24

159.0

38.5

2500.0

表6.2.1身高体重肺活量

(2)

身高

体重

肺活量

身高

体重

肺活量

10

148.5

37.2

2250.0

25

158.2

37.5

2000.0

11

165.5

49.5

3000.0

26

150.0

36.0

1750.0

12

135.0

27.6

1250.0

27

144.5

34.7

2250.0

13

153.3

41.0

2750.0

28

154.6

39.5

2500.0

14

152.0

32.0

1750.0

29

156.5

32.0

1750.0

15

160.5

47.2

2250.0

选择“Analyze”→“Correlate”→“Partial”项,将用于偏相关分析的变量x1与y放入“Valiables”框,用于控制的变量x2放入“Controllingfor”框,选中“Displayactualsignificancelevel”。

按“Options”按钮,选中“Meansandstandarddeviations”与“Zero-ordercorrelation”。

计算结果如下。

VariableMeanStandardDevCases

X1152.57598.362229

Y2206.8966448.554129

X237.65175.745529

以上是平均数、标准差。

ZeroOrderPartials

X1YX2

X11.00000.58840.7194

(0)(27)(27)

P=.P=0.001P=0.000

Y0.58841.00000.6127

(27)(0)(27)

P=0.001P=.P=0.000

X20.71940.61271.0000

(27)(27)(0)

P=0.000P=0.000P=.

(Coefficient/(D.F.)/2-tailedSignificance)

"."isprintedifacoefficientcannotbecomputed

以上是简单相关系数。

身高与肺活量的相关系数为0.5884,身高与体重的相关系数为0.7194,体重与肺活量的相关系数为0.6127。

P值均小于0.01,高度显著。

表明身高、体重、肺活量之间均存在着线性相关关系,特别是身高与体重关系较为密切。

Controllingfor..X2

X1Y

X11.00000.2688

(0)(26)

P=.P=0.167(不显著)

Y0.26881.0000

(26)(0)

P=0.167P=.

(Coefficient/(D.F.)/2-tailedSignificance)

以上是偏相关系数,在除去体重的影响后,身高与肺活量的偏相关系数为0.2688,检验结果为不显著,表明身高与肺活量之间不存在线性相关关系。

这是因为身高与体重之间的关系较为密切,在分析身高与肺活量之间的相关关系时,也包括了体重的正效应,当排除了体重的影响后,身高与肺活量就不存在相关关系了。

由本例知,身高与肺活量的相关系数为0.5884、偏相关系数为0.2688,系数值相差很大,有的问题甚至两者的符号不同,此时,应该以偏相关系数的结论为准。

因为偏相关系数才能真正反映两个变量的本质联系,而简单相关系数则可能由于其他变量的影响,反映的只是表面的非本质的联系,甚至可能完全是假象。

 

第三节距离分析

距离分析用来研究变量或观测值之间的相似性,其结果可用于因子分析、聚类分析等较为复杂的分析过程。

距离分析根据计算的变量或观测值之间的相似系数,对其进行分类。

计算调用“Analyze”→“Correlate”→“Distances”项。

详见有关参考文献。

 

第七章回归分析

回归分析是研究变量之间关系的一种统计方法,利用它可以给出预测方程,根据一个或几个自变量的值预测因变量的值,并且可以确定这种预测的精度;还可以进行因素分析,对于共同影响因变量的诸多因素,找出哪些是主要因素、哪些是次要因素。

回归分析的内容较多,常用的有线性回归、曲线回归、非线性回归、Logistic回归、Cox回归、概率单位回归等,本章只介绍常用的几种方法。

 

第一节线性回归分析

线性回归分析研究的是因变量与自变量之间的线性依存关系。

1.一元线性回归分析

1.1一元线性回归方程

Y=a+bx

其中,x为自变量,Y为因变量,a为回归常数,b为回归系数。

1.2确定回归直线的原则

具有线性相关关系的两个变量可以用直线来表示它们之间的关系,这样的直线可以作出许多条,但用哪一条直线表示它们之间的关系好呢?

这就需要有一个明确的原则:

使所配的这条直线要与所有的散点最接近,也即要使平方和:

Q=∑(yi-yi)2

达到极小值,常用的方法是最小二乘法。

其中,yi为观测值,yi为预测值。

1.3关系描述

仍用相关系数r描述因变量与自变量之间的关系。

1.4检验

对计算出的回归方程,要进行检验,若回归方程显著,才能进行预测,方法见下面的“多元线性回归分析”。

1.5应用举例

例7.1.1一般来说,物理成绩受数学成绩的影响较大,今收集到20名学生的物理、数学成绩,试建立用数学成绩预测物理成绩的回归方程。

表7.1.120名学生物理数学成绩

数学X

78

67

89

76

83

91

74

69

94

66

物理Y

74

63

70

75

81

86

67

63

89

62

数学X

77

86

67

93

85

65

90

83

75

81

物理Y

79

88

65

90

78

67

80

91

73

82

选择“Analyze”→“Regression”→“Linear”项,将因变量Y放入“Dependent”框,自变量X放入“Independents”框。

在“Method”中选择默认的方法“Entre”,回归方程中保留全部自变量。

按“Statistics”按钮,除了两个默认项“Estimates”、“Modelfit”外,另外选择“Rsquaredchange”、“Descriptives”、“Casewisediagnostic”中的“AllCases”项,输出回归分析的一些常用结果与每一例的标准化残差、实测值、预测值及残差。

按“Save”按钮,选择两个“Unstandardized”项,保存未标准化的预测值与残差。

计算结果如下。

表7.1.2相关系数

ModelSummary

Model

R

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

1

0.836

0.699

0.683

5.4694

aPredictors:

(Constant),X

相关系数为0.836,说明物理成绩与数学成绩确实存在着较高的线性相关关系。

表中各项分别为:

复相关系数、判定系数、调整的判定系数、剩余标准差。

表7.1.3方差分析表

ANOVA

Model

SumofSquares

df

MeanSquare

F

Sig.

1Regression

Residual

Total

1252.095

1

1252.095

41.856

0.000

538.455

18

29.914

1790.550

19

aPredictors:

(Constant),X

bDependentVariable:

Y

P=0.000<0.01,相关系数或回归方程高度显著。

表7.1.4回归方程系数表

Coefficients

Model

UnstandardizedCoefficients

StandardizedCoefficients

t

Sig.

B

Std.Error

Beta

1(Constant)

X

8.184

10.576

0.774

0.449

0.855

0.132

0.836(标准化系数)

6.47

0.000

aDependentVariable:

Y

回归方程为:

y=8.184+0.855x

表7.1.5残差统计结果

ResidualsStatisticsa

Minimum

Maximum

Mean

Std.Deviation

N

PredictedValue

(预测值)

63.7886

88.5969

76.1500

8.11786

20

Residual(残差)

-14.31965

11.81312

0.00000

5.32351

20

Std.PredictedValue(标准预测值)

-1.523

1.533

0.000

1.000

20

Std.Residual

(标准残差)

-2.618

2.160

0.000

0.973

20

aDependentVariable:

y

利用回归方程可以帮助具体分析学生的学习情况,如:

第13名学生:

数学67,物理65,经回归方程预测为:

65(符合一般规律)。

第17名学生:

数学90,物理80,经回归方程预测物理成绩应为:

85(注意学习方法或其他学习环节)。

第18名学生:

数学83,物理91,经回归方程预测物理成绩应为:

79(提高数学成绩)。

2.多元线性回归分析

2.1线性模型

Y=b0+b1x1+b2x2+…+bpxp

其中,xi为自变量,Y为因变量,b0为常数项,bi为回归系数,也称为偏回归系数,它表示在其他所有自变量不变的情况下,自变量xi每变化一个单位,引起因变量y平均变化的数值。

2.2检验

①回归方程

用方差分析法进行检验,经推导可得出:

S总=Lyy=∑(yi-y)2=U+Q

其中U=ΣbjLjy,Q=Lyy-U

S总称为总离差平方和,反映了yi总的离散程度,即总差异的大小;U称为回归平方和,反映了由于自变量与因变量的线性关系而引起yi之间差异的大小;Q称为剩余平方和,反映了由于自变量与因变量线性关系以外的随机因素引起yi之间差异的大小。

检验用F统计量:

U/p

F=

Q/(n-p-1)

查F分布表得Fα,若F>Fα,回归方程显著。

其中n为人数,p为自变量个数。

②回归系数

经检验具有显著意义的回归方程,只是对p个自变量这一整体而言的,并不能说明每个自变量对因变量的影响都是显著的,那么,哪些自变量的影响显著、哪些自变量的影响不显著呢?

这就需要对回归系数进行检验,从方程中剔除那些影响不显著的自变量。

2.3复相关系数R

R表示因变量与所有自变量之间的线性相关的密切程度,其取值范围在0~1之间,愈接近1,表明线性关系愈密切,愈接近0,表明线性关系愈不密切。

复相关系数的计算公式为:

U

R=

 Lyy

R2称为判定系数,它是回归平方和在总平方和中所占的比率,体现了回归模型所能解释的因变量变异性的比率,如例7.1.1中的R2=0.699,说明因变量Y的变异中有69.9%是由自变量引起的。

SPSS软件中给出的“AdjustedRSquare”是消除了自变量个数影响的R2的修正值,其计算公式为:

n-1

AR2=1-(1-R2)×

n-p-1

其中n为人数,p为自变量个数。

2.4剩余标准差Sy

剩余标准差表示观测值偏离回归直线的平均误差,用来衡量预测的精确度,其值愈小愈精确。

在用回归方程进行预测时,不要只满足检验的结论是否显著,还应结合剩余标准差Sy的大小进行分析,虽回归方程显著,但若其值较大,仍不能用于预测。

剩余标准差的计算公式为:

Q

Sy=

 n-p-1

Sy只能用于同类问题的比较,不同的问题不便于比较。

有学者通过研究,引进了标准剩余标准差Sy′的概念:

Sy′=Sy/

×100%(

为因变量的平均数)

若Sy′在(0,1%)、(1%,2%)、(2%,3%)、(3%,4%)、(5%,∝)范围内,则结论分别为预测精度高、较高、一般、较低、低。

用建立的回归方程说明问题,最好标明Sy、Sy′,否则,既影响了研究课题本身的质量,又给使用回归方程的人带来一定的困惑。

2.5残差图

利用残差图可以判断模型的拟合效果,若各点呈随机分布,并大部分在±26的范围内(68%的在±6内,96%的点在±26内),说明模型的拟合效果好,若大部分在该范围外,说明模型的拟合效果不好。

2.6共线性

指自变量之间的相关关系太高,这种情况会给回归分析带来困扰。

实际问题中尽量挑选关系不密切的变量作为自变量。

3.逐步回归分析

多元回归方程中包含了所有的自变量,这似乎是较为理想的方程,然而事实上并不尽如此。

若回归方程中含有对因变量不显著的自变量,反而

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 外语学习 > 韩语学习

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1