利用回归分析方法讨论影响学习成绩的因素.docx

上传人:b****6 文档编号:6571024 上传时间:2023-01-08 格式:DOCX 页数:30 大小:365.29KB
下载 相关 举报
利用回归分析方法讨论影响学习成绩的因素.docx_第1页
第1页 / 共30页
利用回归分析方法讨论影响学习成绩的因素.docx_第2页
第2页 / 共30页
利用回归分析方法讨论影响学习成绩的因素.docx_第3页
第3页 / 共30页
利用回归分析方法讨论影响学习成绩的因素.docx_第4页
第4页 / 共30页
利用回归分析方法讨论影响学习成绩的因素.docx_第5页
第5页 / 共30页
点击查看更多>>
下载资源
资源描述

利用回归分析方法讨论影响学习成绩的因素.docx

《利用回归分析方法讨论影响学习成绩的因素.docx》由会员分享,可在线阅读,更多相关《利用回归分析方法讨论影响学习成绩的因素.docx(30页珍藏版)》请在冰豆网上搜索。

利用回归分析方法讨论影响学习成绩的因素.docx

利用回归分析方法讨论影响学习成绩的因素

北京信息科技大学

专业实习课程设计报告

学院:

理学院

班级:

统计0801

课设题目:

利用回归分析方法讨论影响学习成绩的因素

小组成员:

孙景宜

赵丹妮

王振澍

周海滨

张军

指导老师:

程希明

报告日期:

2012

年01月13日

所用软件:

SAS

0

0/19

摘要

大学生的学习成绩及其影响因素历来为教育界所关注,李瑾

(2005)探讨了意志,态度,兴趣等非智力因素对大学生学习成

绩的影响,黄元陀(2004)重点研究了学习动机和学习目标对大

学生学习的影响,王普霞(2007)研究了大学生的学习方式对其

血液的影响。

宋专茂等(2002)则分析了大学生的人格特征与其

学习成绩的关系。

我小组此次利用专业实习的机会,通过运用文

献资料法,抽样调查,回归分析等研究方法,利用SAS软件进行

回归分析,分析影响大学生学习成绩的因素,例如:

自习时间,娱乐时间,出勤率等。

关键词:

学习成绩,回归分析,SAS影响因素

摘要1

1•对象和方法3

1.1对象3

1.2调查方法和内容3

1.2.1调查方法3

122调查内容3

1.2.3数据处理3

1.2.4符号说明3

2.结果分析4

2.1影响学生学习成绩的单因素分析4

2.2.1制作散点图4

2.2.1.1自习时间对总评成绩的影响4

2.2.1.2娱乐时间对总评成绩的影响6

2.2.1.3睡眠时间对总评成绩的影响7

2.2.1.4出勤率对总评成绩的影响9

2.2.1.5高考成绩对总评成绩的影响10

2.3影响学生学习成绩的多因素逐步回归分析11

2.3.1分析11

2.3.2剔除自变量13

3.附录15

附录1:

15

附录2:

16

附录3:

17

1.对象和方法

1.1对象

以北京某大学某班学生为调查对象,共30名同学,共发放调查表30份,收回30

份,有效调查表30份。

1.2调查方法和内容

1.2.1调查方法

以班级为单位进行随堂问卷调查。

问卷采用同一指导语,全部呢内容均为学生本人

以记名方式填写。

(问卷见附录1)

122调查内容

采用自编调查表,调查表主要包括姓名,性别,年龄,平时的自习时间、娱乐时间、睡眠时间、出勤率、高考成绩以及期末总评成绩。

1.2.3数据处理

将全部数据输入计算机,用Excel建立数据库(数据详见附录2),数据导入SAS软件后(数据导入程序见附录3),进行单因素分析和多元逐步回归分析。

1.2.4符号说明

 

丫:

总评成绩

X2:

娱乐时间

X4:

出勤率

X!

:

自习时间

X3:

睡眠时间

X5:

高考成绩

“"京传您科枝人弟

「JVJJtV;IXfQkMltMAKHUl4U

2.结果分析

2.1影响学生学习成绩的单因素分析

221制作散点图

首先制作变量之间的散点图,以便判

断变量之间的相关性。

从各散点图中可以看出,总评成绩

(丫)与自习时间(xj,娱乐时间(x2),

出勤率(x4)有一定的线性关系;与睡

眠时间(x3)和咼考成绩(x5)基本无线性关系。

但从各散点的分布情况看,与自习时间(X!

)和出勤率(X4)的线性

关系比较密切,而与睡眠时间(x3)的关系最不密切。

2.2.1.1自习时间对总评成绩的影响

用SAS建立总评成绩对自习时间的回归方程。

(1)分析

显示的结果分为七张表如下所示:

第一张表提供关于拟合模型的一般

信息,丫=x1表示这个分析是以丫为响应

变量,xi为自变量的线性模型;

第二张表给出回归方程:

丫=57.1200-8.6127x1

第三张表是带有回归直线的散点图,给出了回归的图形表示。

是成正比例的。

ModelEquation

zongpingchengji

-57.1200*fi.G127zixisbijian

zongpingchengji

■zixifhijiBni

R«spon«eDistribution:

Nonw1

LinkFunction:

Identity

"京传短科紅木弟

U^JIV.11XE11TKHYHE,l、;MV:

n

F图是参数回归拟合表。

其中的判定系数R-SquareG)为模型平方和占总平方和的比

例,反映了回归方程能够解释的信息占总信息的比例:

这里R2=0.8376

A

ParaKtricRegressionFit

Error

Curve

Dvgree(Pcilynomial:

i

OF

i'-'eanSquare

DF:

MeanSquare

R-Square;FStatPT>F

iFTK芦

1

2SS3.3715

第四张表(如下图所示)提供了拟合的汇总度量:

MeanofResponse(影响变量的

均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)的无偏估计。

这里R2=0.8376,修正后的R2=0.8318

jd

SummaryofFit

MeanofResponse

79-80^0«-Square9.3376

RootM5E

4-4453iAdjR-Sq0-8318

第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的

P值<0.05,所以拟合方程是显著的。

±J

AnalysisofVariance

Source1

DF

=SumofSquares

MeanSquare[

FStat

Pr>F

Model

1

2353,3715

2853.3715

144,36

Error

23

553.42S5

19.7653:

CTotal

29

3406*8000

对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:

jj

TypeIIITests

Sour匚皂

DF;SumofSquares:

MeanSquar皂:

FStat

|Pr>F

zlxlshijian

1;2853-37152853.3715|

144.36

<.0001

第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。

这个例子里,截距和斜率的t检验p值均小于0.0001,表明常量和自变量自习时间对总评成绩有显著的线性关系,如下图所示。

Raran^eterEstimates

Variable

Df

Estimate

stdErr&r

t

>\t\

TolcroftCC

VorIrifl-citiori

Intercept

1

57-1200

27,W?

0

zixishijian

1

8.6127

0.7168

12.^2

<.0001

1.0000

1.0000

ft

*■■

£

■i

fl

•■■

VI

■■

E

■.■

.■•

P

-

1

p

n

g

J皆

■■!

7#醃命

±J

P^zflrtgplngchert^jii^ie

(2)回归诊断

在SAS显示窗的底部有一个残差R_Y和预测值P_Y

的散点图,这个图可以帮助验证模型的假定。

从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。

如右图所示。

为了检验误差为正态分布的假设,回到数据窗口。

可以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验证残差的正态性。

”京传短科拉木字

BEJlJIV.IMOtMdNKV11M11IXMtUTV

在分析结果的TestforDistribution(分布检验)表中看到,p值大于0.15,不能拒

绝原假设,表明可以接受误差正态性的假定。

如下图所示。

以此我们可以得出结论:

自习时间是影响总评成绩的因素。

自习时间越长,总评成

绩越高。

2.2.1.2娱乐时间对总评成绩的影响

下图是参数回归拟合表。

其中的判定系数R-Squareg2)为模型平方和占总平方和的

比例,反映了回归方程能够解释的信息占总信息的比例:

这里R2=0.7802

Paramietric*?

egres5ionFit

Hodel

Error

Curve

Degree(Polyncnial}

j

OFMeanSquare

DF:

MeanSquare

R-Squarei

F5t3tiPr>F

i7

1

2826,7424

e,7SB2i

&9.39|

第四张表(如下图所示)提供了拟合的汇总度量:

MeanofResponse(影响变量的

均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)匚的无偏估计。

这里R2=0.7802,修正后的R2=0.7724

±1

Sumir-aryof

Fit

MeanofResponse

RootM5E

5,17X3

R-SquareAdjR-Sq

0.7S62

0.7724

第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的

P值<0.05,所以拟合方程是显著的。

对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:

±1

TypeIIITests

Source

DF

SunofSquiiarES

MeanSquare

fstat

Pr>F

yuleshijian

1

2658.®135

2658.0135

99,39

<.&&&!

第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。

这个例子里,截距和斜率的t检验p值均小于0.0001,表明常量和自变量娱乐时间对总评成绩有显著的线性关系,如下图所示。

JU

ParameterEstimates

Variable

PF

Estimate

StdError

tStBt

>|t|

Tolerance

ver

Inflation

Ifiter^ept

1

W+7S51

2.2131:

45•伽

yuleshijian

1

Q,豳05

-9.97

<-0001

la@90i^

(2)回归诊断

在SAS显示窗的底部有一个残差R_Y和预测值的散点图,这个图可以帮助验证模型的假定。

从图中看出,数据点随机地散布在零线附近,表明模型中误差等

P_Y

]E

Z

n

I

■!

■■

■«

方差、独立性的假设没有问题。

如右图所示。

g

■■■«

■i

■■■

■i■)

为了检验误差为正态分布的假设,回到数据窗口。

P

i

t■

ft

■■■

可以看到残差R_Y和预测值P_Y已加到数据集之中,

n**

以用Distribution(Y)来验证残差的正态性。

ft

聲79晶

►I

P_ZQngpingchc-ngji_17

在分析结果的TestforDistribution(分布检验)表中看到,p值大于0.15,不能拒

绝原假设,表明可以接受误差正态性的假定。

如下图所示。

±1

Testsfor

Distribution

Curve

Distributian

Mean/Theta

Signia

KolmogorovDPr>D

Horima1

4,2159E-14

50314

0.1&4®>+15

所以我们可以得出结论:

娱乐时间是影响总评成绩的因素。

即娱乐时间越短,总评

成绩越咼。

(1)分析

显示的结果分为七张表如下所示:

第一张表提供关于拟合模型的一般信息,

Y=x3表示这个分析是以丫为响应变量,x3为

自变量的线性模型;

第二张表给出回归方程:

Y=81.3167_0.2040x3

第三张表是带有回归直线的散点图,给出了回归的图形表示。

是没有线性关系的。

F图是参数回归拟合表。

其中的判定系数R-Squareg2)为模型平方和占总平方和的

比例,反映了回归方程能够解释的信息占总信息的比例:

这里

2

R=0.0004

 

ParametricRegressionFit

fcdel

Errfl-r3

Curve

Degree(Polynomia1}

OF

MeanSquare

DF

MeanSquare

R-Square

FSt软

Pr>F

iRFTT^

1

1.305B

2S

121.&243

0.eee4

@.ei

e.SIBZ

第四张表(如下图所示)提供了拟合的汇总度量:

MeanofResponse(影响变量的

均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)二的无偏估计。

这里R2=0.0004,修正后的R2=0

SummarybfFit

MeanofResponseRootM5E

79.3000[R-5quare

11.0234:

AdjR-5q

第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的

P值>0.05,所以拟合方程是不显著的。

±1

AnalysisofVariance

Source

OF

SumofSquares

MeanSquare

FStat

Pr》F

Medel

1

1h3B58

1.3058

0.01

6.9182

Error

28

34G5.4942

121.6248

CTotal

29

3406.8006

对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:

±1

TypeIII

T«ts

SourceIDF

SumofSquares

weanSquare

FStftt

Pr>F

shuimi

Ik3058

IE咅58

0忌

ei9192

第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。

这个例子里,斜率的t检验p值>0.05,表明自变量睡眠时间对因变量总评成绩没有显著的线性关系,如下图所示。

HParametErEstimates

VariarbleOFiEstinate;StdError:

tStatPr>|tj:

Tolerance[WfInfl-ation1

Interceptf1[B1.31S7i14.77515/5@:

5000】・[0

百huimimn呂hiji丑nj]L[■林&1・¥£孕1j9・暂j

所以我们可以得出结论:

睡眠时间不是影响总评成绩的因素。

比例,反映了回归方程能够解释的信息占总信息的比例:

这里

2

R=0.8197

 

►|ParM^tricbnFit

H&deL

Error

Curve

Degrte(Pfllynemia1)

DF\MednSquare

DF

MeanSquare

1FStatiPr>F

:

1:

2792-71&7

29

21屈1目

&.S197jX27.34;

2.2.1.4出勤率对总评成绩的影响

第四张表(如下图所示)提供了拟合的汇总度量:

MeanofResponse(影响变量的

均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)的无偏估计。

这里R2=0.8197,修正后的R2=0.8133

Surmnar/ofFit

IMeanofResponse79.SGfi©R-Square®.3197

|RootMSE4.6831[Adj0.甘:

第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的

P值<0.05,所以拟合方程是显著的。

AnalysisafVariance

DF

cfSquares

MeeriSquare

FStBtPr>F

1

2792.7107

2792-710-7

127.Wj

2S

6L4.0S93

21-9318

西

34^6u3000

1

SflurceMedelErrerCTotal

对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:

AnalysisofVariance

Source

OF

Sum©fSquares

MeanSquare

FStat-Pr>F

1

2792=7107

2792*7187

127.34:

Error

28

614,0893

21.9318

CTotal:

29

34^6.BB00

算事W"l*K)Zl>0\畝UMILTIOtMXIlGlt

第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。

这个例子里,截距和斜率的t检验p值均小于0.0001,表明常量和自变量出勤率对总评成绩有显著的线性关系,如下图所示。

Jtl

Variable

ParameterEstifflates

DF

Estijmat皀

r厂

StdErrorit

Stat

Pr>|t|ToleranceVarInflation

Intercept;

1

S.144S|

14/52

dimqinlve\

1

0.4242

0.0176]

llr2S

<■@0011.0000!

1.0000

(2)回归诊断

在SAS显示窗的底部有一个残差R_Y和预测值P_Y的

散点图,这个图可以帮助验证模型的假定。

从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。

如右图所示。

为了检验误差为正态分布的假设,回到数据窗口。

以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验证残差的正态性。

在分析结果的TestforDistribution(分布检验)表中看到,绝原假设,表明可以接受误差正态性的假定。

如下图所示。

p值大于0.15,不能拒

11

TestsforDistribution

Curve

|Distribution

\Mean/Theta

SigmajKolBOgorov0jPr>D

jNornal

11+89^SE*14'

46017j0,1152]>+15

所以我们可以得出结论:

出勤率是影响总评成绩的因素。

即出勤率越大,总评成绩

越咼。

2.2.1.5高考成绩对总评成绩的影响

(1)分析

显示的结果分为七张表如下所示:

第一张表提供关于拟合模型的一般信息,Y=X5表示

这个分析是以丫为响应变量,x5为自变量的线性模型;

jj

HodielEquation

-1畀」建-l#如旅*叫Ji]

*1:

■gaakacchfingjl

LlnAcFunction:

Idierrtity

第二张表给出回归方程:

Y=134.138-0.1116x5

第三张表是带有回归直线的散点图,给出了回归的图

形表示。

F图是参数回归拟合表。

其中的判定系数R-Squareg2)为模型平方和占总平方和的

比例,反映了回归方程能够解释的信息占总信息的比例:

这里R2=0.0341

 

”京传短科紅此争

KMXI*n

Jtl

ParstnetricRegressionFit

Model

Error

Curve

Degree(Polynomi-al)

OFiManSquare

DrINeariiSquareIR-Square]FStAtPr>F

1z」严

|\116.3333

2S;117.5167|4.0341;6.99丨O.3285

第四张表(如下图所示)提供了拟合的汇总度量:

MeanofResponse(影响变量的

均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差);「的无偏估计。

22

这里R=0.0341,修正后的R=0

;R-Square0□0341

|AdjR-Sq&

第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的

P值>0.05,所以拟合方程是显著的。

±1

Analysis

ofVariance

Source

OF

SumofSquares

iMeanSquare

FStat

Pr>F

Hadel

1

116.3333

飢M1

0.3283

Error

28

3290.4667

117.S167

!

CTotal

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 幼儿教育

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1