2.结果分析
2.1影响学生学习成绩的单因素分析
221制作散点图
首先制作变量之间的散点图,以便判
断变量之间的相关性。
从各散点图中可以看出,总评成绩
(丫)与自习时间(xj,娱乐时间(x2),
出勤率(x4)有一定的线性关系;与睡
眠时间(x3)和咼考成绩(x5)基本无线性关系。
但从各散点的分布情况看,与自习时间(X!
)和出勤率(X4)的线性
关系比较密切,而与睡眠时间(x3)的关系最不密切。
2.2.1.1自习时间对总评成绩的影响
用SAS建立总评成绩对自习时间的回归方程。
(1)分析
显示的结果分为七张表如下所示:
第一张表提供关于拟合模型的一般
信息,丫=x1表示这个分析是以丫为响应
变量,xi为自变量的线性模型;
第二张表给出回归方程:
丫=57.1200-8.6127x1
第三张表是带有回归直线的散点图,给出了回归的图形表示。
是成正比例的。
ModelEquation
zongpingchengji
-57.1200*fi.G127zixisbijian
zongpingchengji
■zixifhijiBni
R«spon«eDistribution:
Nonw1
LinkFunction:
Identity
"京传短科紅木弟
U^JIV.11XE11TKHYHE,l、;MV:
n
F图是参数回归拟合表。
其中的判定系数R-SquareG)为模型平方和占总平方和的比
例,反映了回归方程能够解释的信息占总信息的比例:
这里R2=0.8376
A
ParaKtricRegressionFit
Error
Curve
Dvgree(Pcilynomial:
i
OF
i'-'eanSquare
DF:
MeanSquare
R-Square;FStatPT>F
iFTK芦
1
2SS3.3715
第四张表(如下图所示)提供了拟合的汇总度量:
MeanofResponse(影响变量的
均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)的无偏估计。
这里R2=0.8376,修正后的R2=0.8318
jd
SummaryofFit
MeanofResponse
79-80^0«-Square9.3376
RootM5E
4-4453iAdjR-Sq0-8318
第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的
P值<0.05,所以拟合方程是显著的。
±J
AnalysisofVariance
Source1
DF
=SumofSquares
MeanSquare[
FStat
Pr>F
Model
1
2353,3715
2853.3715
144,36
Error
23
553.42S5
19.7653:
CTotal
29
3406*8000
对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:
jj
TypeIIITests
Sour匚皂
DF;SumofSquares:
MeanSquar皂:
FStat
|Pr>F
zlxlshijian
1;2853-37152853.3715|
144.36
<.0001
第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。
在
这个例子里,截距和斜率的t检验p值均小于0.0001,表明常量和自变量自习时间对总评成绩有显著的线性关系,如下图所示。
Raran^eterEstimates
Variable
Df
Estimate
stdErr&r
t
>\t\
TolcroftCC
VorIrifl-citiori
Intercept
—
1
57-1200
27,W?
■
0
zixishijian
1
8.6127
0.7168
12.^2
<.0001
1.0000
1.0000
ft
*■■
£
■
■i
fl
•■■
VI
■■
E
■.■
■
.■•
P
■
-
1
■
p
n
g
J皆
■■!
7#醃命
±J
P^zflrtgplngchert^jii^ie
(2)回归诊断
在SAS显示窗的底部有一个残差R_Y和预测值P_Y
的散点图,这个图可以帮助验证模型的假定。
从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。
如右图所示。
为了检验误差为正态分布的假设,回到数据窗口。
可以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验证残差的正态性。
”京传短科拉木字
BEJlJIV.IMOtMdNKV11M11IXMtUTV
在分析结果的TestforDistribution(分布检验)表中看到,p值大于0.15,不能拒
绝原假设,表明可以接受误差正态性的假定。
如下图所示。
以此我们可以得出结论:
自习时间是影响总评成绩的因素。
自习时间越长,总评成
绩越高。
2.2.1.2娱乐时间对总评成绩的影响
下图是参数回归拟合表。
其中的判定系数R-Squareg2)为模型平方和占总平方和的
比例,反映了回归方程能够解释的信息占总信息的比例:
这里R2=0.7802
翱
Paramietric*?
egres5ionFit
Hodel
Error
Curve
Degree(Polyncnial}
j
OFMeanSquare
DF:
MeanSquare
R-Squarei
F5t3tiPr>F
i7
1
2826,7424
e,7SB2i
&9.39|
第四张表(如下图所示)提供了拟合的汇总度量:
MeanofResponse(影响变量的
均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)匚的无偏估计。
这里R2=0.7802,修正后的R2=0.7724
±1
Sumir-aryof
Fit
MeanofResponse
RootM5E
5,17X3
R-SquareAdjR-Sq
0.7S62
0.7724
第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的
P值<0.05,所以拟合方程是显著的。
对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:
±1
TypeIIITests
Source
DF
SunofSquiiarES
MeanSquare
fstat
Pr>F
yuleshijian
1
2658.®135
2658.0135
99,39
<.&&&!
第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。
在
这个例子里,截距和斜率的t检验p值均小于0.0001,表明常量和自变量娱乐时间对总评成绩有显著的线性关系,如下图所示。
JU
ParameterEstimates
Variable
PF
Estimate
StdError
tStBt
>|t|
Tolerance
ver
Inflation
Ifiter^ept
1
W+7S51
2.2131:
45•伽
yuleshijian
1
Q,豳05
-9.97
<-0001
la@90i^
(2)回归诊断
在SAS显示窗的底部有一个残差R_Y和预测值的散点图,这个图可以帮助验证模型的假定。
从图中看出,数据点随机地散布在零线附近,表明模型中误差等
P_Y
]E
Z
■
n
I
■!
■■
■«
方差、独立性的假设没有问题。
如右图所示。
g
■■■«
■i
■■■
■i■)
为了检验误差为正态分布的假设,回到数据窗口。
P
i
t■
ft
■■■
可以看到残差R_Y和预测值P_Y已加到数据集之中,
可
n**
■
以用Distribution(Y)来验证残差的正态性。
ft
聲79晶
►I
P_ZQngpingchc-ngji_17
在分析结果的TestforDistribution(分布检验)表中看到,p值大于0.15,不能拒
绝原假设,表明可以接受误差正态性的假定。
如下图所示。
±1
Testsfor
Distribution
Curve
Distributian
Mean/Theta
Signia
KolmogorovDPr>D
Horima1
4,2159E-14
50314
0.1&4®>+15
所以我们可以得出结论:
娱乐时间是影响总评成绩的因素。
即娱乐时间越短,总评
成绩越咼。
(1)分析
显示的结果分为七张表如下所示:
第一张表提供关于拟合模型的一般信息,
Y=x3表示这个分析是以丫为响应变量,x3为
自变量的线性模型;
第二张表给出回归方程:
Y=81.3167_0.2040x3
第三张表是带有回归直线的散点图,给出了回归的图形表示。
是没有线性关系的。
F图是参数回归拟合表。
其中的判定系数R-Squareg2)为模型平方和占总平方和的
比例,反映了回归方程能够解释的信息占总信息的比例:
这里
2
R=0.0004
ParametricRegressionFit
fcdel
Errfl-r3
Curve
Degree(Polynomia1}
OF
MeanSquare
DF
MeanSquare
R-Square
FSt软
Pr>F
iRFTT^
1
1.305B
2S
121.&243
0.eee4
@.ei
e.SIBZ
第四张表(如下图所示)提供了拟合的汇总度量:
MeanofResponse(影响变量的
均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)二的无偏估计。
这里R2=0.0004,修正后的R2=0
SummarybfFit
MeanofResponseRootM5E
79.3000[R-5quare
11.0234:
AdjR-5q
第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的
P值>0.05,所以拟合方程是不显著的。
±1
AnalysisofVariance
Source
OF
SumofSquares
MeanSquare
FStat
Pr》F
Medel
1
1h3B58
1.3058
0.01
6.9182
Error
28
34G5.4942
121.6248
CTotal
29
3406.8006
对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:
±1
TypeIII
T«ts
SourceIDF
SumofSquares
weanSquare
FStftt
Pr>F
shuimiIk3058
IE咅58
0忌
ei9192
第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。
在
这个例子里,斜率的t检验p值>0.05,表明自变量睡眠时间对因变量总评成绩没有显著的线性关系,如下图所示。
HParametErEstimates
VariarbleOFiEstinate;StdError:
tStatPr>|tj:
Tolerance[WfInfl-ation1
Interceptf1[B1.31S7i14.77515/5@:
5000】・[0
百huimimn呂hiji丑nj]L[■林&1・¥£孕1j9・暂j
所以我们可以得出结论:
睡眠时间不是影响总评成绩的因素。
比例,反映了回归方程能够解释的信息占总信息的比例:
这里
2
R=0.8197
►|ParM^tricbnFit
H&deL
Error
Curve
Degrte(Pfllynemia1)
DF\MednSquare
DF
MeanSquare
1FStatiPr>F
:
1:
2792-71&7
29
21屈1目
&.S197jX27.34;
2.2.1.4出勤率对总评成绩的影响
第四张表(如下图所示)提供了拟合的汇总度量:
MeanofResponse(影响变量的
均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差)的无偏估计。
这里R2=0.8197,修正后的R2=0.8133
Surmnar/ofFit
IMeanofResponse79.SGfi©R-Square®.3197
|RootMSE4.6831[Adj0.甘:
第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的
P值<0.05,所以拟合方程是显著的。
AnalysisafVariance
DF
cfSquares
MeeriSquare
FStBtPr>F
1
2792.7107
2792-710-7
127.Wj
2S
6L4.0S93
21-9318
西
34^6u3000
1
SflurceMedelErrerCTotal
对一元线性回归,第六张III型检验表提供与方差分析表一样的检验,如图:
AnalysisofVariance
Source
OF
Sum©fSquares
MeanSquare
FStat-Pr>F
1
2792=7107
2792*7187
127.34:
Error
28
614,0893
21.9318
CTotal:
29
34^6.BB00
算事W"l*K)Zl>0\畝UMILTIOtMXIlGlt
第七张参数估计表给出了回归直线截距和斜率的估计值机器显著性检验等内容。
在
这个例子里,截距和斜率的t检验p值均小于0.0001,表明常量和自变量出勤率对总评成绩有显著的线性关系,如下图所示。
Jtl
Variable
ParameterEstifflates
DF
Estijmat皀
r厂
StdErrorit
Stat
Pr>|t|ToleranceVarInflation
Intercept;
1
S.144S|
14/52
dimqinlve\
1
0.4242
0.0176]
llr2S
<■@0011.0000!
1.0000
(2)回归诊断
在SAS显示窗的底部有一个残差R_Y和预测值P_Y的
散点图,这个图可以帮助验证模型的假定。
从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。
如右图所示。
为了检验误差为正态分布的假设,回到数据窗口。
可
以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验证残差的正态性。
在分析结果的TestforDistribution(分布检验)表中看到,绝原假设,表明可以接受误差正态性的假定。
如下图所示。
p值大于0.15,不能拒
11
TestsforDistribution
Curve
|Distribution
\Mean/Theta
SigmajKolBOgorov0jPr>D
jNornal
11+89^SE*14'
46017j0,1152]>+15
所以我们可以得出结论:
出勤率是影响总评成绩的因素。
即出勤率越大,总评成绩
越咼。
2.2.1.5高考成绩对总评成绩的影响
(1)分析
显示的结果分为七张表如下所示:
第一张表提供关于拟合模型的一般信息,Y=X5表示
这个分析是以丫为响应变量,x5为自变量的线性模型;
jj
HodielEquation
-1畀」建-l#如旅*叫Ji]
*1:
■gaakacchfingjl
LlnAcFunction:
Idierrtity
第二张表给出回归方程:
Y=134.138-0.1116x5
第三张表是带有回归直线的散点图,给出了回归的图
形表示。
F图是参数回归拟合表。
其中的判定系数R-Squareg2)为模型平方和占总平方和的
比例,反映了回归方程能够解释的信息占总信息的比例:
这里R2=0.0341
”京传短科紅此争
KMXI*nJtl
ParstnetricRegressionFit
Model
Error
Curve
Degree(Polynomi-al)
OFiManSquare
DrINeariiSquareIR-Square]FStAtPr>F
1z」严
|\116.3333
2S;117.5167|4.0341;6.99丨O.3285
第四张表(如下图所示)提供了拟合的汇总度量:
MeanofResponse(影响变量的
均值)是变量Y的平均值,RootMSE(均方残差方程根)是对各观测点在直线周围分散成都的一个度量值,为随机误差;的标准差(也是实测值Y的标准差);「的无偏估计。
22
这里R=0.0341,修正后的R=0
;R-Square0□0341
|AdjR-Sq&
第五张方差分析表(如下图所示)包含对回归方程的显著检验,这里对拟合方程的
P值>0.05,所以拟合方程是显著的。
±1
Analysis
ofVariance
Source
OF
SumofSquares
iMeanSquare
FStat
Pr>F
Hadel
1
116.3333
飢M1
0.3283
Error
28
3290.4667
117.S167
!
CTotal