完整word版《统计分析与SPSS的应用第五版》课后练习答案第9章.docx
《完整word版《统计分析与SPSS的应用第五版》课后练习答案第9章.docx》由会员分享,可在线阅读,更多相关《完整word版《统计分析与SPSS的应用第五版》课后练习答案第9章.docx(25页珍藏版)》请在冰豆网上搜索。
完整word版《统计分析与SPSS的应用第五版》课后练习答案第9章
《统计分析与SPSS的应用(第五版)》(薛薇)
课后练习答案
第9章SPSS的线性回归分析
1、利用第2章第9题的数据,任意选择两门课程成绩作为解释变量和被解释变量,利用SPSS提供的绘制散点图功能进行一元线性回归分析。
请绘制全部样本以及不同性别下两门课程成绩的散点图,并在图上绘制三条回归直线,其中,第一条针对全体样本,第二和第三条分别针对男生样本和女生样本,并对各回归直线的拟和效果进行评价。
选择fore和phy两门成绩体系散点图
步骤:
图形旧对话框散点图简单散点图定义将fore导入Y轴,将phy导入X轴,将sex导入设置标记确定。
接下来在SPSS输出查看器中,双击上图,打开图表编辑
在图表编辑器中,选择“元素”菜单选择总计拟合线选择线性应用再选择元素菜单点击子组拟合线选择线性应用。
分析:
如上图所示,通过散点图,被解释变量y(即:
fore)与解释变量phy有一定的线性关系。
但回归直线的拟合效果都不是很好。
2、请说明线性回归分析与相关分析的关系是怎样的?
相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。
相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。
只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。
如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。
与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。
线性回归分析是相关性回归分析的一种,研究的是一个变量的增加或减少会不会引起另一个变量的增加或减少。
3、请说明为什么需要对线性回归方程进行统计检验?
一般需要对哪些方面进行检验?
检验其可信程度并找出哪些变量的影响显著、哪些不显著。
主要包括回归方程的拟合优度检验、显著性检验、回归系数的显著性检验、残差分析等。
线性回归方程能够较好地反映被解释变量和解释变量之间的统计关系的前提是被解释变量和解释变量之间确实存在显著的线性关系。
回归方程的显著性检验正是要检验被解释变量和解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。
一般包括回归系数的检验,残差分析等。
4、请说明SPSS多元线性回归分析中提供了哪几种解释变量筛选策略?
向前、向后、逐步。
5、先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。
数据文件名为“粮食总产量.sav”。
方法:
采用“前进“回归策略。
步骤:
分析回归线性将粮食总产量导入因变量、其余变量导入自变量方法项选“前进”确定。
如下图:
(也可向后、或逐步)
已输入/除去变量a
模型
已输入变量
已除去变量
方法
1
施用化肥量(kg/公顷)
.
向前(准则:
F-to-enter的概率<=.050)
2
风灾面积比例(%)
.
向前(准则:
F-to-enter的概率<=.050)
3
年份
.
向前(准则:
F-to-enter的概率<=.050)
4
总播种面积(万公顷)
.
向前(准则:
F-to-enter的概率<=.050)
a.因变量:
粮食总产量(y万吨)
模型摘要
模型
R
R平方
调整后的R平方
标准估算的错误
1
.960a
.922
.919
2203.30154
2
.975b
.950
.947
1785.90195
3
.984c
.969
.966
1428.73617
4
.994d
.989
.987
885.05221
a.预测变量:
(常量),施用化肥量(kg/公顷)
b.预测变量:
(常量),施用化肥量(kg/公顷),风灾面积比例(%)
c.预测变量:
(常量),施用化肥量(kg/公顷),风灾面积比例(%),年份
d.预测变量:
(常量),施用化肥量(kg/公顷),风灾面积比例(%),年份,总播种面积(万公顷)
ANOVAa
模型
平方和
自由度
均方
F
显著性
1
回归
1887863315.616
1
1887863315.616
388.886
.000b
残差
160199743.070
33
4854537.669
总计
2048063058.686
34
2
回归
1946000793.422
2
973000396.711
305.069
.000c
残差
102062265.263
32
3189445.789
总计
2048063058.686
34
3
回归
1984783160.329
3
661594386.776
324.106
.000d
残差
63279898.356
31
2041287.044
总计
2048063058.686
34
4
回归
2024563536.011
4
506140884.003
646.150
.000e
残差
23499522.675
30
783317.423
总计
2048063058.686
34
a.因变量:
粮食总产量(y万吨)
b.预测变量:
(常量),施用化肥量(kg/公顷)
c.预测变量:
(常量),施用化肥量(kg/公顷),风灾面积比例(%)
d.预测变量:
(常量),施用化肥量(kg/公顷),风灾面积比例(%),年份
e.预测变量:
(常量),施用化肥量(kg/公顷),风灾面积比例(%),年份,总播种面积(万公顷)
系数a
模型
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
1
(常量)
17930.148
504.308
35.554
.000
施用化肥量(kg/公顷)
179.287
9.092
.960
19.720
.000
2
(常量)
20462.336
720.317
28.407
.000
施用化肥量(kg/公顷)
193.701
8.106
1.037
23.897
.000
风灾面积比例(%)
-327.222
76.643
-.185
-4.269
.000
3
(常量)
-460006.046
110231.478
-4.173
.000
施用化肥量(kg/公顷)
137.667
14.399
.737
9.561
.000
风灾面积比例(%)
-293.439
61.803
-.166
-4.748
.000
年份
244.920
56.190
.323
4.359
.000
4
(常量)
-512023.307
68673.579
-7.456
.000
施用化肥量(kg/公顷)
139.944
8.925
.749
15.680
.000
风灾面积比例(%)
-302.324
38.305
-.171
-7.893
.000
年份
253.115
34.827
.334
7.268
.000
总播种面积(万公顷)
2.451
.344
.141
7.126
.000
a.因变量:
粮食总产量(y万吨)
结论:
如上4个表所示,影响程度中大到小依次是:
施用化肥量(kg/公顷),风灾面积比例(%),年份,总播种面积(万公顷)。
(排除农业劳动者人数(百万人)和粮食播种面积(万公顷)对粮食总产量的影响)
剔除农业劳动者人数(百万人)和粮食播种面积(万公顷)后:
步骤:
分析回归线性将粮食总产量导入因变量、其余4个变量(施用化肥量(kg/公顷),风灾面积比例(%),年份,总播种面积(万公顷))导入自变量方法项选“输入”确定。
如下图:
系数a
模型
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
1
(常量)
-512023.307
68673.579
-7.456
.000
年份
253.115
34.827
.334
7.268
.000
总播种面积(万公顷)
2.451
.344
.141
7.126
.000
施用化肥量(kg/公顷)
139.944
8.925
.749
15.680
.000
风灾面积比例(%)
-302.324
38.305
-.171
-7.893
.000
a.因变量:
粮食总产量(y万吨)
粮食总产量回归方程:
Y=-7.893X1+15.68X2+7.126X3+7.268X4-7.456
6、一家产品销售公司在30个地区设有销售分公司。
为研究产品销售量(y)与该公司的销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到30个地区的有关数据。
进行多元线性回归分析所得的部分分析结果如下:
Model
SumofSquares
Df
MeanSquare
F
Sig.
Regression
4008924.7
8.88341E-13
Residual
Total
13458586.7
29
UnstandardizedCodfficients
t
Sig.
B
Std.Error
(Constant)
7589.1025
2445.0213
3.1039
0.00457
X1
-117.8861
31.8974
-3.6958
0.00103
X2
80.6107
14.7676
5.4586
0.00001
X3
0.5012
0.1259
3.9814
0.00049
1)将第一张表中的所缺数值补齐。
2)写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。
3)检验回归方程的线性关系是否显著?
4)检验各回归系数是否显著?
5)计算判定系数,并解释它的实际意义。
6)计算回归方程的估计标准误差,并解释它的实际意义。
(1)
模型
平方和
自由度
均方
F
显著性
1
回归
12026774.1
3
4008924.7
72.8
8.88341E-13b
残差
1431812.6
26
55069.7154
总计
13458586.7
29
(2)Y=7589.1-117.886X1+80.6X2+0.5X3
(3)回归方程显著性检验:
整体线性关系显著
(4)回归系数显著性检验:
各个回归系数检验均显著
(5)略
(6)略
7、对参加SAT考试的同学成绩进行随机调查,获得他们阅读考试和数学考试的成绩以及性别数据。
通常阅读能力和数学能力具有一定的线性相关性,请在排除性别差异的条件下,分析阅读成绩对数学成绩的线性影响是否显著。
方法:
采用进入回归策略。
步骤:
分析回归线性将MathSAT导入因变量、其余变量导入自变量确定。
结果如下:
已输入/除去变量a
模型
已输入变量
已除去变量
方法
1
Gender,VerbalSATb
.
输入
a.因变量:
MathSAT
b.已输入所有请求的变量。
模型摘要
模型
R
R平方
调整后的R平方
标准估算的错误
1
.710a
.505
.499
69.495
a.预测变量:
(常量),Gender,VerbalSAT
ANOVAa
模型
平方和
自由度
均方
F
显著性
1
回归
782588.468
2
391294.234
81.021
.000b
残差
767897.951
159
4829.547
总计
1550486.420
161
a.因变量:
MathSAT
b.预测变量:
(常量),Gender,VerbalSAT
系数a
模型
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
1
(常量)
184.582
34.068
5.418
.000
VerbalSAT
.686
.055
.696
12.446
.000
Gender
37.219
10.940
.190
3.402
.001
a.因变量:
MathSAT
因概率P值小于显著性水平(0.05),所以表明在控制了性别之后,阅读成绩对数学成绩有显著的线性影响。
8、试根据“粮食总产量.sav”数据,利用SPSS曲线估计方法选择恰当模型,对样本期外的粮食总产量进行外推预测,并对平均预测误差进行估计。
采用二次曲线
步骤:
图形旧对话框拆线图简单个案值定义将粮食总产量导入线的表征确定
结果如下:
再双击上图“元素”菜单添加标记应用
接下来:
分析回归曲线估计粮食总产量导入因变量、年份导入变量,点击年份在模型中选择二次项、立方、幂点击“保存”按钮选择保存”预测值”继续确定。
曲线拟合
附注
已创建输出
03-MAY-201809:
28:
44
注释
输入
数据
F:
\SPSS\薛薇《统计分析与spss的应用(第五版)》\PPT--jwd\第9章SPSS回归分析\习题\粮食总产量.sav
活动数据集
数据集1
过滤器
<无>
宽度(W)
<无>
拆分文件
<无>
工作数据文件中的行数
35
缺失值处理
对缺失的定义
用户定义的缺失值被视作缺失。
已使用的个案
任何变量中带有缺失值的个案不用于分析。
语法
CURVEFIT
/VARIABLES=lsclWITHnf
/CONSTANT
/MODEL=LINEARQUADRATICCUBICPOWER
/PRINTANOVA
/PLOTFIT
/SAVE=PRED.
资源
处理器时间
00:
00:
00.19
用时
00:
00:
00.25
使用
从
第一个观测值
到
最后一个观测值
预测
从
使用周期后的第一观察
到
最后一个观测值
变量已创建或已修改
FIT_1
CURVEFIT和MOD_1LINEAR中具有nf的lscl的拟合
FIT_2
CURVEFIT和MOD_1QUADRATIC中具有nf的lscl的拟合
FIT_3
CURVEFIT和MOD_1CUBIC中具有nf的lscl的拟合
FIT_4
CURVEFIT和MOD_1POWER中具有nf的lscl的拟合
时间序列设置(TSET)
输出量
PRINT=DEFAULT
保存新变量
NEWVAR=CURRENT
自相关或偏自相关图中的最大滞后数
MXAUTO=16
每个交叉相关图的最大延迟数
MXCROSS=7
每个过程生成的最大新变量数
MXNEWVAR=4
每个过程的最大新个案数
MXPREDICT=1000
用户缺失值处理
MISSING=EXCLUDE
置信区间百分比值
CIN=95
在回归方程中输入变量的容差
TOLER=.0001
最大迭代参数变化
CNVERGE=.001
计算标准的方法自相关的错误
ACFSE=IND
季节周期长度
未指定
值在绘图中标记观测值的变量
未指定
包括方程
CONSTANT
警告
由于模型项之间存在接近共线性,该二次模型无法拟合。
由于模型项之间存在接近共线性,该立方模型无法拟合。
模型描述
模型名称
MOD_1
因变量
1
粮食总产量(y万吨)
方程式
1
线性(L)
2
二次项(Q)
3
立方(U)
4
幂a
自变量
年份
常量
已包括
值在绘图中标记观测值的变量
未指定
对在方程式中输入项的容许
.0001
a.此模型需要所有非缺失值为正。
个案处理摘要
数字
个案总计
35
排除的个案a
0
预测的个案
0
新创建的个案
0
a.任何变量中带有缺失值的个案无需分析。
变量处理摘要
变量
从属
自变量
粮食总产量(y万吨)
年份
正值的数目
35
35
零的数目
0
0
负值的数目
0
0
缺失值的数目
用户缺失
0
0
系统缺失
0
0
粮食总产量(y万吨)
线性(L)
模型摘要
R
R平方
调整后的R平方
标准估算的错误
.935
.874
.870
2795.862
自变量为年份。
ANOVA
平方和
自由度
均方
F
显著性
回归(R)
1790107249.412
1
1790107249.412
229.006
.000
残差
257955809.274
33
7816842.705
总计
2048063058.686
34
自变量为年份。
系数
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
年份
708.118
46.793
.935
15.133
.000
(常量)
-1369647.904
92136.775
-14.865
.000
二次项(Q)
模型摘要
R
R平方
调整后的R平方
标准估算的错误
.936
.875
.872
2782.149
自变量为年份。
ANOVA
平方和
自由度
均方
F
显著性
回归(R)
1792631355.014
1
1792631355.014
231.596
.000
残差
255431703.672
33
7740354.657
总计
2048063058.686
34
自变量为年份。
系数
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
年份**2
.180
.012
.936
15.218
.000
(常量)
-673013.926
45845.338
-14.680
.000
已排除的项
输入贝塔
t
显著性
偏相关
最小容差
年份a
-125.061
-7.851
.000
-.811
.000
a.已达到输入变量的容许界限。
立方(U)
模型摘要
R
R平方
调整后的R平方
标准估算的错误
.936
.877
.873
2768.471
自变量为年份。
ANOVA
平方和
自由度
均方
F
显著性
回归(R)
1795136897.274
1
1795136897.274
234.217
.000
残差
252926161.411
33
7664429.134
总计
2048063058.686
34
自变量为年份。
系数
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
年份**3
6.097E-5
.000
.936
15.304
.000
(常量)
-440802.441
30416.171
-14.492
.000
已排除的项
输入贝塔
t
显著性
偏相关
最小容差
年份a
-62.046
-7.785
.000
-.809
.000
年份**2
-124.059
-7.779
.000
-.809
.000
a.已达到输入变量的容许界限。
幂
模型摘要
R
R平方
调整后的R平方
标准估算的错误
.938
.880
.877
.108
自变量为年份。
ANOVA
平方和
自由度
均方
F
显著性
回归(R)
2.825
1
2.825
242.844
.000
残差
.384
33
.012
总计
3.209
34
自变量为年份。
系数
非标准化系数
标准系数
t
显著性
B
标准错误
贝塔
ln(年份)
55.391
3.554
.938
15.583
.000
(常量)
7.936E-179
.000
.
.
因变量为ln(粮食总产量(y万吨))。
分析:
如上表所示,粮食总产量总体呈现上升趋势,在对回归进行检验时,sig值为0<0.05,故拒绝原假设,即认为回归方程中解释变量与被解释变量间显著。