数据分析spss作业.docx
《数据分析spss作业.docx》由会员分享,可在线阅读,更多相关《数据分析spss作业.docx(24页珍藏版)》请在冰豆网上搜索。
![数据分析spss作业.docx](https://file1.bdocx.com/fileroot1/2023-1/26/16261582-e2b7-4940-9026-c79d5983bf71/16261582-e2b7-4940-9026-c79d5983bf711.gif)
数据分析spss作业
数据分析方法及软件应用
(作业)
题目:
4、8、13、16题
指导教师:
学院:
交通运输学院
姓名:
学号:
4、在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。
在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列。
试在a=0.05显著性水平下分析
(1)给出SPSS数据集的格式(列举前3个样本即可);
(2)分析浓度对收率有无显著影响;
(3)分析浓度、温度以及它们间的交互作用对收率有无显著影响。
解答:
(1)分别定义分组变量浓度、温度、收率,在变量视图与数据视图中输入表格数据,具体如下图。
ilk^
1
1
1
13
2
1
1
10
3
1
2
12
4
1
2
11
5
1
3
13
&
1
3
9
7
1
4
10
8
1
4
12
9
2
1
9
10
2
1
7
2
2
10
12
2
2
9
13
2
3
8
14
2
3
11
峯称
类型
宽度
小数
值
列
1
法度
数值
8
0
无
无
8I
2
温度
数值
S
0
无
无
8
3
收率
数值
8
0
无
无
8
(2)思路:
本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响,因而应用单因素方差分析。
假设:
浓度对收率无显著影响。
步骤:
【分析-比较均值-单因素】,将收率选入到因变量列表中,将浓度选入到因子框中,确定。
输出:
變異數分析
收率
平方和
df
平均值平方
F
顯著性
群組之間
39.083
2
19.542
5.074
.016
在群組內
80.875
21
3.851
總計
119.958
23
显著性水平a为0.05,由于概率p值小于显著性水平a,则应拒绝原假设,认为浓度对收率有显著影响。
(3)思路:
本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响,然后分析两个这控制变量的交互作用能否对收率产生显著影响,因而应该采用多因素方差分析。
假设,Hoi:
浓度对收率无显著影响;H02:
温度对收率无显著影响;H03:
浓度与温度的交互作用对收率无显著影响。
步骤:
【分析-一般线性模型-单变量】,把收率制定到因变量中,把浓度与温度制定到固定因子框中,确定。
输出:
主旨間效果檢定
因變數:
收率
來源
第III類平方
和
df
平均值平方
F
顯著性
修正的模型
70.458a
11
6.405
1.553
.230
截距
2667.042
1
2667.042
646.556
.000
浓度
39.083
2
19.542
4.737
.030
温度
13.792
3
4.597
1.114
.382
浓度*温度
17.583
6
2.931
.710
.648
錯誤
49.500
12
4.125
總計
2787.000
24
校正後總數
119.958
23
a.R平方=.587(調整的R平方=.209)
第一列是对观测变量总变差分解的说明;第二列是观测变量变差分解的结果;第三列是自由度;第四列是均方;第五列是F检验统计量的观测值;第六列是检验统计量的概率p值。
可以看到观测变量收率的总变差为119.958,由浓度
不同引起的变差是39.083,由温度不同引起的变差为13.792,由浓度和温度的交互作用引起的变差为17.583,由随机因素引起的变差为49.500。
浓度,温度和浓度*温度的概率p值分别为0.030,0.382和0.648。
浓度:
显著性<0.05说明拒绝原假设(浓度对收率无显著影响),证明浓度对收率有显著影响;温度:
显著性〉0.05说明不拒绝原假设(温度对收率无显著影响),证明温度对收率无显著影响;浓度与温度:
显著性〉0.05说明不拒绝原假设(浓度与温度的交互作用对收率无显著影响),证明温浓度与温度的交互作用对收率无显著影响。
8、以高校科研研究数据为例:
以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6获奖数X8;建立多元线性回归模型,分析它们之间的关系。
解释变量采用逐步筛选策略,并做多重共线性、方差齐性和残差的自相关性检验。
解答:
思路:
根据要求采用逐步筛选的解释变量筛选策略,利用回归分析方法建立多元线性回归模型,分析它们之间的关系,并且要求做多重共线性、方差齐性和残差的自相关性检验。
(1)步骤:
【分析-回归-线性】,X5选入因变量,X2、X4X6、X8选入自变量,方法选择【逐步】。
【统计量】勾选【估计】、【模型拟合度】、【共线性诊断】与【Durbin-Waston(U)】。
【绘制(T)按钮】,将*ZRESlD添加到Y(Y)框中,将*ZPRED添加到X2(X)框中,勾选【正态概率图】,【保存(S)】按钮。
在预测值与残差中勾选【标准化】选项。
选择菜单【分析一相关一双变量】将标准化预测值和标准化残差选入【变量】框,在相关系数中选择Spearman各项完成后点击【确定】。
输出:
變數已輸入/已移除
模型
變數已輸入
變數已移除
方法
1
投入人年数
逐步(準則:
F-to-enter的機率<=.050,F-to-remove的機率>=.100】。
a.應變數:
课题总数
模型摘要
模型
R
R平方
調整後R平方
標準偏斜度錯誤
Durbin-Watson
1
.959a
.919
.917
241.9582
1.747
a.預測值:
(常數),投入人年数
b.應變數:
课题总数
表中变量为投入人年数,参考调整的判定系数,由于调整的判定系数(0.917)较接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。
方程DV检验值为1.747,残差存在一定的正自相关。
變異數分析
模型
平方和
df
平均值平方
F
顯著性
1
迴歸
19379040.047
1
19379040.047
331.018
.000b
殘差
1697769.953
29
58543.791
總計1
21076810.000I
301III
a.應變數:
课题总数
b.預測值:
(常數),
投入人年数
被解释变量的总离差平方和为21076810.00,回归平方和及均方分别为
19379040.047和19379040.047,剩余平方和及均方分别为1697769.953和58543.791,检验统计量的观测值为331.018,对应的概率值近似为0。
依据该表可进行回归方程的显著性检验。
如果显著性水平为0.05,由于概率值小于
显著性水平,应拒绝回归方程显著性检验的零假设,认为回归系数不为0,被解释变量与解释变量的线性关系是显著的,可建立线性模型。
係數
模型
非標準化係數
標準化係數
T
顯著性
共線性統計資料
B
標準錯誤
Beta
允差
VIF
1(常數)
-94.524
72.442
-1.305
.202
投入人年数
.492
.027
.959
18.194
.000
1.000
1.000
a.應變數\:
课题总数
依据该表可以进行回归系数显著性检验,写出回归方程和检测多重共线性。
可以看到,如果显著性水平为0.05,投入人年数变量的回归系数显著性t检验的概率p值小于显著性水平,因此拒绝零假设,认为其偏回归系数与0有显著差异,与被解释变量与解释变量的线性关系是显著的,应保留在方程中。
同时从容忍度和方差膨胀因子看,解释变量与投入人年数多重共线性很弱,可以建立模型。
最终回归方程为,课题总数=-94.524+0.492投入人年数。
排除的變數
模型
Beta入
T
顯著性
偏相關
共線性統計資料
允差
VIF
允差下
限
1投入科研事业费(百元)
.152b
1.528
.138
.278
.267
3.748
.267
专著数
.023b
.182
.857
.034
.188
5.308
.188
获奖数
.030b
.411
.684
.077
.542
1.846
.542
a.應變數:
课题总数
b.模型中的預測值:
(常數),投入人年数
该表展示回归方程的剔除变量,可以看到,如果显著性水平为0.05,表中
三个变量的回归系数显著性t检验的概率p值大于显著性水平,因此不拒绝零假设,认为其偏回归系数与0无显著差异,与被解释变量与解释变量的线性关系是不显著的,不应保留在方程中。
同时从容忍度和方差膨胀因子看,解释变量与三个解释变量多重共线性严重,在建立模型的时候应当被剔除。
共線性診斷
|模型維度
特徵值
條件指數
變異數比例
(常數)
投入人年数
1
1
1.800
1.000
.10
.10
2
.200
3.001
.90
.90
a.應變數:
课题总数
依据该表可进行多重共线性检测,从方差比例上看第二个变量可解释常量的90%,也可解释投入人年数的90%,一次认为这些变量存在多重共线性。
条件指数都小于10,说明存在共线性较弱,低个变量特征值小于0.7,说明线性相关关系较弱。
殘差統計資料
最小值
最大值
平均數
標準偏差
N
預測值
-57.642
3246.986
960.000
803.7213
31
殘差
-466.2850
509.6787
.0000
237.8914
31
標準預測值
-1.266
2.845
.000
1.000
31
標準殘差
-1.927
2.106
.000
.983
31
a.應變數:
课题总数
嵐歸糅那化城於怕我烏F-F四
数据点围绕基准线还存在一定的规律性,但标准化残差的非参数检验结果表
明标准化残差与标准正态分布不存在显著差异,可以认为残差满足了线性模型的前提要求。
随着标准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。
但计算残差与预测值的Spearman等级
相关系数为-0.176,且检验并不显著,因此认为异方差现象并不明显。
相關
Standardized
Predicted
Value
Standardized
Residual
Spearman的rho
StandardizedPredicted
相關係數
1.000
-.176
Value
顯著性(雙尾)
.344
N
31
31
StandardizedResidual
相關係數
-.176
1.000
顯著性(雙尾)
.344
N
31
31
依据该表可以对标准化残差和标准化预测值的Spearman等级进行分析,可以看到,计算残差与预测值的相关性弱,认为异方差现象不明显。
13、利用1950年〜1990年的天津食品消费数据,分析这段时间内的人均生活费用年收入的变化情况。
要求:
数据进行对数变换后,运用Holt线性趋势平滑模型
分析。
(1)输出均方根误差和参数估计结果;
(2)输出ACF和PACFffl形并对其特征进行分析,是否满足白噪声序列的条件;
(3)给出1991-1992的预测值,并输出拟合图。
解答:
思路:
根据题意,先不进行序列图和自相关、偏自相关的观察和检验阶段处理。
直接利用指数平滑模型中的Holt线性趋势模型对数据进行分析,同时输出均方根误差和参数估计误差,ACF和PACF图像判断是否满足白噪音序列的条件;最
后然后对数据进行1991年、1992年做出预测,并用模型进行拟合
步骤:
【分析-预测-创建模型】,将人均生活费年收入选入【因变量】中,将【方法】选为【指数平滑法】;点击【条件】,在【因变量转换】中选【自然对数】,在【模型类型】中【Holt线性趋势】,【继续】。
【统计量】,在【拟合度量】中选择【平稳的R方、均方根误差】,在【个别模型的统计量】中选中【参数估计】,在【比较模型的统计量】中选中【拟合优度】,选中【显示预测值】,【确定】
【图表】,在【单个模型图】中选择【序列、残差自相关函数、残差部分自相关函数】,在【每张图显示的内容】中现则【观察值、预测值、拟合值】。
【选项】,在【预测阶段】选择第二个,在【日期】的【年】框中填入【1992】。
输出:
模型適合度
適合度統
計資料
平均數
SE
最小值
最大值
百分位數
5
10
25
50
75
90
95
平穩R
平方
.221
.221
.221
.221
.221
.221
.221
.221
.221
.221
R平方
.994
.994
.994
.994
.994
.994
.994
.994
.994
.994
RMSE
28.179
28.179
28.179
28.179
28.179
28.179
28.179
28.179
28.179
28.179
MAPE
3.517
3.517
3.517
3.517
3.517
3.517
3.517
3.517
3.517
3.517
MaxAPE
12.495
12.495
12.495
12.495
12.495
12.495
12.495
12.495
12.495
12.495
MAE
17.146
17.146
17.146
17.146
17.146
17.146
17.146
17.146
17.146
17.146
MaxAE
82.911
82.911
82.911
82.911
82.911
82.911
82.911
82.911
82.911
82.911
標準化
BIC
6.858
6.858
6.858
6.858
6.858
6.858
6.858
6.858
6.858
6.858
模型統計資料
模型
預測變數數
目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數
目
平穩R平
方
RMSE
統計資
料
DF
顯著性
人均生活费年收入-模
型1
0
.221
28.179
16.360
16
.428
0
均方根误差为28.179,误差较小
指數平滑化模型參數
模型
估計
SE
T
顯著性
人均生活费年收入-模型
自然對數Alpha(水準)
1.000
.157
6.381
.000
_1
Gamm(趨勢)
.400
.178
2.244
.031
模型的两个参数分别为:
1.0和0.4,则具体模型为ft+m=1.0+0.4m,
舷pacf
Residual
但两函数都
虽然残差自相关函数和偏自相关函数绝大多数处于置信区间内,具有明显减少趋势,且具有一定的季节性,因此不属于白噪音序列。
預測
模型
1991
1992
人均生活费年收入-模型_1預測
1708.82
1920.58
UCL
1887.02
2274.43
LCL
1543.63
1609.99
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
1991、1992年的预测值与1990年的观测值有较大的增长趋势。
从整个数据来看,1950年至1980年这段时期较为平稳的增长,但是1980年之后迅速上升,最后预测值上升较为明显,这与实际趋势基本一致。
且1991、1992年预测值分别为1708.82、1920.58。
16、结合自己的研究方向、参与项目等,举出一个说明SPS在交通运输中应用
的例子。
例子需包含问题说明、数据来源、统计方法、统计结果及其主要结论。
解答:
问题说明:
利用1950年~2013年美国么历年定期航班旅客周转量(单位:
“台亿客公里)历年数据数据,建立几种指数平滑模型,预测2016年美国定期航班旅客周转量。
数据来源:
《从统计看民航(2014)»中国民航出版社,2014年11月第一版
年份
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
定期航班旅客周转
量/亿客公里
164.4
211.8
250.3
292.1
331.6
391.8
444.5
503
506.9
585.3
年份
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
定期航班旅客周转
量/亿客公里
625.4
640.9
704.2
810.4
941.3
1105.2
1285.7
1605.8
1830.7
2017.3
年份
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
定期航班旅客周转
量/亿客公里
2131.3
2155.9
1453
2606
2621
2620
2882
3110
3640
4080
年份
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
定期航班旅客周转
量/亿客公里
3930
3950
4100
4460
4720
5279
5800
6470
6743
6948
年份
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
定期航班旅客周转
量/亿客公里
7314
7183
7651.4
7759
8199.8
8491.6
9214.8
9655.7
9847
10448.7
年份
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
定期航班旅客周转
量/亿客公里
11109.5
10444.8
10218.4
10389.6
11643.7
12446.9
12753.8
13120.5
12790
12570
年份
2010
2011
2012
2013
定期航班旅客周转
量/亿客公里
12998.7
13105.4
13247.5
13525.2
解题思路:
首先首先绘制和观察彩电出口量的序列图,通过图形观察和检验
寻找规律,然后通过指数平滑模型一简单、HOIT线性趋势、Brown线性趋势三
个模型进行分析预测,比较选择最佳模型预测2016年亿客公里数。
统计结果:
美国亿客公里时间序列图如下:
1500000000
-150000000Q-
该序列图为平稳序列则可以直接进行建模分析
(1)简单指数平滑模型
型號說明
模型類型
模型ID亿客公里模型1
簡單
模型統計資料
模型
預測變數數
目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數
目
平穩R平
方
RMSE
統計資料
DF
顯著性
亿客公里-模型
1
0
-.417
367.918
12.511
17
.046
0
指數平滑化模型參數
模型
估計
SE
T
顯著性
亿客公里-模型1自然對數Alpha(水準)
1.000
.122
8.175
.000
預測
模型
2014
2015
2016
亿客公里-模型_1預測
13638.21
13752.16
13867.06
UCL
17502.48
19474.79
21137.62
LCL
10451.72
9393.22
8654.28
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
(2)HOIT线性趋势指数平滑模型
型號說明
模型類型
模型ID亿客公里模型1
Holt
模型統計資料
預測變數數
模型適合度統計資料
Ljung-BoxQ(18)
離群值數
目
平穩R平
方
RMSE
統計資料
DF
顯著性
目
亿客公里-模型
_1
0
.610
417.990
15.336
16
.050
0
flS:
ACF
-IDJ05DDD5IB-1.0-0.5D.D051.0
RvEidu^l
指數平滑化模型參數
模型
估計
SE
T
顯著性
亿客公里-模型_1自然對數Alpha(水準)
.694
.118
5.893
.000
Gamm(趨勢)
.117
.062
1.895
.063
預測
模型
2014
2015
2016
亿客公里-模型_1預測
13940.78
14300.63
14680.08
UCL
17038.10
18400.81
19860.96
LCL
11286.08
10926.81
10585.12
針對每一個模型,預測是在所要求的估計期間範圍內的前次非遺漏開始,並在其所有預測值的非遺漏值可用的前次期間,或是在所要求的預測期間的結束日期結束,取較早的時間。
(3)Brown线性趋势指数平滑模型
型號說明
模型類型
模型ID亿客公里模型1
Brown
模型統計資料
模型
預測變數數
目
模型適合度統計資料
Ljung-BoxQ(18)
離群值數
目
平穩