数据分析spss作业.docx

资源描述

数据分析spss作业.docx

《数据分析spss作业.docx》由会员分享，可在线阅读，更多相关《数据分析spss作业.docx（24页珍藏版）》请在冰豆网上搜索。

数据分析spss作业.docx

数据分析spss作业

数据分析方法及软件应用

（作业）

题目：

4、8、13、16题

指导教师：

学院：

交通运输学院

姓名：

学号:

4、在某化工生产中为了提高收率，选了三种不同浓度，四种不同温度做试验。

在同一浓度与温度组合下各做两次试验，其收率数据如下面计算表所列。

试在a=0.05显著性水平下分析

（1）给出SPSS数据集的格式（列举前3个样本即可）；

（2）分析浓度对收率有无显著影响；

（3）分析浓度、温度以及它们间的交互作用对收率有无显著影响。

解答：

（1）分别定义分组变量浓度、温度、收率，在变量视图与数据视图中输入表格数据，具体如下图。

ilk^

峯称

类型

宽度

小数

值

列

法度

数值

无

温度

数值

无

收率

数值

无

（2）思路：

本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响，因而应用单因素方差分析。

假设：

浓度对收率无显著影响。

步骤：

【分析-比较均值-单因素】，将收率选入到因变量列表中，将浓度选入到因子框中，确定。

输出：

變異數分析

收率

平方和

平均值平方

顯著性

群組之間

39.083

19.542

5.074

.016

在群組內

80.875

3.851

總計

119.958

显著性水平a为0.05，由于概率p值小于显著性水平a,则应拒绝原假设,认为浓度对收率有显著影响。

（3）思路：

本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响，然后分析两个这控制变量的交互作用能否对收率产生显著影响，因而应该采用多因素方差分析。

假设，Hoi：

浓度对收率无显著影响；H02：

温度对收率无显著影响；H03:

浓度与温度的交互作用对收率无显著影响。

步骤：

【分析-一般线性模型-单变量】，把收率制定到因变量中，把浓度与温度制定到固定因子框中，确定。

输出：

主旨間效果檢定

因變數：

收率

來源

第III類平方

和

平均值平方

顯著性

修正的模型

70.458a

6.405

1.553

.230

截距

2667.042

646.556

.000

浓度

39.083

19.542

4.737

.030

温度

13.792

4.597

1.114

.382

浓度*温度

17.583

2.931

.710

.648

錯誤

49.500

4.125

總計

2787.000

校正後總數

119.958

a.R平方=.587（調整的R平方=.209）

第一列是对观测变量总变差分解的说明；第二列是观测变量变差分解的结果；第三列是自由度；第四列是均方；第五列是F检验统计量的观测值；第六列是检验统计量的概率p值。

可以看到观测变量收率的总变差为119.958，由浓度

不同引起的变差是39.083，由温度不同引起的变差为13.792，由浓度和温度的交互作用引起的变差为17.583，由随机因素引起的变差为49.500。

浓度，温度和浓度*温度的概率p值分别为0.030,0.382和0.648。

浓度：

显著性＜0.05说明拒绝原假设（浓度对收率无显著影响），证明浓度对收率有显著影响；温度：

显著性〉0.05说明不拒绝原假设（温度对收率无显著影响），证明温度对收率无显著影响；浓度与温度：

显著性〉0.05说明不拒绝原假设（浓度与温度的交互作用对收率无显著影响），证明温浓度与温度的交互作用对收率无显著影响。

8、以高校科研研究数据为例：

以课题总数X5为被解释变量，解释变量为投入人年数X2、投入科研事业费X4、专著数X6获奖数X8；建立多元线性回归模型，分析它们之间的关系。

解释变量采用逐步筛选策略，并做多重共线性、方差齐性和残差的自相关性检验。

解答：

思路：

根据要求采用逐步筛选的解释变量筛选策略，利用回归分析方法建立多元线性回归模型，分析它们之间的关系，并且要求做多重共线性、方差齐性和残差的自相关性检验。

（1）步骤：

【分析-回归-线性】，X5选入因变量，X2、X4X6、X8选入自变量，方法选择【逐步】。

【统计量】勾选【估计】、【模型拟合度】、【共线性诊断】与【Durbin-Waston（U）】。

【绘制（T）按钮】，将*ZRESlD添加到Y（Y）框中，将*ZPRED添加到X2（X）框中，勾选【正态概率图】，【保存（S）】按钮。

在预测值与残差中勾选【标准化】选项。

选择菜单【分析一相关一双变量】将标准化预测值和标准化残差选入【变量】框,在相关系数中选择Spearman各项完成后点击【确定】。

输出：

變數已輸入/已移除

模型

變數已輸入

變數已移除

方法

投入人年数

逐步（準則：

F-to-enter的機率<=.050，F-to-remove的機率>=.100】。

a.應變數：

课题总数

模型摘要

模型

R平方

調整後R平方

標準偏斜度錯誤

Durbin-Watson

.959a

.919

.917

241.9582

1.747

a.預測值：

（常數），投入人年数

b.應變數：

课题总数

表中变量为投入人年数，参考调整的判定系数，由于调整的判定系数（0.917）较接近于1,因此认为拟合优度较高，被解释变量可以被模型解释的部分较多，未能被解释的部分较少。

方程DV检验值为1.747，残差存在一定的正自相关。

變異數分析

模型

平方和

平均值平方

顯著性

迴歸

19379040.047

331.018

.000b

殘差

1697769.953

58543.791

總計1

21076810.000I

301III

a.應變數:

课题总数

b.預測值：

（常數），

投入人年数

被解释变量的总离差平方和为21076810.00，回归平方和及均方分别为

19379040.047和19379040.047,剩余平方和及均方分别为1697769.953和58543.791，检验统计量的观测值为331.018，对应的概率值近似为0。

依据该表可进行回归方程的显著性检验。

如果显著性水平为0.05，由于概率值小于

显著性水平，应拒绝回归方程显著性检验的零假设，认为回归系数不为0,被解释变量与解释变量的线性关系是显著的，可建立线性模型。

係數

模型

非標準化係數

標準化係數

顯著性

共線性統計資料

標準錯誤

Beta

允差

VIF

1（常數）

-94.524

72.442

-1.305

.202

投入人年数

.492

.027

.959

18.194

.000

1.000

a.應變數\:

课题总数

依据该表可以进行回归系数显著性检验，写出回归方程和检测多重共线性。

可以看到，如果显著性水平为0.05，投入人年数变量的回归系数显著性t检验的概率p值小于显著性水平，因此拒绝零假设，认为其偏回归系数与0有显著差异，与被解释变量与解释变量的线性关系是显著的，应保留在方程中。

同时从容忍度和方差膨胀因子看，解释变量与投入人年数多重共线性很弱，可以建立模型。

最终回归方程为，课题总数=-94.524+0.492投入人年数。

排除的變數

模型

Beta入

顯著性

偏相關

共線性統計資料

允差

VIF

允差下

限

1投入科研事业费（百元）

.152b

1.528

.138

.278

.267

3.748

.267

专著数

.023b

.182

.857

.034

.188

5.308

.188

获奖数

.030b

.411

.684

.077

.542

1.846

.542

a.應變數：

课题总数

b.模型中的預測值：

（常數），投入人年数

该表展示回归方程的剔除变量，可以看到，如果显著性水平为0.05，表中

三个变量的回归系数显著性t检验的概率p值大于显著性水平，因此不拒绝零假设，认为其偏回归系数与0无显著差异，与被解释变量与解释变量的线性关系是不显著的，不应保留在方程中。

同时从容忍度和方差膨胀因子看，解释变量与三个解释变量多重共线性严重，在建立模型的时候应当被剔除。

共線性診斷

|模型維度

特徵值

條件指數

變異數比例

（常數）

投入人年数

1.800

1.000

.10

.200

3.001

.90

a.應變數：

课题总数

依据该表可进行多重共线性检测，从方差比例上看第二个变量可解释常量的90%，也可解释投入人年数的90%，一次认为这些变量存在多重共线性。

条件指数都小于10，说明存在共线性较弱，低个变量特征值小于0.7，说明线性相关关系较弱。

殘差統計資料

最小值

最大值

平均數

標準偏差

預測值

-57.642

3246.986

960.000

803.7213

殘差

-466.2850

509.6787

.0000

237.8914

標準預測值

-1.266

2.845

.000

1.000

標準殘差

-1.927

2.106

.000

.983

a.應變數：

课题总数

嵐歸糅那化城於怕我烏F-F四

数据点围绕基准线还存在一定的规律性，但标准化残差的非参数检验结果表

明标准化残差与标准正态分布不存在显著差异，可以认为残差满足了线性模型的前提要求。

随着标准化预测值的变化，残差点在0线周围随机分布，但残差的等方差性并不完全满足，方差似乎有增大的趋势。

但计算残差与预测值的Spearman等级

相关系数为-0.176，且检验并不显著，因此认为异方差现象并不明显。

相關

Standardized

Predicted

Value

Standardized

Residual

Spearman的rho

StandardizedPredicted

相關係數

1.000

-.176

Value

顯著性（雙尾）

.344

StandardizedResidual

相關係數

-.176

1.000

顯著性（雙尾）

.344

依据该表可以对标准化残差和标准化预测值的Spearman等级进行分析，可以看到，计算残差与预测值的相关性弱，认为异方差现象不明显。

13、利用1950年〜1990年的天津食品消费数据，分析这段时间内的人均生活费用年收入的变化情况。

要求：

数据进行对数变换后，运用Holt线性趋势平滑模型

分析。

（1）输出均方根误差和参数估计结果；

（2）输出ACF和PACFffl形并对其特征进行分析，是否满足白噪声序列的条件；

（3）给出1991-1992的预测值，并输出拟合图。

解答：

思路：

根据题意，先不进行序列图和自相关、偏自相关的观察和检验阶段处理。

直接利用指数平滑模型中的Holt线性趋势模型对数据进行分析，同时输出均方根误差和参数估计误差，ACF和PACF图像判断是否满足白噪音序列的条件；最

后然后对数据进行1991年、1992年做出预测，并用模型进行拟合

步骤：

【分析-预测-创建模型】，将人均生活费年收入选入【因变量】中，将【方法】选为【指数平滑法】；点击【条件】，在【因变量转换】中选【自然对数】，在【模型类型】中【Holt线性趋势】，【继续】。

【统计量】，在【拟合度量】中选择【平稳的R方、均方根误差】，在【个别模型的统计量】中选中【参数估计】，在【比较模型的统计量】中选中【拟合优度】，选中【显示预测值】，【确定】

【图表】，在【单个模型图】中选择【序列、残差自相关函数、残差部分自相关函数】，在【每张图显示的内容】中现则【观察值、预测值、拟合值】。

【选项】，在【预测阶段】选择第二个，在【日期】的【年】框中填入【1992】。

输出：

模型適合度

適合度統

計資料

平均數

最小值

最大值

百分位數

平穩R

平方

.221

R平方

.994

RMSE

28.179

MAPE

3.517

MaxAPE

12.495

MAE

17.146

MaxAE

82.911

標準化

BIC

6.858

模型統計資料

模型

預測變數數

目

模型適合度統計資料

Ljung-BoxQ（18）

離群值數

目

平穩R平

方

RMSE

統計資

料

顯著性

人均生活费年收入-模

型1

.221

28.179

16.360

.428

均方根误差为28.179，误差较小

指數平滑化模型參數

模型

估計

顯著性

人均生活费年收入-模型

自然對數Alpha（水準）

1.000

.157

6.381

.000

Gamm（趨勢）

.400

.178

2.244

.031

模型的两个参数分别为：

1.0和0.4，则具体模型为ft+m=1.0+0.4m,

舷pacf

Residual

但两函数都

虽然残差自相关函数和偏自相关函数绝大多数处于置信区间内,具有明显减少趋势，且具有一定的季节性，因此不属于白噪音序列。

預測

模型

1991

1992

人均生活费年收入-模型_1預測

1708.82

1920.58

UCL

1887.02

2274.43

LCL

1543.63

1609.99

針對每一個模型，預測是在所要求的估計期間範圍內的前次非遺漏開始，並在其所有預測值的非遺漏值可用的前次期間，或是在所要求的預測期間的結束日期結束，取較早的時間。

1991、1992年的预测值与1990年的观测值有较大的增长趋势。

从整个数据来看，1950年至1980年这段时期较为平稳的增长，但是1980年之后迅速上升，最后预测值上升较为明显，这与实际趋势基本一致。

且1991、1992年预测值分别为1708.82、1920.58。

16、结合自己的研究方向、参与项目等，举出一个说明SPS在交通运输中应用

的例子。

例子需包含问题说明、数据来源、统计方法、统计结果及其主要结论。

解答：

问题说明：

利用1950年~2013年美国么历年定期航班旅客周转量（单位：

“台亿客公里）历年数据数据，建立几种指数平滑模型，预测2016年美国定期航班旅客周转量。

数据来源：

《从统计看民航（2014）»中国民航出版社，2014年11月第一版

年份

1950

1951

1952

1953

1954

1955

1956

1957

1958

1959

定期航班旅客周转

量/亿客公里

164.4

211.8

250.3

292.1

331.6

391.8

444.5

503

506.9

585.3

年份

1960

1961

1962

1963

1964

1965

1966

1967

1968

1969

定期航班旅客周转

量/亿客公里

625.4

640.9

704.2

810.4

941.3

1105.2

1285.7

1605.8

1830.7

2017.3

年份

1970

1971

1972

1973

1974

1975

1976

1977

1978

1979

定期航班旅客周转

量/亿客公里

2131.3

2155.9

1453

2606

2621

2620

2882

3110

3640

4080

年份

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

定期航班旅客周转

量/亿客公里

3930

3950

4100

4460

4720

5279

5800

6470

6743

6948

年份

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

定期航班旅客周转

量/亿客公里

7314

7183

7651.4

7759

8199.8

8491.6

9214.8

9655.7

9847

10448.7

年份

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

定期航班旅客周转

量/亿客公里

11109.5

10444.8

10218.4

10389.6

11643.7

12446.9

12753.8

13120.5

12790

12570

年份

2010

2011

2012

2013

定期航班旅客周转

量/亿客公里

12998.7

13105.4

13247.5

13525.2

解题思路：

首先首先绘制和观察彩电出口量的序列图，通过图形观察和检验

寻找规律，然后通过指数平滑模型一简单、HOIT线性趋势、Brown线性趋势三

个模型进行分析预测，比较选择最佳模型预测2016年亿客公里数。

统计结果：

美国亿客公里时间序列图如下：

1500000000

-150000000Q-

该序列图为平稳序列则可以直接进行建模分析

（1）简单指数平滑模型

型號說明

模型類型

模型ID亿客公里模型1

簡單

模型統計資料

模型

預測變數數

目

模型適合度統計資料

Ljung-BoxQ（18）

離群值數

目

平穩R平

方

RMSE

統計資料

顯著性

亿客公里-模型

-.417

367.918

12.511

.046

指數平滑化模型參數

模型

估計

顯著性

亿客公里-模型1自然對數Alpha（水準）

1.000

.122

8.175

.000

預測

模型

2014

2015

2016

亿客公里-模型_1預測

13638.21

13752.16

13867.06

UCL

17502.48

19474.79

21137.62

LCL

10451.72

9393.22

8654.28

（2）HOIT线性趋势指数平滑模型

型號說明

模型類型

模型ID亿客公里模型1

Holt

模型統計資料

預測變數數

模型適合度統計資料

Ljung-BoxQ（18）

離群值數

目

平穩R平

方

RMSE

統計資料

顯著性

目

亿客公里-模型

.610

417.990

15.336

.050

flS:

ACF

-IDJ05DDD5IB-1.0-0.5D.D051.0

RvEidu^l

指數平滑化模型參數

模型

估計

顯著性

亿客公里-模型_1自然對數Alpha（水準）

.694

.118

5.893

.000

Gamm（趨勢）

.117

.062

1.895

.063

預測

模型

2014

2015

2016

亿客公里-模型_1預測

13940.78

14300.63

14680.08

UCL

17038.10

18400.81

19860.96

LCL

11286.08

10926.81

10585.12

（3）Brown线性趋势指数平滑模型

型號說明

模型類型

模型ID亿客公里模型1

Brown

模型統計資料

模型

預測變數數

目

模型適合度統計資料

Ljung-BoxQ（18）

離群值數

目

平穩

展开阅读全文