SPSS案例分析资料报告.docx
《SPSS案例分析资料报告.docx》由会员分享,可在线阅读,更多相关《SPSS案例分析资料报告.docx(17页珍藏版)》请在冰豆网上搜索。
SPSS案例分析资料报告
某道路弯道处53车辆减速前观测到的车辆运行速度,试检验车辆运行速度是否服从正态分布。
这道题目的解答可以先通过绘制样本数据的直方图、P-P图和Q-Q图坐车粗略判断,然后利用非参数检验的方法中的单样本K-S检验精确实现。
一、初步判断
1.1绘制直方图
(1)操作步骤
在SPSS软件中的操作步骤如图所示。
(2)输出结果
通过观察速度的直方图及其与正态曲线的对比,直观上可以看到速度的直方图与正太去线除了最大值外,整体趋势与正态曲线较吻合,说明弯道处车辆减速前的运行速度有可能符合正态分布。
1.2绘制P-P图
(1)操作步骤
在SPSS软件中的操作步骤如图所示。
(2)结果输出
根据输出的速度的正态P-P图,发现速度均匀分布在正态直线的附近,较多部分与正态直线重合,与直方图的结果一致,说明弯道处车辆减速前的运行速度可能服从正态分布。
二、单样本K-S检验
2.1单样本K-S检验的基本思想
K-S检验能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优的检验方法,适用于探索连续型随机变量的分布。
单样本K-S检验的原假设是:
样本来自的总体与指定的理论分布无显著差异,即样本来自的总体服从指定的理论分布。
SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。
单样本K-S检验的基本思路是:
首先,在原假设成立的前提下,计算各样本观测值在理论分布中出现的累计概率值F(x),;其次,计算各样本观测值的实际累计概率值S(x);再次,计算实际累计概率值与理论累计概率值的差D(x);最后,计算差值序列中的最大绝对值差值,即
通常,由于实际累计概率为离散值,因此D修正为:
D统计量也称为K-S统计量。
在小样本下,原假设成立时,D统计量服从Kolmogorov分布。
在大样本下,原假设成立时,
近似服从K(x)分布:
当D小于0时,K(x)为0;当D大于0时,
容易理解,如果样本总体的分布与理论分粗的差异不明显,那么D不应较大。
如果D统计量的概率P值小于显著性水平α,则应拒绝原假设,认为样本来自的总体与指定的分布有显著差异如果D统计量的P值大于显著性水平α,则不能拒绝原假设,认为,样本来自的总体与指定的分布无显著差异。
在SPSS中,无论是大样本还是小样本,仅给出大样本下的和
对应的概率P值。
2.2软件操作步骤
单样本K-S检验的操作步骤如图所示
2.3输出结果并分析
SPSS的输出结果如表所示.
单样本Kolmogorov-Smirnov检验
速度
N
98
正态参数a,b
均值
47.988
标准差
11.6310
最极端差别
绝对值
.090
正
.050
负
-.090
Kolmogorov-SmirnovZ
.888
渐近显著性(双侧)
.409
a.检验分布为正态分布。
b.根据数据计算得到。
该表表明,速度的均值为47.988,标准差为11.6310。
最大绝对差值为0.090,最大正差值为0.050,最大负差值为-0.090。
本例应采用大样本下D统计量的精确概率值,输出了根号nD值0.888和概率P值0.409,如果显著性水平为0.05,由于概率P值大于显著性水平,因此不能拒绝原假设,可以认为弯道处车辆减速前的运行速度服从正态分布。
第13题
表中数据为某条公路上观测到的交通流速度与密度数据,试用一元线性回归模型分析两者的101关系。
一、一元线性回归的基本原理
1.1一元线性回归模型:
上述模型可分为两部分:
(1)
是非随机部分;
(2)
是随机部分。
β0和β1为回归常熟和回归系数该式被称为估计的一元线性回归方程。
1.2模型参数估计
用最小二乘法估计参数,是在关于随机误差的正态性、无偏性、同方差性、独立性这四个假设的基础上进行的。
为了求回归系数,
,
,令一阶导数为0,得:
从中解出:
二、一元线性回归分析的假设检验:
其中:
SST称为总体离差平方和,代表原始数据所反映的总偏差的大小。
SSR称为回归离差平方和,它是由变量x引起的偏差,反应x的重要程度
SSE称为剩余离差平方和,它是由实验误差以及其它未加控制因素引起的偏差,反映了试验误差及其它随机因素对试验结果的影响。
2.1回归方程优度检验的
相关系数反映了由于使用Y与X之间的线性回归模型来估计y的均值,而导致总离差平方和减少的程度。
它与SSR成正比,R2的取值在0-1之间,其值越接近1,说明方程对样本数据点的拟合度越高;反之,其越接近0说明,明模型的拟合度越低。
2.2回归方程的显著性检验
假设
。
在
成立的条件下,有:
上式中,n1=1,n2=n-2,F服从自由度为(1,n-2)的F分布。
给定显著水平
,若
拒绝原假设,表明回归效果显著。
2.3回归系数的显著性检验
在
成立的条件下,有:
当
时,拒绝原假设,回归显著。
注意:
注意回归方程的显著性检验与回归系数的显著性检验的的区别:
回归系数的显著性检验是用于检验回归方程各个参数是否显著为0的单一检验,回归方程的显著性检验是检验所有解释变量的系数是否同时为0的联合检验,分别为t检验FF检验。
对于一元线性回归模型,F检验与t检验是等价的,而对于二元以上的多元回归模型,解释变量的整体对被解释变量的影响是显著的,并不表明每一个解释变量对它的影响都显著,因此在做完F检验后还须进行t检验。
2.4残差均值为零的正态性分析,
进行一元线性回归建模的前提是残差ε~N(0,δ2)。
而结实变量x去某个特定的值是,对应的残差必然有证有负,但总体上应服从已领为君值得正态分布。
可以通过绘制残插图对该问题进行分析。
残插图是一种散点图,途中横坐标是结实变量,纵坐标为残差。
如果残差的均值为零,则残插图中的点应在纵坐标为零的横线上、下随机散落。
三、软件操作
一元线性回归的软件操作步骤如图所示。
四、输出结果
SPSS的输出结果如表所示。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.972a
.944
.941
10.0432
a.预测变量:
(常量),密度。
b.因变量:
速度
该表中格列数据的含义(从第二列开始)依次是:
被解释变量和解释变量的负相关系数、判定系数R2、调整的系数R2、回归方程的估计标准误差。
依据该表可以进行拟合优度检验。
由于判定系数R2较接近1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,不能被模型解释的部分较少。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
37276.268
1
37276.268
369.566
.000a
残差
2219.031
22
100.865
总计
39495.298
23
a.预测变量:
(常量),密度。
b.因变量:
速度
该表各项数据的含义(从第一列开始)依次为:
被解释变量的表差来源,离差平方和。
自由度、方程、回归方程显著性检验中F检验统计量的观测值和概率P值。
由表可知,F检验统计量的观测值为,369.56,对应的概率P值为0.000。
如果显著性水平取0.05,由于概率P值小于显著性水平,所以应该拒绝原假设,认为,被解释变量与及时变量的线形关系是显著的,可以建立线性模型。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
153.344
3.987
38.462
.000
密度
-3.893
.202
-.972
-19.224
.000
a.因变量:
速度
该表中各列数据的含义(第二列开始)依次为:
偏回归系数,偏回归系数的标准误差,标准化偏回归系数、回归系数显著性检验中t检验统计量的观测值、对应的概率P值。
从表中可以看出,产量和密度对应的概率P值均为0.000。
若取显著性水平为0.05,则应拒绝原假设,认为密度与速度的线性关系显著。
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
2.312
123.371
87.608
40.2580
24
残差
-11.8622
21.2178
.0000
9.8224
24
标准预测值
-2.119
.888
.000
1.000
24
标准残差
-1.181
2.113
.000
.978
24
a.因变量:
速度
该表中可以看出,残差和标准残差的均值均为0,符合残差均值为零的正态性分析。
综上,该公路上速度与密度的一元线性回归模型为:
,其中,V表示速度,K表示密度。
第17题
为了分析双车道公路上驾驶人超车行为及其影响因素,应用超车试验研究了超车过程中同向的车流间隙对驾驶人换车道的影响。
此次试验共采集到有效样本数据342条,表中给出了部分试验数据整理结果。
请用logistic回归模型标定出换道行为模型。
本题可采用二元logistic回归分析对换道行为进行标定。
一、二元Logistic回归基本原理
当被解释变量为0/1二分类变量时,虽然无法直接采用一般线性回归模型建模,但可充分借鉴其理论模型和分析思路。
利用一般线性回归模型对被解释变量取值为1的概率进行建模,此时回归方程被解释变量的实际取值围在0~1之间。
回归方程的一般形式为:
现将P转换为
对对两边取对数,并建立被解释变量与解释变量之间的多元分析模型,即
于是有
该式即被解释变量预测为1类的模型。
二、软件操作
二元logistic回归模型的SPSS操作如图所示。
操作中,对换道行为进行了分类设置:
超车成功=1,超车失败=2。
三、结果输出
分类表a,b
已观测
已预测
超车
百分比校正
失败
成功
步骤0
超车
失败
0
4
.0
成功
0
8
100.0
总计百分比
66.7
a.模型中包括常量。
b.切割值为.5
该表显示了logistic分析初级阶段(第0步,方程中只有常数项,其他回归系数约束为0),的混淆矩阵。
可以看待,有4人超车失败但模型预测错误,正确率为0%,有8人超车成功模型预测正确,正确率为100%。
模型总的预测正确率为66.7%。
方程中的变量
B
S.E,
Wals
df
Sig.
Exp(B)
步骤0
常量
.693
.612
1.281
1
.258
2.000
该表为方层中只有常数项时回归系数方面的指标,由于此时模型中未包含任何解释变量,该表并没有实际意义。
不在方程中的变量
得分
df
Sig.
步骤0
变量
速度
10.170
1
.001
车头间距
.568
1
.451
车头时距
3.210
1
.073
总统计量
10.802
3
.013
该表显示了待进入方程的各解释变量的情况。
可以看到,下一波速度。
车头间距和车头时距进入方程,则Score检验统计量的鬼厕纸和概率P值分别依次是10.170、0.001,0.568、0.451,3.210,0.073。
如果显著性水平为0.05,则由于车头间距和车头时距的概率P值大于显著性水平,所以不能进入方程。
分类表a
已观测
已预测
超车
百分比校正
失败
成功
步骤1
超车
失败
4
0
100.0
成功
0
8
100.0
总计百分比
100.0
a.切割值为.500
因此将车头间距和车头时距移除,再看该分类表,模型的预测率为100%。
从而车辆环岛行为模型的标定仅与行车速度有关。
方程中的变量
B
S.E,
Wals
df
Sig.
Exp(B)
EXP(B)的95%C.I.
下限
上限
步骤1a
速度
4.729
1693.794
.000
1
.998
113.156
.000
.
常量
-145.071
53532.647
.000
1
.998
.000
a.在步骤1中输入的变量:
速度.
从而得到换到行为的logistic回归模型标定结果
(1)
(2)
则式
(2)为超车成功的标定模型,其中,V为行车速度。