数据分析作业.docx
《数据分析作业.docx》由会员分享,可在线阅读,更多相关《数据分析作业.docx(19页珍藏版)》请在冰豆网上搜索。
数据分析作业
一、第4题方差分析
1.1建立数据文件
由题意可知,在同一浓度和温度下各做两次实验,将每一次的实验结果看作一个样本量,共342=24个样本量。
⑴在“变量视图”下,名称分别输入“factorT、“factorl”、“result”,类型设为“数值”,小数均为“0”,标签分别为“浓度”、“温度”、“收率”,factorl的值“仁A1,2=A2,3=A3”,factor2的值“1=B1,2=B2,3=B3,4=B4”,对齐选择“居中”。
(2)在“数据视图”下,根据表中数据输入对应的数据。
数据文件如图1所示,其中“factorl”表示浓度,“factor2”表示温度,“result”表示收率。
三种不同浓度分别用1、2、3表示,四种不同温度分别用1、2、3、4表示。
factorl
factors
result
1
1
1
13
2
1
1
10
3
1
2
12
图1.1SPSS数据文件格式
1.2基本思路
(1)设“浓度对收率的影响不显著”为零假设H。
,利用单因素方差分析,对该假设进行判定。
⑵设“它们间的交互作用对收率没有显著影响”分别依次为假设H。
,则可以通过多因素方差分析工具,利用得出的结果即能证明假设H。
是否成立。
1.3操作步骤
(1)单因素的方差分析操作
1分析一比较均值一单因素;因变量列表:
收率;因子:
浓度;
2两两比较:
选中“LSD”复选框,定义用LSD法进行多重比较检验;显著性水平:
0.05,单击“继续”;
3选项:
选中“方差齐次性检验”,单击“继续”;
4单击“确定”。
(2)有交互作用的两因素方差分析操作
1分析一一般线性模型一单变量;因变量:
收率;固定因子:
温度、浓度;
2绘制。
水平轴:
factorl,选择浓度作为均值曲线的横坐标,单图:
factor2,选择温度作为曲线的分组变量;单击添加一继续。
3选项。
显示均值:
factorl,定义估计因素1的均值;显著性水平:
0.05;单击“继续”;
4单击“确定”。
1.4结果分析
(1)“浓度对收率有无显著影响”结果分析
执行上述操作后,生成下表。
表1.1方差齐性检验
收率
Levene统计量
df1
df2
显著性
.352
2
21
.708
表1中Levene统计量的取值为0.352,Sig.的值为0.708,大于0.05,所以认为
各组的方差齐次。
表1.2单因素方差分析
收率
平方和
df
均
匀方
F
显著性
组间
39.083
/
19.542
5.074
.016
组内
80.875
21
3.851
总数
119.958
2-
从表2可以看出,观测变量收率的总离差平方和为119.58;如果仅考虑浓度单因素的影响,则收率总变差中,浓度可解释的变差为39.083,抽样误差引起的变差为80.875,它们的方差分别为19.542、3.851,相除所得的F统计量的观测值为5.074,对应的概率P值为0.016,小于显著性水平0.05,则应拒绝原假设,认为不同浓度对收率产生了显著影响,它对收率的影响效应不全为0。
表1.3多重比较
因变量:
收率
LSD
95%置信区间
(I)浓度
(J)浓度
均值差(I-J)
标准误
显著性
下限
上限
A1
A2
2.500*
.981
.019
.46
4.54
A3
-.375
.981
.706
-2.42
1.67
A2
A1
-2.500*
.981
.019
-4.54
-.46
A3
-2.875*
.981
.008
-4.92
-.83
A3
A1
.375
.981
.706
-1.67
2.42
A2
2.875*
.981
.008
.83
4.92
*.均值差的显著性水平为0.05。
表3是各种浓度之间显著性差异两两比较的结果。
从表3可以看出,浓度
A2同其他任意两种浓度比较,其Sig.值都小于0.05,所以认为浓度A2与其他浓度在收率上有显著差异。
而其他两种浓度,可以认为其浓度的不同对收率的影响不大。
(2)“浓度、温度及其相互作用对收率的影响”结果分析执行上述操作后,生成下表。
表1.4两因素方差分析表
因变量:
收率
源
III型平方和
df
均方
F
Sig.
校正模型
70.458a
11
6.405
1.553
.230
截距
2667.042
1
2667.042
646.556
.000
factor1
39.083
2
19.542
4.737
.030
factor2
13.792
3
4.597
1.114
.382
factor1*factor2
17.583
6
2.931
.710
.648
误差
49.500
12
4.125
总计
2787.000
24
校正的总计
119.958
23
a.R方=.587(调整R方=.209)
表4为两因素方差分析表,表中第一行“校正模型”代表对方差分析模型的检验,Sig值为0.23>0.05,说明模型不适用。
观测变量的总方差119.958,它被分解为五个部分,分别由浓度不同引起的变差39.083,由温度差异引起的变差
13.792,由浓度和温度的交互作用引起的变差17.583,由随机因素引起的变差为
49.500。
这些变差除以各自的自由度后,得到各自的均方,并可计算出F统计量
的观测值和对应的概率p值。
Ffactorl、Ffactor2、Ffactor1,factor2的概率p值分别为0、0.382、0.648。
由于Ffactori的概率p值小于显著性水平0.05,则应拒绝零假设,认为不同浓度对收率有显著影响。
而Ffactor2、Ffactorl,factor2的概率p值均大于0.05,因此不应拒绝原假设,可以认为不同温度对收率的影响没有显著差异,浓度和温
度的交互作用对收率的影响也不显著。
表5代表浓度在各水平下的均值、标准误均值及95%的置信区间
表1.5浓度的均值
因变量:
收率
浓度
均值
标准误差
95%置信区间
下限
上限
A1
11.250
.718
9.685
12.815
A2
8.750
.718
7.185
10.315
A3
11.625
.718
10.060
13.190
图1.2两因素交互影响的均值图
上图为两因素交互影响的均值图,横坐标代表浓度,纵坐标代表收率均值,且按温度绘制不同的折线。
从图形上看,这些折线近似平行,可以认为两因素的交互作用不显著。
1.5结论
综上,不同浓度对收率有显著影响,而不同温度对收率的影响没有显著差异,浓度和温度的交互作用对收率的影响也不显著。
二、第9题回归分析4
2.1基本思路
本例中被解释变量为课题总数X5,解释变量为投入人年数X2、投入科研事业费X4、论文数X7、获奖数X8。
建立多元回归模型,利用回归方程的统计检验对建立的多元回归模型进行检验,首先对解释变量采取强行进入策略,分析他
们之间的线性关系以及多重共线性;然后对解释变量采用向前筛选策略,做方差
齐性和残差的自相关性检验。
2.2操作步骤
(1)分析一回归一线性;因变量:
课题总数X5;自变量:
投入人年数X2、投入科研事业费X4、论文数X7、获奖数X8;方法:
进入;
(2)统计量:
选中回归系数“估计”、模型拟合度、共线性诊断、残差
Durbin-Watson;
(3)单击“确定”,生成表2.1、表2.2、表2.3、表2.4;
(4)同步骤
(1);
(5)点击“绘制”,X坐标为标准化预测值ZPRED,Y坐标为DRESID,在标准化残差图中选“正态概率图”,点击“继续”按钮,进行残差均值和方差齐性检验;点击“保存”中选择保存标准化预测值、标准化残差;
(6)菜单一分析一相关一双变量,在变量框选择标准化残差、标准化预测值—相关系数一Spearman
(7)点击“确定”按钮。
2.3结果分析
表2.1模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
a
.968
.937
.927
226.5820
1.776
a.预测变量:
(常量),获奖数,投入科研事业费(百兀),论文数,投入人年数。
b.因变量:
课题总数
由上表可看出,该方程中有多个解释变量,依次应参考调整的判断系数。
由于调整的判定系数0.927较接近于1,因此认为拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。
并且Durbin-Watson为1.776在1.5
和2.5之间,因而可以用线性回归模型来拟合数据。
表2.2Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
19741985.311
4
4935496.328
96.135
.000b
残差
1334824.689
26
51339.411
总计
21076810.000
30
a.因变量:
课题总数
b.预测变量:
(常量),获奖数,投入科研事业费(百兀),论文数,投入人年数。
上表是立项课题数多元线性回归分析的结果。
可以看出,被解释变量的总离
差平方和,回归平方和及均方分别为21076810.00Q19741985.311和1334824.689,检验统计量的观测值为96.135,对应的概率p值近似为0.依据该表可进行回归方程的显著性检验,若显著性水平a为0.05,由于概率p值小于a,应拒绝回归方程显著性检验的假设,认为各回归系数不同时为0,被解释变量与解释变量全体的
线性关系是显著的。
表2.3系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
-29.791
73.047
-.408
.687
投入人年数
.553
.102
1.079
5.411
.000
.061
16.325
投入科研事业
费(百元)
.002
.001
.152
1.525
.139
.246
4.069
论文数
-.088
.045
-.348
-1.934
.064
.075
13.309
获奖数
.716
.452
.120
1.586
.125
.425
2.355
a.因变量:
课题总数
依据表2.3可以进行回归系数显著性检验,从表中可以看到,若显著性水平
a为0.05,除了投入人年数外,其余变量的回归系数显著性t检验的概率p值均大
于0.05,因此不应拒绝零假设,故认为他们与被解释变量的线性关系是不显著的,
不应该保留在方程中
模型
维
数
特征
值
条件索
引
方差比例
(常量)
投入人年
数
投入科研事业费(百
元)
论文
数
获奖
数
1
1
4.273
1.000
.01
.00
.01
.00
.01
2
.369
3.401
.54
.00
.13
.00
.00
3
.277
3.925
.14
.00
.09
.00
.54
4
.067
7.987
.31
.07
.59
.13
.41
5
.013
18.195
.00
.93
.17
.87
.04
a.因变量:
课题总数
表2.4
共线性诊断
a
依据表2.4可以进行共线性检测。
从方差比来看,第5个特征根既能解释投入人年数方差的93%,也可以解释论文数方差的87%,因此有理由认为这些变量之间是存在多重共线性的;再从条件指数来看,第5个条件指数大于10,说明变量间确实存在多重共线性。
⑴
(2)
備2
⑶
图2.3课题总数
表2.5相关系数
Standardized
PredictedValue
Standardized
Residual
Spearman的
rho
StandardizedPredicted
Value
相关系数
1.000
-.176
Sig.(双侧)
.344
N
31
31
StandardizedResidual
相关系数
-.176
1.000
Sig.(双侧)
.344
N
31
31
从表2.5中对标准化残差进行检验,Durbin-Watson(1.747)在1.5和2.5之间,
因而残差序列相对独立。
从图
(1)中看到数据点围绕基准线还存在一定的规律行,可利用非参数检验方法对标准化残差再进行检验。
从图
(2)中可以看出,随着标
准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满足,方差似乎有增大的趋势。
从表2.5中可以看到,残差与预测值的spearman等级相关系数为-0.176,且检验并不显著,因此认为异方差现象并不明显。
2.4结论
根据以上分析结果,可知影响高校课题总数的因素,如投入人年数、投入科研事业费、论文数、获奖数等因素间存在多重共线性。
三、第12题聚类分析2
3.1求解思路
因为要在相似变量中选择少数具有代表性的变量参与其他分析,因此选用SPSS层次聚类的R型聚类进行分析。
个体距离采用欧式距离,类间距离采用平均组间链锁距离,并输出树状图、冰柱图。
3.2操作步骤
(1)选择菜单分析一分类一系统聚类;
(2)将8个变量添加到变量框中,在聚类方法中选择变量,采用R型聚类;
(3)在“统计量”对话框中,选择合并进程表和相似性矩阵,并在聚类成员中选择方案范围为最小聚类数2,最大聚类数4;
⑷在“绘制”对话框中勾选上“树状图”;
(5)在“方法”对话框中聚类方法选择“组间联接,区间采用Euclidean距离;
(6)单击“确定”,进行层次聚类分析。
3.3结果分析
表3.1群集聚类表
防
首次岀现砂辭集
下一阶
m1
Sft2
群隼1
群集2
1
2
4
5.344
0
0
3
2
3
5
5.706
0
0
4
3
2
6
7.252
1
0
6
4
3
1
7.309
2
0
5
5
1
3
□
4
6
6
1
2
14.552
5
3
7
7
1
g
15.253
6
0
0
表3.2群集成员表
案例
4群集
3群集
2群京
意犬利
1
1
1
韩国
2
2
1
罗马尼U
3
1
1
迭国
2
2
1
中国
3
1
1
美国
2
2
1
俄罗斯
3
1
1
si心观衣
4
3
2
由表3.1可看出,第一步将2和4合并为一组,此组将在第三步中出现;第二步将3和5合并为一组,此组将在第四步中出现;其他同理;最后在第七步,将所有组合并为一组。
由表3.2可看出,分成4组的话,第一组为意大利;第二组为韩国、法国、美国;第三组为罗马尼亚、中国、俄罗斯;第四组为热心观众。
其他群集同理。
图3.1冰柱图
由冰柱图可看出,当聚成7类时,法国和韩国为一类,其他裁判各为一类;当聚成6类时,法国韩国为一类,中国和罗马尼亚为一类,其他裁判各为一类;当聚成5类时,美国、法国、韩国为一类,中国和罗马尼亚为一类,其他裁判各为一类;当聚成4类时,美国、法国、韩国为一类,俄罗斯、罗马尼亚、中国为一类,意大利和热心观众各为一类;当聚成3类时,热心观众为一类,美国、法国、韩国为一类,其他国家为一类;当聚成两类时,热心观众为一类,其他国家为一类。
图3.2树状图
由树状图可看出:
第一步(2,4)以及(3,5)各合并为一组;第二步(2,4)和6合并为一组,(3,5)和7合并为一组;第三步(3,5,7)和1合并为一组;第四步(2,4,6)和(1,3,5,7)合并为一组;第五步,所有裁判合并为一组。
3.4结论
由以上结果可看出,若将裁判分成4组,意大利裁判独自分成一组,说明了其打分标准与其他裁判存在很大的差异性;热心观众也是独自分成一组,其打分
标准也与其他裁判存在很大的差异性;韩国、美国、法国分成一组,说明这三个国家的裁判打分具有相似性;罗马尼亚、中国、俄罗斯分成一组,说明这三个国家的裁判打分也具有相似性。
需要选出4个具有代表性的裁判,那么一定会选择意大利、热心观众,第三位可以从韩国、美国、法国中选一个,第四位可以从罗马尼亚、中国、俄罗斯中选一个。
为了确定第三位和第四位裁判具体哪个国家,可分别计算他们的复相关系数,并选择复相关系数最高的作为代表。
第3类的复相关系数分别为:
韩国裁判与(法国裁判,美国裁判)为0.949,法国裁判与(韩国裁判,美国裁判)为0.944,美国裁判与(韩国裁判,法国裁判)为0.930,因此可选韩国裁判作为代表;第4类
的各复相关系数分别为:
罗马尼亚裁判与(中国裁判,俄罗斯裁判)为0.943,中国裁判与(罗马尼亚裁判,俄罗斯裁判)为0.941,俄罗斯裁判与(罗马尼亚裁判,中国裁判)为0.946,因此可选俄罗斯裁判作为代表。
综上,最终的裁判为:
第一位为意大利,第二位为热心观众,第三位为韩国,第四位为俄罗斯。
四、第16题SPSS应用实例
4.1问题说明
该实例是关于公交站点停靠时间预测模型。
主要研究公交在站点停靠时间与上下车人数之间的关系。
首先调研并处理相关数据,得到公交站点停靠时间与上下车人数等数据;然后利用回归分析得到公交站点上下车时间预测模型;最后利
用SPSS回归分析用时最长车门乘客上下车时间与站点停靠时间的关系,确定公交站点停靠时间预测模型。
4.2数据来源
北京市23条公交线路(85、320、323、332、355、365、384、653、683、689、697、699、717、718、801、808、814、698、特4、特6、运通105、运通10、运通205)中46个站点高峰时段公交车辆停站数据。
原始数据如下图所示。
图4.1实例原始数据
4.3统计方法
回归分析法,同时采用曲线估计中的五种函数:
对数、线性、幕、S-型曲线、指数等,其中线性又分为二次和三次。
其中,主要操作步骤为:
菜单一分析一回归一曲线估计
4.4统计结果
根据在SPSS得出各曲线回归结果,汇总如下。
图4.2六种曲线回归结果
表4.1停靠站时间回归函数的R2
函数类型
对数函数
二次曲线
三次曲线
幂函数
S-型曲线
指数函数
R2
0.715
0.901
0.901
0.898
0.607
0.743
由上表可看出,六种函数中,二次函数和三次函数的R2值最高,达到0.901。
但从回归曲线图中可以看出,二次函数回归曲线更接近观测数据值,而且简易实用,所以选择二次函数作为公交站点停靠时间与用时最长车门乘客上下车时间关系模型。
4.5结论
在分析公交站点停靠时间预测模型时,采用SPSS中六种不同函数模型进行回归分析,根据回归结果,二次曲线拟合度最高,能更准确描述公交停靠时间及上下车人数之间的关系,最终选择二次曲线作为公交站点停靠时间模型。