1、数据分析作业一、第4题方差分析1.1建立数据文件由题意可知,在同一浓度和温度下各做两次实验,将每一次的实验结果看作 一个样本量,共3 4 2=24个样本量。在“变量视图”下,名称分别输入“ factorT、“factorl”、“result”,类型 设为“数值”,小数均为“ 0”,标签分别为“浓度”、“温度”、“收率”,factorl 的值“仁A1,2=A2,3=A3 ”,factor2 的值“ 1=B1,2=B2,3=B3,4=B4”,对齐 选择“居中”。(2)在“数据视图”下,根据表中数据输入对应的数据。数据文件如图1所示,其中“factorl”表示浓度,“factor2”表示温度,“re
2、sult” 表示收率。三种不同浓度分别用 1、2、3表示,四种不同温度分别用1、2、3、 4表示。factorlfactorsresult111132111031212图1.1 SPSS数据文件格式1.2基本思路(1)设“浓度对收率的影响不显著”为零假设 H。,利用单因素方差分析,对 该假设进行判定。 设“它们间的交互作用对收率没有显著影响”分别依次为假设 H。,则可 以通过多因素方差分析工具,利用得出的结果即能证明假设 H。是否成立。1.3操作步骤(1)单因素的方差分析操作1分析一比较均值一单因素;因变量列表:收率;因子:浓度;2两两比较:选中“ LSD”复选框,定义用LSD法进行多重比较检
3、验;显 著性水平:0.05,单击“继续”;3选项:选中“方差齐次性检验”,单击“继续”;4单击“确定”。(2)有交互作用的两因素方差分析操作1分析一一般线性模型一单变量;因变量:收率;固定因子:温度、浓度;2绘制。水平轴:factorl,选择浓度作为均值曲线的横坐标,单图:factor2, 选择温度作为曲线的分组变量;单击添加一继续。3选项。显示均值:factorl,定义估计因素1的均值;显著性水平:0.05; 单击“继续”;4单击“确定”。1.4结果分析(1)“浓度对收率有无显著影响”结果分析执行上述操作后,生成下表。表1.1方差齐性检验收率Leve ne统计量df1df2显著性.35222
4、1.708表1中Levene统计量的取值为0.352,Sig.的值为0.708,大于0.05,所以认为各组的方差齐次。表1.2单因素方差分析收率平方和df均匀方F显著性组间39.083/19.5425.074.016组内80.875213.851总数119.9582-从表2可以看出,观测变量收率的总离差平方和为 119.58;如果仅考虑浓度 单因素的影响,则收率总变差中,浓度可解释的变差为 39.083,抽样误差引起的 变差为80.875,它们的方差分别为19.542、3.851,相除所得的F统计量的观测值 为5.074,对应的概率P值为0.016,小于显著性水平0.05,则应拒绝原假设,认为
5、 不同浓度对收率产生了显著影响,它对收率的影响效应不全为 0。表1.3多重比较因变量:收率LSD95%置信区间(I)浓度(J)浓度均值差(I-J)标准误显著性下限上限A1A22.500*.981.019.464.54A3-.375.981.706-2.421.67A2A1-2.500*.981.019-4.54-.46A3-2.875*.981.008-4.92-.83A3A1.375.981.706-1.672.42A22.875*.981.008.834.92*.均值差的显著性水平为 0.05。表3是各种浓度之间显著性差异两两比较的结果。从表 3可以看出,浓度A2同其他任意两种浓度比较,其
6、Sig.值都小于0.05,所以认为浓度A2与其他浓 度在收率上有显著差异。而其他两种浓度,可以认为其浓度的不同对收率的影响 不大。(2) “浓度、温度及其相互作用对收率的影响”结果分析 执行上述操作后,生成下表。表1.4两因素方差分析表因变量:收率源III型平方和df均方FSig.校正模型70.458a116.4051.553.230截距2667.04212667.042646.556.000factor139.083219.5424.737.030factor213.79234.5971.114.382factor1 * factor217.58362.931.710.648误差49.500
7、124.125总计2787.00024校正的总计119.95823a. R 方=.587 (调整 R 方=.209)表4为两因素方差分析表,表中第一行“校正模型”代表对方差分析模型的 检验,Sig值为0.230.05,说明模型不适用。观测变量的总方差 119.958,它被 分解为五个部分,分别由浓度不同引起的变差 39.083,由温度差异引起的变差13.792,由浓度和温度的交互作用引起的变差 17.583,由随机因素引起的变差为49.500。这些变差除以各自的自由度后,得到各自的均方,并可计算出 F统计量的观测值和对应的概率p值。 Ffactorl、Ffactor2、 Ffactor1,fa
8、ctor2 的概率p值分别为0、 0.382、0.648。由于Ffactori的概率p值小于显著性水平0.05,则应拒绝零假设, 认为不同浓度对收率有显著影响。而 Ffactor2、Ffactorl,factor2 的概率p值均大于0.05, 因此不应拒绝原假设,可以认为不同温度对收率的影响没有显著差异, 浓度和温度的交互作用对收率的影响也不显著。表5代表浓度在各水平下的均值、标准误 均值及95%的置信区间表1.5浓度的均值因变量:收率浓度均值标准误差95%置信区间下限上限A111.250.7189.68512.815A28.750.7187.18510.315A311.625.71810.0
9、6013.190图1.2两因素交互影响的均值图上图为两因素交互影响的均值图,横坐标代表浓度,纵坐标代表收率均值, 且按温度绘制不同的折线。从图形上看,这些折线近似平行,可以认为两因素的 交互作用不显著。1.5结论综上,不同浓度对收率有显著影响,而不同温度对收率的影响没有显著差异, 浓度和温度的交互作用对收率的影响也不显著。二、第9题回归分析42.1基本思路本例中被解释变量为课题总数 X5,解释变量为投入人年数X2、投入科研事 业费X4、论文数X7、获奖数X8。建立多元回归模型,利用回归方程的统计检 验对建立的多元回归模型进行检验, 首先对解释变量采取强行进入策略, 分析他们之间的线性关系以及多
10、重共线性; 然后对解释变量采用向前筛选策略, 做方差齐性和残差的自相关性检验。2.2操作步骤(1)分析一回归一线性;因变量:课题总数 X5;自变量:投入人年数 X2、 投入科研事业费X4、论文数X7、获奖数X8 ;方法:进入;(2)统计量:选中回归系数“估计”、模型拟合度、共线性诊断、残差Durb in-Wats on;(3)单击“确定”,生成表 2.1、表2.2、表2.3、表2.4;(4)同步骤(1);(5)点击“绘制” ,X坐标为标准化预测值ZPRED,Y坐标为DRESID,在 标准化残差图中选“正态概率图”,点击“继续”按钮,进行残差均值和方差齐 性检验;点击“保存”中选择保存标准化预测
11、值、标准化残差;(6)菜单一分析一相关一双变量,在变量框选择标准化残差、标准化预测值 相关系数一Spearman(7)点击“确定”按钮。2.3结果分析表2.1模型汇总b模型RR方调整R方标准估计的误差Durbi n-Wats on1a.968.937.927226.58201.776a.预测变量:(常量),获奖数,投入科研事业费(百兀),论文数,投入人年数。b.因变量:课题总数由上表可看出,该方程中有多个解释变量,依次应参考调整的判断系数。由 于调整的判定系数0.927较接近于1,因此认为拟合优度较高,被解释变量可以被 模型解释的部分较多,未能被解释的部分较少。并且 Durbi n-Watso
12、n为1.776在 1.5和2.5之间,因而可以用线性回归模型来拟合数据。表2.2 Anova a模型平方和df均方FSig.1回归19741985.31144935496.32896.135.000b残差1334824.6892651339.411总计21076810.00030a.因变量:课题总数b.预测变量:(常量),获奖数,投入科研事业费(百兀),论文数,投入人年数。上表是立项课题数多元线性回归分析的结果。 可以看出,被解释变量的总离差平方和,回归平方和及均方分别为 21076810.00Q 19741985.311和1334824.689, 检验统计量的观测值为96.135,对应的概率
13、p值近似为0.依据该表可进行回归方程 的显著性检验,若显著性水平a为0.05,由于概率p值小于a,应拒绝回归方程 显著性检验的假设,认为各回归系数不同时为 0,被解释变量与解释变量全体的线性关系是显著的。表2.3系数a模型非标准化系数标准系数tSig.共线性统计量B标准误差试用版容差VIF1(常量)-29.79173.047-.408.687投入人年数.553.1021.0795.411.000.06116.325投入科研事业费(百元).002.001.1521.525.139.2464.069论文数-.088.045-.348-1.934.064.07513.309获奖数.716.452.1
14、201.586.125.4252.355a.因变量:课题总数依据表2.3可以进行回归系数显著性检验,从表中可以看到,若显著性水平a为0.05,除了投入人年数外,其余变量的回归系数显著性 t检验的概率p值均大于0.05,因此不应拒绝零假设,故认为他们与被解释变量的线性关系是不显著的,不应该保留在方程中模型维数特征值条件索引方差比例(常 量)投入人年数投入科研事业费(百元)论文数获奖数114.2731.000.01.00.01.00.012.3693.401.54.00.13.00.003.2773.925.14.00.09.00.544.0677.987.31.07.59.13.415.0131
15、8.195.00.93.17.87.04a.因变量:课题总数表2.4共线性诊断a依据表2.4可以进行共线性检测。从方差比来看,第5个特征根既能解释投入 人年数方差的93%,也可以解释论文数方差的87%,因此有理由认为这些变量之 间是存在多重共线性的;再从条件指数来看,第 5个条件指数大于10,说明变量 间确实存在多重共线性。(2)備2图2.3课题总数表2.5相关系数Stan dardizedPredicted ValueStan dardizedResidualSpearma n 的rhoStan dardized PredictedValue相关系数1.000-.176Sig.(双侧).34
16、4N3131Stan dardized Residual相关系数-.1761.000Sig.(双侧).344N3131从表2.5中对标准化残差进行检验,Durbin-Watson( 1.747)在1.5和2.5之间,因而残差序列相对独立。从图(1)中看到数据点围绕基准线还存在一定的规律行, 可利用非参数检验方法对标准化残差再进行检验。从图 (2)中可以看出,随着标准化预测值的变化,残差点在0线周围随机分布,但残差的等方差性并不完全满 足,方差似乎有增大的趋势。从表2.5中可以看到,残差与预测值的spearman等级 相关系数为-0.176,且检验并不显著,因此认为异方差现象并不明显。2.4结论
17、根据以上分析结果,可知影响高校课题总数的因素,如投入人年数、投入科 研事业费、论文数、获奖数等因素间存在多重共线性。三、第12题聚类分析23.1求解思路因为要在相似变量中选择少数具有代表性的变量参与其他分析,因此选用 SPSS层次聚类的R型聚类进行分析。个体距离采用欧式距离,类间距离采用平 均组间链锁距离,并输出树状图、冰柱图。3.2操作步骤(1)选择菜单分析一分类一系统聚类;(2)将8个变量添加到变量框中,在聚类方法中选择变量,采用 R型聚类;(3)在“统计量”对话框中,选择合并进程表和相似性矩阵,并在聚类成员 中选择方案范围为最小聚类数2,最大聚类数4;在“绘制”对话框中勾选上“树状图”;
18、(5)在“方法”对话框中聚类方法选择“组间联接,区间采用Euclidean距离;(6)单击“确定”,进行层次聚类分析。3.3结果分析表3.1群集聚类表防首次岀现砂辭集下一阶m 1Sft 2群隼1群集21245.3440032355.7060043267.2521064317.3092055134661214.55253771g15.253600表3.2群集成员表案例4群集3群集2群京意犬利111韩国221罗马尼U311迭国221中国311美国221俄罗斯311si心观衣432由表3.1可看出,第一步将2和4合并为一组,此组将在第三步中出现;第二 步将3和5合并为一组,此组将在第四步中出现;其他
19、同理;最后在第七步,将所 有组合并为一组。由表3.2可看出,分成4组的话,第一组为意大利;第二组为韩国、法国、美 国;第三组为罗马尼亚、中国、俄罗斯;第四组为热心观众。其他群集同理。图3.1冰柱图由冰柱图可看出,当聚成7类时,法国和韩国为一类,其他裁判各为一类; 当聚成6类时,法国韩国为一类,中国和罗马尼亚为一类,其他裁判各为一类; 当聚成5类时,美国、法国、韩国为一类,中国和罗马尼亚为一类,其他裁判各 为一类;当聚成4类时,美国、法国、韩国为一类,俄罗斯、罗马尼亚、中国为 一类,意大利和热心观众各为一类;当聚成 3类时,热心观众为一类,美国、法 国、韩国为一类,其他国家为一类;当聚成两类时,
20、热心观众为一类,其他国家 为一类。图3.2树状图由树状图可看出:第一步(2,4)以及(3,5)各合并为一组;第二步(2,4) 和6合并为一组,(3,5)和7合并为一组;第三步(3,5,7)和1合并为一组;第四 步(2,4,6)和(1,3,5,7)合并为一组;第五步,所有裁判合并为一组。3.4结论由以上结果可看出,若将裁判分成4组,意大利裁判独自分成一组,说明了 其打分标准与其他裁判存在很大的差异性; 热心观众也是独自分成一组,其打分标准也与其他裁判存在很大的差异性;韩国、美国、法国分成一组,说明这三个 国家的裁判打分具有相似性;罗马尼亚、中国、俄罗斯分成一组,说明这三个国 家的裁判打分也具有相
21、似性。需要选出4个具有代表性的裁判,那么一定会选择意大利、热心观众,第三 位可以从韩国、美国、法国中选一个,第四位可以从罗马尼亚、中国、俄罗斯中 选一个。为了确定第三位和第四位裁判具体哪个国家,可分别计算他们的复相关系数, 并选择复相关系数最高的作为代表。第3类的复相关系数分别为:韩国裁判与(法 国裁判,美国裁判)为0.949,法国裁判与(韩国裁判,美国裁判)为 0.944,美 国裁判与(韩国裁判,法国裁判)为0.930,因此可选韩国裁判作为代表;第4类的各复相关系数分别为:罗马尼亚裁判与(中国裁判,俄罗斯裁判)为 0.943, 中国裁判与(罗马尼亚裁判,俄罗斯裁判)为 0.941,俄罗斯裁判
22、与(罗马尼亚 裁判,中国裁判)为0.946,因此可选俄罗斯裁判作为代表。综上,最终的裁判为:第一位为意大利,第二位为热心观众,第三位为韩国, 第四位为俄罗斯。四、第16题SPSS应用实例4.1问题说明该实例是关于公交站点停靠时间预测模型。主要研究公交在站点停靠时间与 上下车人数之间的关系。首先调研并处理相关数据,得到公交站点停靠时间与上 下车人数等数据;然后利用回归分析得到公交站点上下车时间预测模型; 最后利用SPSS回归分析用时最长车门乘客上下车时间与站点停靠时间的关系,确定公 交站点停靠时间预测模型。4.2数据来源北京市 23 条公交线路(85、320、323、332、355、365、38
23、4、653、683、 689、697、699、717、718、801、808、814、698、特 4、特 6、运通 105、运通 10、运通205)中46个站点高峰时段公交车辆停站数据。 原始数据如下图所示。图4.1实例原始数据4.3统计方法回归分析法,同时采用曲线估计中的五种函数:对数、线性、幕、S-型曲线、 指数等,其中线性又分为二次和三次。其中,主要操作步骤为:菜单一分析一回归一曲线估计4.4统计结果根据在SPSS得出各曲线回归结果,汇总如下。图4.2六种曲线回归结果表4.1停靠站时间回归函数的 R2函数类型对数函数二次曲线三次曲线幂函数S-型曲线指数函数R20.7150.9010.9010.8980.6070.743由上表可看出,六种函数中,二次函数和三次函数的R2值最高,达到0.901。 但从回归曲线图中可以看出,二次函数回归曲线更接近观测数据值, 而且简易实 用,所以选择二次函数作为公交站点停靠时间与用时最长车门乘客上下车时间关 系模型。4.5结论在分析公交站点停靠时间预测模型时,采用 SPSS中六种不同函数模型进行 回归分析,根据回归结果,二次曲线拟合度最高,能更准确描述公交停靠时间及 上下车人数之间的关系,最终选择二次曲线作为公交站点停靠时间模型。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1