spss实验报告.docx
《spss实验报告.docx》由会员分享,可在线阅读,更多相关《spss实验报告.docx(9页珍藏版)》请在冰豆网上搜索。
spss实验报告
spss实验报告
《统计分析与SPSS的应用》学院(系)专业名称班级姓名学号实习地点起止时间2015年5月至2015年7月
实验内容:
11统计数据的收集与预处理11.1数据文件的编辑11.1.1数据文件的合并数据文件的合并是把外部数据与当前数据合并成一个新的数据文件,SPSS提供两种形式的合并:
一是横向合并,指从外部数据文件中增加变量到当前数据文件中;二是纵向合并,指从外部数据文件增加观测数据到当前文件中。
横向合并即增加变量,而增加变量有两种方式:
一是从外部数据文件中获取变量数据,加入当前数据文件中;二是按关键变量合并,要求两个数据文件有一个共同的关键变量,而且两个数据文件的关键变量中还有一定数量相同值的观测值。
11..21.2数据文件的拆分拆分并不是要把数据文件分成几个,而是根据实际情况,根据变量对数据进行分组,为以后的分组统计提供便利。
例2-2实验步骤:
打开data2-2.sav→点击菜单栏的数据,拆分文件,弹出“分割文件”→按照产品类型拆分数据,选择“比较组”,激活“分组方式”栏。
选中“产品”变量移入其中,单击“确定”按钮结束。
点击菜单“分析→描述性统计→描述„”,弹出“描述性”对话框,选择变量“金额”,“数量”进行分析,单击“选择”按钮设置要计算的统计量,统计金额和数量的和,设置好后单击确定按钮,得到表1所示的统计量:
表表11描述统计量产品N极小值极大值和均值标准差彩电数量4125014436.0016.573金额438400160000460800115200.0053033.826有效的N(列表状态)4空调数量13333.00.金额19600960096009600.00.有效的N(列表状态)1热水器数量211243517.509.192金额225300552008050040250.0021142.493有效的N(列表状态)2微波炉数量21242512.5016.263金额22100504005250026250.0034153.258有效的N(列表状态)2洗衣机数量25485326.5030.406金额21100010560011660058300.0066892.302有效的N(列表状态)2从表1可以得出彩电、空调、热水器、微波炉、洗衣机的数量、金额的极大值、极小值、和、均值标准差这四个描述性统计量是多少。
31.1.3数据的加权SPSS的观察量加权功能是在数据文件中选择一个变量,这个变量力的值是相应的观测量出现的次数,这个变量叫做权变量,经过加权的数据文件叫做加权文件。
例2-3实验步骤:
打开data2-3.sav→选择数据,加权个案→选择“加权个案”,激活“频率变量”矩形框,把“工人数”变量移入框中。
选择“分析”,描述统计→描述,进行产品数量总和的统计,统计结果如表2所示:
可以看出产品数量的极大值、极小值、和、均值、标准差这四个描述性统计量。
表表22描述统计量N极小值极大值和均值标准差产品数量1182030285424.193.883有效的N(列表状态)1181.2SSPSS数据加工1.21.1变量的计算例2-4实验步骤:
打开data2-4sav→选择“转换”,计算变量,弹出“计算变量”窗口→在“目标变量”框中输入目标变量名“总分”→从左边的变量列表窗口中选择用于计算的变量并加入“数学表达式”框中,并乘以相应的系数即可。
22图表的创建与编辑22..11使用图表构建程序创建使用图表构建程序创建图表,是SPSS现在推崇的主要操作方式,该方式使用预览模式通过图库或基本元素设计图表,让用户所见所得,可以提高创建图形的效率,减少一些不可预见的错误。
例3-1实验步骤:
打开data3-1.sav→选择菜单:
“图形”,图表构建程序,弹出“图表构建程序”对话框→选择“库”选项卡,点击“条(B)”中第二项“群集条形图”图标→把年份拖入“是否为X轴”虚线框中作为条形图的X轴;把指标值“是否为Y轴”虚线框,作为条形图的Y
轴;把指标拖入“X轴上的分群:
设置颜色”虚线框中,作为复合分类变量→选择标题/脚注,点击标题1,设置标题“第一、二、三产业各年产值比较图”→点击确定按钮。
得到如图2:
可以从图中得到信息:
自1978年以来,这三种产业的产值都在增加;每年第二产业的产值都是最高,第三产业次之,第一产业的产值最少。
图图22第一、二、三产业各年产值比较图22.2使用图形画板模板选择程序创建打开data3-1.sav→选择菜单:
图形,点击“图形画板模板选择程序”→在“基本”选项卡中,同时选中年份和指标值进行可视化表示,在摘要中选择“均值”→在“详细”选项卡中,X轴设置为“年份”,Y轴设置为“指标值”,面板横跨中选择“指标”→单击确定按钮,如图3:
图图33可视化输出图形结果32.3使用旧对话框创建和前面两种创建图形方式相比,旧对话框方式缺少灵活性和直观性,但可以对生成的图形进一步编辑。
例3-2实验步骤:
打开data3-2.sav→选择“图形”,旧对话框,线图中的多线线图→单击“定义”,在弹出的对话框中,指标值放入“变量(V)”中,“年份”放入“类别轴(X),“指标分类”放入“定义线的方式(D)→确定,得到图4:
图图44结果图形从图4可以得到如下信息:
从1990年开始,特快专递、移动电话业务呈逐年上升的趋势,特别是特快专递到2006-2007年期间,业务增长迅猛。
固定电话业务在1990-2006期间呈上升趋势,但2006-2007年期间有下降趋势。
33描述性统计分析描述集中趋势的统计量有均值、中位数、众数、总和、百分位数;描述离散程度的统计量有样本方差、样本标准差、均值标准误差、极差;描述总体分布形态的统计量有偏度、峰度。
13.1频率分析例4-1实验步骤:
打开data4-1.sav→选择菜单,“分析-描述性统计-频率→在弹出的“频率”对话框中,把收入、教育放入“变量(V)”框中→点击统计量,在百分位值中选择百分位数,在百分位数中添加30、60、90;集中趋势中选择“众数”统计量,点击继续→点击图表,选中直方图,同时选中“在直方图上显示正太曲线”,点击继续→确定得到以下图表:
表33统计量收入教育N有效836835缺失01众数35百分位数303.004.00604.005.00907.005.00表44变量“收入”的频率分布标表频率百分比有效百分比累积百分比有效02.2.2.218710.410.410.6215218.218.228.8315718.818.847.6413716.416.464.058810.510.574.568510.210.284.77526.26.290.9
8273.23.294.1991.11.195.21081.01.096.211323.83.8100.0合计836100.0100.0表55变量“教育”频率分布表频率百分比有效百分比累积百分比有效181.01.01.02394.74.75.6311413.613.719.3416519.719.839.0545654.554.693.76536.36.3100.0合计83599.9100.0缺失系统1.1合计836100.0图55变量“收入”的直方图图图66变量“教育”的直方图表4变量“收入”的频率分布标表可以看出受访者家庭收入在“2000-2999”的人最多。
从图5和图6,受访者教育程度同正态分布相比左偏,受访者家庭收入的分布右偏,都不是明显的正态分布。
23.2描述性分析描述性分析主要是用于计算并输出变量的各类描述性统计量,和频率分析相
比,没有图形功能,也不能生成频率表,但它可以将原始数据标准化,以便后续分析时应用。
例4-2实验步骤:
打开data4-2.sav→依次点击分析、描述统计、描述,打开“描述性”主对话框→把身高作为变量移入候选变量框中,在“选项”子对话框中选择均值、标准差、最大值、最小值、峰度、偏度这几个描述性性统计量→确定得到表6表66描述统计量N极小值极大值均值标准差偏度峰度统计量统计量统计量统计量统计量统计量标准误统计量标准误体重96133018.233.0071.163.2461.849.488有效的N(列表状态)96表6包括了身高的个数、极值、均值、标准差、偏度和峰度信息,输出的统计量中,方差和标准差越小越好,说明该组数据趋于稳定。
44参数估计与假设检验14.1单样本TT检验单样本T检验利用来自某总体的样本数据,推断该总体的均值与指定的检验值之间是否存在显著性差异,它是对总体均值的假设检验。
例5-2的实验步骤:
打开data5-1.sve→选择菜单“分析→比较均值→单样本T检验(S)”,打开“单样本T检验”对话框,将变量“weight”移入”检验变量”列表框,并输入检验值500→打开“单样本T检验:
选项”对话框,设置置信区间为95%(缺省为95%)→确定。
运行结果如表7和表8所示:
表77单个样本统计量StatisticBootstrapa偏差标准误差95%置信区间下限上限weightN10均值500.8000-.08101.6784497.4533504.1467标准差5.39135-.38267.974862.998156.95100均值的标准误1.70489表88单个样本检验检验值=500tdfSig.(双侧)均值差值差分的95%置信区间下限上限weight.4699.650.80000-3.05674.6567表7给出了单样本T检验的描述性统计量,包括样本数(N)、均值、标准差、
均值的标准误。
表8:
当置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.650,大于0.05,故原假设成立,也就是说,抽样袋装食盐的质量与500克无显著性差异,有理由相信生产线工作状态正常。
4.22独立样本TT检验单样本T检验是检验样本均值和总体均值是否有显著性差异,而两独立样本T检验的目的是利用来自某两个总体的独立样本,推断两个总体的均值是否存在显著差异。
例5-3实验步骤:
打开data5-2.sav→选择菜单“选择→比较均值→独立样本T检验”,打开“独立样本T检验”对话框,将“产量”作为要进行T检验的变量,将“品种”字段作为分组变量,定义分组变量的两个分组分别为“a”和“b”→打开“独立样本T检验:
选项”对话框,具体选项内容及设置与单样本T检验相同→确定得到表9和表10:
表99组统计量玉米品种N均值标准差均值的标准误单位面积产量品种A881.250011.804964.17368品种B875.750010.024973.54436表10独立样本检验方差方程的Levene检验均值方程的t检验FSig.tdfSig.(双侧)均值差值标准误差值差分的95%置信区间下限上限单位面积产量假设方差相等.104.7521.00414.3325.500005.47560-6.2439817.24398假设方差不相等1.00413.642.3335.500005.47560-6.2729717.27297根据表10“方差方程的Levene检验”中的sig.为0.752,远大于设定的显著性水平0.05,故本例两组数据方差相等。
在方差相等的情况下,独立样本T检验的结果应该看上表中的“假设方差相等”一行,第5列为相应的双尾检测概率(Sig.(双侧))为0.332,在显著性水平为0.05的情况下,T统计量的概率p值大于0.05,故不应拒绝零假设,,即认为两样本的均值是相等的,在本例中,不能认为两种玉米品种的产量有显著性差异。
55方差分析551.1单因素方差分析
单因素方差分析检验由单一因素影响的一个(或几个相互独立的)因变量,由因素各水平分组的均值之间的差异,是否具有统计意义,或者说它们是否来源来同一总体。
例6-1实验步骤:
①、方差相等的齐性检验:
选择菜单“分析→均值比较→单因素ANOVA”,打开“单因素方差分析”对话框→把猪重作为因变量,饲料品种作为控制变量→点击选项,弹出选项对话框,选择“方差同质性检验”→确定得到表和表。
②多重比较分析、:
单击“两两比较(H)按钮,弹出两两比较对话框,选择LSD最小显著性差异→确定得到表表表111方差齐性检验猪重Levene统计量df1df2显著性.024315.995方差齐性检验的H0假设是:
方差相等。
从表11可看出相伴根据Sig.=0.995>a(0.05)说明应该接受H0假设(即方差相等)。
故下面就用方差相等的检验方法。
表12ANOVA猪重平方和df均方F显著性组间20538.69836846.233157.467.000组内652.1591543.477总数21190.85818表12是几种饲料方差分析的结果,组间平方和为20538.698,自由度(df)为3,均方为6846.233;组内平方和为652.159,自由度为15,均方为43.477;F统计量为157.467。
由于组间比较的相伴概率Sig.(p值)=0.000<0.05,故应拒绝H0假设(四种饲料喂猪效果无显著差异),说明四种饲料对养猪的效果有显著性差异。
表13多重比较猪重LSD(I)饲料品种(J)饲料品种均值差(I-J)标准误显著性95%置信区间下限上限12-18.68000*4.17024.000-27.5687-9.79133-56.36000*4.17024.000-65.2487-47.47134-87.41500*4.42321.000-96.8428-77.98722118.68000*4.17024.0009.791327.56873-37.68000*4.17024.000-46.5687-28.79134-68.73500*4.42321.000-78.1628-59.30723156.36000*4.17024.00047.471365.2487237.68000*4.17024.00028.791346.56874-31.05500*4.42321.000-40.4828-21.62724187.41500*4.42321.00077.987296.8428268.73500*4.42321.00059.307278.1628
331.05500*4.42321.00021.627240.4828*.均值差的显著性水平为0.05。
552.2协方差分析协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。
例6-3实验步骤:
选择菜单“分析→一般线性模型→单变量→数学成绩作为因变量,分组作为固定变量,入学成绩移入协变量→打开“模型”对话框,把“entrance”、“group”和entrance*group移入模型中,在类型中选择“交互”→打开“选项”对话框,选中“方差齐性检验”复选框,点击确定按钮结果如下表14所示:
表14误差方差等同性的Levene检验aa因变量:
数学成绩Fdf1df2Sig.2.337215.131检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+group+entrance+group*entrance表15主体间效应的检验因变量:
数学成绩源III型平方和df均方FSig.校正模型3757.122a5751.4246.040.005截距862.8171862.8176.935.022group104.163252.082.419.667entrance.4671.467.004.952group*entrance61.932230.966.249.784误差1492.87812124.406总计112898.00018校正的总计5250.00017表表16TestsofBetween-SubjectsEffectsDependentVariable:
数学3695.190a31231.73011.091.0011387.82411387.82412.496.0038.85718.857.080.7823364.08321682.04115.146.0001554.81014111.058112898.000185250.00017SourceCorrectedModelIntercept入学成绩组别ErrorTotalCorrectedTotalTypeIIISumofSquaresdfMeanSquareFSig.RSquared=.704(AdjustedRSquared=.640)a.表14是方差的齐性检验结果,由于其相伴概率值Sig.=0.131>0.05,因此认为各组的方差具有齐性。
表15是检验控制变量与协变量是否具有交互作用,
从其中可看出group与entrance的交互作用项Sig.=0.784>0.05,因此认为它们之间没有交互作用。
可以看出入学成绩的影响是不显著的,而教学方法的影响是显著的。
66相关分析661.1两变量相关分析二元变量的相关分析是指通过计算变量间两两相关的相关系数,对两个或两个以上变量之间两两相关的程度进行分析。
例7-1实验步骤:
选择菜单“分析→相关→双变量”,打开“双变量相关”对话框→将“father”和“son”移入变量框中,选择双侧检验,相关系数选择“person”→在选项对话框中选择均值和标准差、叉积偏差和协方差→确定,得到表17:
表17相关性父亲身高儿子身高父亲身高Pearson相关性1.703*显著性(双侧).011平方与叉积的和84.66740.333协方差7.6973.667N1212儿子身高Pearson相关性.703*1显著性(双侧).011平方与叉积的和40.33338.917协方差3.6673.538N1212*.在0.05水平(双侧)上显著相关。
从表17中可看出,相关系数为0.703>0,说明呈正相关,而相伴概率值Sig.=0.005<0.05,因此应拒绝零假设(H0:
两变量之间不具相关性),即说明儿子身高是受父亲身高显著性正影响的。
662.2偏相关分析偏相关分析的任务就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量,这种相关系数称为偏相关系数。
例7-3实验步骤:
选择菜单“分析-相关-双变量”,打开“偏相关”对话框→把“hgrow”和“temp”作为分析变量,“rain”、“hsun”、“humi”设为控制变量→确定,得到表18:
表1188相关性控制变量生长量月平均气温月降雨量&月平均日照时数&月平均湿度生长量相关性1.000.977显著性(双侧)..000df07
月平均气温相关性.9771.000显著性(双侧).000.df70从表18可以看出,月降雨量、月平均日照时数和月平均湿度为控制变量,生长量与月平均气温关系密切,偏相关系数为0.977,双尾检测的相伴概率为0.000(表示趋近于0的正数),明显小于显著性水平0.05。
故应拒绝原假设,说明中山柏的生长量与气温间存在显著的相关性。
77回归分析771.1一元线性回归分析线性回归假设因变量与自变量之间为线性关系,用一定的线性回归模型来拟合因变量和自变量的数据,并通过确定模型参数来得到回归方程。
根据自变量的多少,线性回归可有不同的划分。
当自变量只有一个时,称为一元线性回归,当自变量有多个时,称为多元线性回归。
例8-1实验步骤:
①作散点图,观察两个变量的相关性:
依次选择菜单“图形→旧对话框→散点/点状→简单分布”,并将“国内生产总值”作为x轴,“财政收入”作为y轴,得到图。
②选择菜单“分析→回归→线性”,打开“线性回归”对话框,将变量“财政收入”作为因变量,“国内生产总值”作为自变量。
③打开“统计量”对话框,选上“估计”和“模型拟合度”。
④单击“绘制(T)„”按钮,打开“线性回归:
图”对话框,选用DEPENDENT作为y轴,*ZPRED为x轴作图。
并且选择“直方图”和“正态概率图”⑤作相应的保存选项设置,如预测值、残差和距离等。
图图77表表919方差分析表模型平方和df均方FSig.1回归1.557E911.557E9592.250.000a残差34187286.770132629791.290总计1.592E914a.预测变量:
(常量),国内生产总值。
b.因变量:
财政收入表表020回归系数表
模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-4993.281919.356-5.431.000国内生产总值.197.008.98924.336.000从表19中可以看出,F统计量的观测值为592.25,显著性概率为0.000,即检验假设“H0:
回归系数B=0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。
从表20中可看出,回归模型的常数项为-4993.281,自变量“国内生产总值”的回归系数为0.197。
因此,可以得出回归方程:
财政收入=-4993.281+0.197*国内生产总值。
回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。
实验体会:
这几周对SPSS统计软件的学习,使我更好的掌握了统计学的知识。
SPSS统计软件为统计数据处理,图表的创建与编辑、描述性统计分析、参数估计与假设检验、方差分析、相关分析和回归分析等带来了极大的方便,相对与EXCEL对数据的处理功能。
操作上更加简便,也通俗易懂。
这段时间的学习,让我对于学习态度有很大的改变。
当遇到繁琐的问题,老师总是不厌烦给我们重新讲统计学的知识,在EXCEL为我们演示计算的每个步骤。
我们缺少的就是这种耐心和严谨的治学态度,这点值得我们去学习。
还有遇到不懂的问题,主动去书本上寻找知识,做到查漏补缺。