SPSS讲义文档格式.docx

资源描述

SPSS讲义文档格式.docx

《SPSS讲义文档格式.docx》由会员分享，可在线阅读，更多相关《SPSS讲义文档格式.docx（24页珍藏版）》请在冰豆网上搜索。

SPSS讲义文档格式.docx

3、View（视图）菜单

视图菜单提供了开关状态栏、工具栏、内容区网格线等5条命令。

4、Data（数据）菜单

提供有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等。

5、Transform（数据转换处理）菜单

数据转换处理菜单提供有关数值的计算、重新赋值、缺失值替代等。

6、Analysis（分析）菜单

提供一系列的统计方法的应用。

7、Graphs（作图）菜单

提供统计图的绘制。

8、Utilities（实用程序）菜单

提供了变量信息、文件信息、定义设置、用户设置和自动增加新个案5个命令。

9、Windows（窗口）菜单

提供了变换窗口大小、编辑窗口等功能。

10、Help（帮助）菜单

提供SPSS的帮助文件。

（3）工具栏

每一个窗口都将一些常用命令组织在一起以工具栏按钮的形式出现，用户只需单击某个按钮就可以执行相应的命令，是一种更快、更容易的操作方式。

（4）滚动条

分别位于窗口的底部和右侧，为水平滚动条和垂直滚动条。

（5）工作区

窗口中间的部分就是用户工作区，SPSS不同类型的窗口有不同的工作区，用户可以在工作区建立数据文件、定义变量等。

（6）状态栏

位于窗口的最底端，当执行某项操作时，状态栏显示该操作有关的提示信息。

四、数据文件的建立和整理

打开SPSS，在窗口底端有两个界面，分别是DataView和VariableView。

（1）DataView界面，是用户进行数据输入、数据编辑、数据文件整理的界面。

（2）VariableView界面，是用户定义数据文件的变量界面。

如下图：

在数据输入时，应该先在VariableView界面里定义变量的名称、性质、长度等，再在DataView界面里输入数据。

五、SPSS在统计中的应用

主要介绍Analysis（分析）菜单的几个统计分析功能

（1）基本统计分析功能——DescriptiveStatistics

（2）相关分析功能——Correlate

（3）回归分析和预测功能——Regression

（4）聚类分析功能——Classify

统计分析的一般步骤：

（一）利用SPSS做描述统计

一些描述统计量的含义：

1、平均数：

一组数据中所有数据的平均数叫做这组数的平均数，一组数据x1，x2，…，xn其平均数是

。

2、众数：

　一组数据中，出现次数最多的数据叫做这组数据的众数。

3、中位数：

将一组数据按大小依次排列，把处在最中间位置的一个数据（或最中间两个数据的平均数）叫做这组数据的中位数.。

*需要注意的几个问题：

（1）平均数大小与一组数据中的每一个数据都有关，它反映一组数据的平均大小。

（2）中位数与数据排列位置有关，且中位数是唯一的，它可以不是数据中的数。

（3）众数的大小只与一组数据中的部分数据有关；

一组数据的众数可以有一个或一个以上，也可能没有。

4、方差和标准差

方差和标准都是用来描述一组数据波动情况的特征数，常用来比较两组数据的波动

大小，方差较大的波动较大，方差较小的波动较小，样本中各数据与样本平均数的差的平方的平均数叫做样本方差.

　　方差的计算公式：

　　样本方差的算术平方根叫做样本标准差.

　标准差的计算公式：

*均值、中位数、众数反映数据的集中趋势，它们所反映的是各数据向中心值聚集的程度；

方差、标准差、最大最小值等等是反映数据的离散程度，它们反映的是各数据远离中心值的程度。

用这两种测度方法可以全面地反映数据的特征。

数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差，离散程度越小，其代表性就越好。

SPSS描述统计分析的操作步骤：

1、在SPSS窗口输入变量和数据；

2、在菜单栏上选择Analyze→DescriptiveStatistics→Frequencies；

3、将变量放入变量栏内；

4、单击Statistics（统计），出现Frequencies的Statistics选择框；

在Statistics选择框下选择需要输出的结果，单击Continue，返回Frequencies窗口；

5、在Frequencies窗口下选择Charts绘制统计图；

6、在Frequencies窗口下选择Format，选择输出结果的表格形式。

上机练习：

例1：

用SPSS对历年全省高新技术产品产值和科技活动经费支出总额进行描述统计分析。

年份

全省高技术产品产值（亿元）

全省科技活动经费支出总额（亿元）

1992

147.05

18.91

1993

256.56

27.59

1994

410.95

36.76

1995

673.21

39.82

1996

950.79

1997

1116.1

67.3

1998

1542.1

81.98

1999

2127.3

96.96

2000

2846.8

214.65

2001

3542.1

250.43

输出结果

Statistics

产品产值

经费支出

Valid

Missing

Mean

1361.2960

88.6400

Median

1033.4450

59.6500

Mode

147.05（a）

18.91（a）

Std.Deviation

1149.01753

80.02103

Variance

1320241.28118

6403.36551

Range

3395.05

231.52

Minimum

Maximum

3542.10

Sum

13612.96

886.40

aMultiplemodesexist.Thesmallestvalueisshown

结果分析（略）

（二）用SPSS做相关性分析

1、相关分析的含义

在经济系统中，各个经济变量常常存在密切的关系。

例如，经济增长与财政收入，人均收入与消费支出等。

在这些关系中，有一些是严格的函数关系，这类关系可以用用数学表达式表示出来。

例如，在价格一定的条件下，商品销售额与销售量的依存关系；

还有一些是非确定的关系，一个变量产生变动会影响其他变量，使其产生变化。

其变化具有随机的特性，但是仍然遵循一定的规律。

对于函数关系可以很容易地解决，而对那些非确定的关系，称为相关关系，才是我们所关心的问题。

因为在经济系统中，绝大多数经济变量之间的关系是非严格的、不确定的。

对于这类问题的研究，称为相关分析。

2、相关系数的取值范围及意义

（1）相关系数的取值范围在-1和+1之间，若r为正（即r>

0）则表明两变量为正相关；

若r为负（即r<

0）则表明两变量为负相关。

（2）相关系数r的数值越接近于1（-1或+1），则表明线性相关关系越强；

越接近于0，则表明其线性相关关系越弱

（3）当|r|=1时，表示x与y两变量完全线性相关，即x与y之间存在着函数关系。

（4）当r=0时，表示x与y之间不存在线性相关关系。

一般可用相关系数作如下判断：

（1）|r|<

0.3，无直线相关；

（2）0.3≤|r|<

0.5，称为低度直线相关；

（3）0.5≤|r|<

0.8，称为显著性相关（或中度相关）；

（4）0.8≤|r|，称为高度相关。

SPSS相关分析的操作步骤：

1、在菜单栏选择Analyze→Correlate→Bivariate，出现BivariateCorrelation主对话框。

2、选择各选项后按OK，输出结果。

例子2：

用SPSS对历年全省高新技术产品产值和科技活动经费支出总额进行相关分析。

结果输出：

Correlations

PearsonCorrelation

.967（**）

Sig.（2-tailed）

.000

**Correlationissignificantatthe0.01level（2-tailed）.

结果分析：

PearsonCorrelation是用于测量变量间线性相关关系的相关系数，从结果可以看到，相关系数等于0.967，大于0.8，说明高新科技产品产值和科技经费支出呈正相关关系，而且相关性很高，当科技经费支出增大时，高新科技产品产值也会随之增长。

（三）用SPSS做一元回归分析

回归分析研究的主要对象是客观事物变量间的统计关系。

它是建立在对客观事物进行大量实验和观察的基础上，用来寻找隐藏在看起来不确定的现象中的统计规律的统计方法。

它与相关分析的主要区别为：

一是在回归分析中，变量y称为因变量,处于被解释的特殊地位；

而在相关分析中，变量y和变量x处于平等地位。

二是相关分析中所涉及的变量y与x全是随机变量；

而回归分析中，因变量y是随机变量，自变量x可以是随机变量，也可以是非随机变量。

三是相关分析研究主要是为刻画两类变量间的线形相关的密切程度；

而回归分析不仅要揭示因变量y对自变量x的影响大小，还可以由回归方程进行预测和控制。

SPSS回归分析的操作步骤：

1、线性回归分析；

Analyze→Regression→Linear

2、选择各选项；

3、结果输出。

例子3：

用SPSS对历年全省高新技术产品产值和科技活动经费支出总额进行回归分析。

结果输出分三部分：

1、相关系数

ModelSummary（b）

Model

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

.967（a）

.936

.928

308.98379

aPredictors:

（Constant）,经费支出

bDependentVariable:

产品产值

从结果可以看到，相关系数等于0.967，大于0.8，说明高新科技产品产值和科技经费支出呈正相关关系，而且相关性很高。

2、方差分析

ANOVA（b）

SumofSquares

MeanSquare

Sig.

Regression

11118403.665

116.458

.000（a）

Residual

763767.865

95470.983

Total

11882171.531

方差分析是用于检验模型拟合得好不好，能否较好地反映现实情况。

这里主要看表中的F值以及F值对应的Sig.值，当Sig.值小于0.05时，说明模型能够接受，当Sig.值大于0.05时，说明模型不好。

从上表可以看到，经费支出对应t值的Sig.值等于0.000，远远小于0.05，所以说明这个模型拟合得好。

3、回归系数

Coefficients（a）

UnstandardizedCoefficients

StandardizedCoefficients

Std.Error

Beta

（Constant）

130.105

150.210

.866

.412

13.890

1.287

.967

10.792

aDependentVariable:

从上表可以得到一元线性回归方程：

130.105+13.890x

根据回归方程可以得出，科技产品产值和科技经费支出之间相关密切，当科技经费支出每增长（下降）1％，科技产品产值就增加（减少）13.890％。

表中的t值是对回归模型的检验统计量，当t值对应的Sig.值小于0.05时，说明模型能够接受，当Sig.值大于0.05时，说明模型不好。

从上表可以看到，经费支出对应t值的Sig.值等于0.000，远远小于0.05，所以说明这个模型比较好。

（四）用SPSS做预测

1、预测与科技统计

预测作为一种探索未来的活动早在古代就已经出现，但作为一门科学，则是在上世纪三、四十年代由于科学技术发展才产生并不断发展起来的。

由于新技术、新工艺、新材料、新产品不断涌现，生产和市场竞争越来越激烈，使得人民越来越关心未来的前景，深感预测未来的重要性。

另一方面，科学技术的发展也为预测提供了比较有效的和可靠的预测手段，推动了预测这一门科学的发展，预测已是现代管理不可缺少的手段和工具，已经成为现代管理的重要组成部分。

统计工作最重要的任务就是准确、及时地提供统计数据，科技统计工作的任务是为管理部门及时准确地提供有关科技资源、科技活动、产出的统计数据，为管理部门决策提供信息。

统计与预测的结合可以更好地发挥科技统计的服务功能，圆满完成科技统计的使命。

（1）预测可以缩短提供数据的周期，提高统计系统的运行速度和效率

科技统计是用统计的方法对科学技术活动的规模和结构进行定量的测定，是基于统计调查来认识对象的方法。

这就决定了统计信息的获得具有时间滞后，系统越大越复杂，滞后的时间就越长。

预测可以在历史数据以及调查中获得一些其他信息的基础上，在统计未完成和得到统计数据前进行预测，先提供预测数据，然后再公布正式的统计数据。

统计与预测相结合，相互补充，取长补短，可以明显提高统计系统的运行速度和效率。

（2）预测是对统计数据的进一步开发

预测是对已有统计信息的深度加工，使统计信息资源得到更好地应用和发挥。

统计数据是对以往的以及现在的情况的反映，进行预测可以揭示事物未来发展的方向和趋势，为管理和决策提供重要信息。

通过预测可以避免一些不必要的或是由于时间急迫而无法进行调查，是获取信息的重要方式。

（3）预测可以促进统计工作的发展

预测可以加深对统计对象的认识，加深对已有统计指标的认识，对已有的统计数据质量的认识，预测可以对统计工作提出新的需求，这些都有利于统计工作的不断发展。

2、预测的特点与步骤

（1）预测的基本特征

预测的基本特征可概括为：

科学性、近似性和局限性。

科学性

预测是利用调查和统计资料，通过一定的方法和步骤，以取得未来事物发展的信息——各种可能出现的现象、结果等。

这些信息反映了事物诸因素之间的相互联系和相互制约关系及其程度，在一定程度上反映了事物发展的规律性，所以预测具有科学性。

近似性

预测是对未来事物的估计和推测，走在事物之前。

事物的发展不是简单的重复，总要受到各方面不断变化的因素的影响，事前预计与推测事物的结果，总会与将来事物发生的实际结果存在一定的偏差。

预测出来的数值，同未来事物发生的实际数值不可能完全一致，仅仅是一个近似值。

局限性

预测对象的许多因素往往受到外部、内部各种环境变化的制约，加上人们对未来事物的认识总有一定的局限；

或者由于掌握资料不准确、不全面；

或者对具有许多复杂因素的事物进行预测时，简化了一些影响因素和条件，以致预测结果不能表达事物发展的全体，所以预测出来的信息对事物性质的表达具有一定局限性。

（2）预测误差

预测一定有误差，产生误差的主要原因是：

一是科学技术虽然发展很快，但人类对自然界的认识仍然是十分有限的，很多的规律都没有认识或是认识的不够。

二是，偶然性（或随机性）是事物的重要特征，即事件的发生本身就具有随机的性质。

从这一点说，期望预测结果没有误差本身就是不符合规律性的。

我们只能控制和减小误差，提高预测的准确性。

预测时间的长短

预测未来的时间越长，误差也就越大。

因素的影响

考虑的因素太少或太多都会影响预测的准确性。

考虑的因素过少，特别是对预测结果有影响的因素没有考虑，误差一定会很大。

考虑的因素越多，当预测信息不确切或不完全时，则会造成各种误差的交叉积累，以致使预测失去科学意义。

成熟程度影响

被预测对象发展的成熟程度越低，误差越大。

对于成熟程度很低的新事物，能够预测到一些方向性的特点，就属于高水平了。

实际上，预测应更侧重于对不成熟事物的分析研究与预测。

（3）预测分类，按预测方法的性质

定性预测

根据事物的性质和特点、过去和现状等方面的情况，对事物进行非数量化的分析，根据这些分析对事物的未来发展趋势做出预测和判断。

定性预测主要是依靠人们的主观判断来取得预测的结果。

定性预测方法主要适用于历史数据难以采集、影响变量过多、关系复杂难以建立定量模型以及时间跨度大等宏观战略预测。

定性预测的准确性和可靠性在很大程度上取决于预测者的技术与技巧

定量预测

主要是通过建立数学模型对预测对象进行定量的分析，根据这种量的分析对事物未来发展趋势作出判断和预测。

定量预测不直接依靠人们的主观判断，而是依靠充分历史资料和数据定量分析将来可能出现的结果。

综合预测

指上述两种方法的综合应用，即定量预测和定性预测相结合。

用于管理中的预测通常都是采用定量和定性相结合的方法预测。

（4）定量预测方法

主要有时间序列模型和因果关系模型两大类方法。

时间序列模型

时间序列是一组按时间顺序排列的数，展示了研究对象在一定时期的发展历程与规律。

该方法的特点是依据对象的时间序列的变化特征，研究事物的发展规律，探讨未来发展趋势。

主要方法有滑动平均、指数平滑、分解预测、鲍克斯-詹金斯模型、趋势外推法等。

主要用于中、短期预测。

滑动平均是在算术平均的基础上发展起来的一种方法，其基本思想是：

每次选定一个固定数量的时间序列数据，进行平均，逐次推进，每递推一次就加上后一个数，舍去初始数据再进行平均。

指数平滑是在滑动平均基础上的改进，其特点是给距目前较近的数据以较大的权系数，较远的数据以较小的权系数。

分解预测用于处理存在季节性（周期性）因数情况的预测。

趋势外推法是利用事物过去的发展规律推导未来趋势的方法。

该方法主要分析被预测的变量随时间的变化规律。

因果关系模型

事物发展不仅取决自身发展规律，同时受外界因素影响。

研究被预测的变量与影响因素的定量关系，利用它们之间的关系可以进行预测。

因果关系模型在预测中应用最广，它同时间序列模型不同，不仅可以从事短期预测，而且可以从事中、长期预测。

因果关系模型主要包括：

回归分析、数量经济模型、投入产出模型等。

这里主要介绍因果关系模型中的回归分析法对科技统计数据进行预测。

SPSS操作步骤

2、选择Save项，出现下面的窗口，选择PredictionIntervals（预测区间）。

例子4：

用SPSS对历年全省高新技术产品产值进行预测。

预测区间为[2528.87，4853.34]，可以计算出预测区间的中间值：

（2528.87＋4853.34）/2=3691.11，这个值就是2001年全省高新技术产品产值的预测值，与真实值3542.1很接近。

（五）用SPSS做聚类分析

聚类分析法（ClusterAnalysis）是研究“物以类聚”的一种现代统计分析方法，近十年来发展很快，从数值分类学中独立出来成为专门的分支，并且在地质勘探、天气预报、生物分类、考古学、医学、心理学以及制定国家标准和区域标准等许多方面都取得了许多很有成效的应用，因而也使其成为目前国外较为流行的多元统计分析方法之一。

在实际问题中经常要将一些东西进行分类，例如在古生物研究中，通过挖掘出来的一些骨骼的形状和大小将它们进行科学的分类；

在地质勘探中，通过矿石标本的物探、化探指标要将标本进行分类；

又如在经济区域的划分中，根据各主要经济指标将全国各省区划分成几个区域。

这里骨骼的形状和大小、标本的物探化探指标以及经济指标是我们用来分类的依据，称它们为指标（或变量），需要进行分类的骨骼、矿石和地区称作样品。

聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征确定的。

在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中对象趋向于不相似。

聚类分析的基本原则是将有较大相似性的个体归为同一类，而将差异较大的个体归入不同的类。

为了将样品聚类，就需要研究样品之间的关系，一种方法是用相似系数，性质越接近的样品，它们的相似系数越接近于1（或-1），彼此无关的样品的

展开阅读全文