37附录五SPSS在统计分析中的应用.docx

资源描述

37附录五SPSS在统计分析中的应用.docx

《37附录五SPSS在统计分析中的应用.docx》由会员分享，可在线阅读，更多相关《37附录五SPSS在统计分析中的应用.docx（28页珍藏版）》请在冰豆网上搜索。

37附录五SPSS在统计分析中的应用.docx

37附录五SPSS在统计分析中的应用

附录五SPSS在统计分析中的应用

§1SPSS软件基础

1.1SPSS概论

进行统计分析时，设计到的变量和样本数据很多，计算量很大。

靠手工方法进行统计计算是不现实的，不借助于计算机难以实现，只有计算机才能快速得到精确的结果。

在微机上使用的统计软件有许多种，在实际工作中应用比较普遍的主要有SPSS、SAS、TSP、EViews、BMDP、TPL、CENTS、DET、SP、SARP、Excel、Lotus1-2-3、Matlab、S-plus、Minitab等。

SPSS是英文StatisticalPackagefortheSocialScience（社会科学统计软件包）的缩写。

20世纪60年代，美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS，同时成立了SPSS公司，并于1975年在芝加哥组建了SPSS总部。

20世纪80年代以前，SPSS统计软件主要应用于企事业单位。

1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+，开创了SPSS微机系列产品的开发方向，极大地扩充了它的应用范围，并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。

SPSS名为社会科学统计软件包，这是为了强调其在社会科学应用的一面（因为社会科学研究中的许多现象都是随机的，要使用统计学来进行研究），而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。

SPSS现已推广到各种操作系统的计算机上，它和SAS、BMDP并称为国际上最有影响的三大统计软件。

在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。

SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。

SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类，每类中又分好几个统计过程，比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、二阶段最小二乘法、非线性回归等多个统计过程，而且每个过程中又允许用户选择不同的方法及参数。

SPSS也有专门的绘图系统，可以根据数据绘制各种图形。

SPSS运行方式灵活，主要有四种方式：

（1）批处理方式

（2）完全窗口菜单运行方式

这种方式通过选择窗口菜单和对话框完成各种操作。

用户无须学会编程，简单易用。

（3）程序运行方式

这种方式是在语句（Syntax）窗口中直接运行编写好的程序或者在脚本（Script）窗口中运行程序的一种运行方式。

这种方式要求掌握SPSS的语句或脚本语言。

（4）混合运行方式

混合运行方式指以上各种方法的结合方式。

1.2SPSS基本操作

使用SPSS进行统计分析时，首先要录入数据或者打开一个已经存在的数据文件，根据需要进行数据转换；然后选择合适的统计分析过程，选择统计分析所采用的方法和参数；最后分析SPSS输出的结果，并保存结果。

1.2.1．数据管理（DataManagement）

启动SPSS后，出现的界面是数据编辑器窗口，它的底部有两个标签：

DataView（数据视图）和VariableView（变量视图），它们提供了一种类似于电子表格的方法，用以产生和编辑SPSS数据文件。

DataView用于查看、录入和修改数据，VariableView定义和修改变量的定义。

如果使用过电子表格如MicrosoftExcel等，那么数据编辑窗口的许多功能应该已经熟悉。

但是，还有一些明显区别：

（1）列是变量，即每一列代表一个变量（Variable）或一个被观测量的特征。

（2）行是观测，即每一行代表一个个体、一个观测、一个样品，在SPSS中称为事件（Case）。

（3）单元包含值，即每个单元包括一个观测中的单个变量值。

单元（Cell）是观测和变量的交叉。

与电子表格不同，单元只包括数据值而不能含公式。

（4）数据文件是一张长方形的二维表。

数据文件的范围是由观测和变量的数目决定的。

可以在任一单元中输入数据。

如果在定义好的数据文件边界以外键入数据，SPSS将数据长方形延长到包括那个单元和文件边界之间的任何行和列。

如果要分析的数据还没有录入，可用数据编辑器来键入数据并保存为一个SPSS数据文件（其默认扩展名为sav）。

1.定义变量

输入数据前首先要定义变量。

定义变量即要定义变量名、变量类型、变量长度（小数位数）、变量标签（或值标签）和变量的格式，步骤如下：

单击数据编辑窗口中的VariableView标签或双击列的题头（Var），显示变量定义视图，在出现的变量视图中定义变量。

每一行存放一个变量的定义信息，包括Name、Type、Width、Decimal、Label、Value、Missing、Columns、Align、Measure等。

（1）Name：

定义变量名

变量名必须以字母或字符@开头，其它字符可以是任何字母、数字或_、@、#、$等符号。

变量名总长度不能超过8个字符（即4个汉字）。

（2）Type：

定义变量类型

SPSS的主要变量类型有：

Numeric（标准数值型）、Comma（带逗号的数值型）、Dot（圆点作小数点的数值型）、ScientificNotation（科学记数法）、Date（日期型）、Dollar（带美元符号的数值型）、CustomCurrency（自定义型）、String（字符型）。

单击Type相应单元中的按钮，选择合适的变量类型并单击OK。

（3）Width：

变量长度

设置数值变量的长度，当变量为日期型时无效。

（4）Decimal：

变量小数点位数

设置数值变量的小数点位数，当变量为日期型时无效。

（5）Label：

变量标签

变量标签是对变量名的进一步描述，变量只能由不超过8个字符组成，8个字符经常不足以表示变量的含义。

而变量标签可长达120个字符，变量标签对大小写敏感，显示时与输入值完全一样，需要时可用变量标签对变量名的含义加以解释。

（6）Value：

变量值标签

值标签是对变量的每一个可能取值的进一步描述。

（7）Missing：

缺失值的定义方式

SPSS有两类缺失值：

系统缺失值和用户缺失值。

在数据长方形中任何空的数字单元都被认为系统缺失值，用点号（

）表示。

SPSS可以指定那些由于特殊原因造成的信息缺失值，然后将它们标为用户缺失值，统计过程识别这种标识，带有缺失值的观测被特殊处理。

默认值为None。

单击Value相应单元中的按钮，可改变缺失值定义方式。

（8）Column：

变量的显示宽度

输入变量的显示宽度，默认为8。

（9）Align：

变量显示的对齐方式

选择变量值显示时的对齐方式：

Left（左对齐）、Right（右对齐）、Center（居中对齐）。

（10）Scale：

变量的测量尺度

根据变量测量精度不同，可把变量由低到高分为四种尺度：

定类变量、定序变量、定距变量和定比变量。

1）定类变量

定类变量由称为名义（nominal）变量。

这是一种测量精度最低、最粗略的基于“质”因素的变量，它的取值只代表观测对象的不同类别，例如“性别”变量、“职业”变量等都是定类变量。

定类变量的取值称为定类数据或名义数据。

定类数据的共同特点是用不多的名称来加以表达，并由被研究变量每一组出现的次数及其总计数所组成，这种数据是枚举性的，即由计数一一而得。

唯一适合于定类数据的数学关系是“等价关系”。

因而，在定类数据中，同一组内各单位是等价的，同时若更换各不同组的符号并不会改变数据原有的基本信息。

因此，最常用来综合定类数据的统计量是频数、比率或百分比等。

2）定序变量

定序变量由称为有序（ordinal）变量、顺序变量，它的取值大小能够表示观测对象的某种顺序关系（等级、方位或大小等），也是基于“质”因素的变量。

例如：

“最高学历”变量的取值是：

1－小学及以下、2－初中、3－高中、中专、技校、4－大学专科、5－大学本科、6－研究生以上。

由小到大的取值能够代表学历由低到高。

定序变量的取值称为定序数据或有序数据。

适合于定序数据的数学关系是“大于（>）”和“小于（<）”关系。

在定序数据中，同一组内各单位是等价的，相邻组之间的单位是不等价的，它们存在“大于”或“小于”的关系。

而且进行保序变换（或称单调变换），不改变数据原有的基本信息即等级顺序。

最适合用于综合定序数据取值的集中趋势的统计量是中位数。

3）定距变量

定距变量又称为间隔（interval）变量，它的取值之间可以比较大小，可以用加减法计算出差异的大小。

例如，“年龄”变量，其取值60与20相比，表示60岁比20岁大，并且可以计算出大40岁（60-20）。

定距变量的取值称为定距数据或间隔数据。

定距数据是一些真实的数值，具有公共的、不变的测定单位，可以进行加减乘除运算。

定距数据的基本特点是两个相同间隔的数值的差异相等。

对于定距数据，不仅可以规定“等价关系”以及“大于关系”和“小于关系”，而且也可以规定任意两个相同间隔的比值或差值。

如果将每个数值分别乘以一个正的常数再加上一个常数，即进行正线性变换，并不影响定距数据原有的基本信息。

因此，常用的统计量如均值、标准差、相关系数等都可直接用于定距数据。

4）定比变量

定比变量又称为比率（ratio）变量，它与定距变量意义相近，细微差别在于定距变量中的“0”值只表示某一取值，不表示“没有”。

例如，人的身高就是一个定比变量，如果身高值为“0”米，则表示这个人不存在。

定比变量的“0”值表示“没有”。

而在测定温度的摄氏表中，

并不表示没有温度，因为还有在零度以下的温度。

定比变量的取值称为定比数据或比率数据。

定比数据也同样可进行算术运算和线性变换等。

通常对定距变量和定比变量不需要加以区别，两者统称为定距变量或间隔变量。

一般地，定类变量和定序变量用于描述定性数据，属于定性变量；而定距变量和定比变量用于描述定量数据，属于定量变量。

同其它分类标准一样，一个变量在不同分析中可当作不同尺度的变量。

例如，“年龄”在某些分析中（如回归分析）当作定距变量，而在另外一些分析中（如方差分析）可通过分组作为定类变量处理。

如果变量为定距变量或定比变量，则在Scale相应单元的下拉列表中选择Scale；如果变量为定序变量，则选择Ordinal；如果变量为定类变量，则选择Nominal。

如果有许多个变量的类型相同，可以先定义一个变量，然后把该变量的定义信息复制给新变量。

具体操作为：

先定义一个变量，在该变量的行号上单击右键，弹出快捷菜单，选择Copy；然后用鼠标右键选择多行，弹出快捷菜单，选择Paste；再把自动产生的新变量名称（如Var00001、Var00002、…）改为所要的变量名称。

定义了所有变量后，单击DataView即可在数据视图中输入数据。

2．数据的输入与编辑

定义了变量后就可以输入数据了。

由于各种原因，已经输入的数据往往会有错误，这就需要进行编辑。

用Windows的基本操作方式可实现对数据的编辑。

如果数据文件较大且知道要修改的数据单元的行号，可通过选择Data＝>GotoCase打开对话框，在对话框中CaseNumber的右框输入行号来查找特定观测（行）。

如果要查找某变量中的特定值或值标签，选择该变量，再选择Edit＝>Find或者按Ctrl+F打开对话框，在Searchfor右框中输入要查找的数值或标签。

3．数据转换

在理想情况下，输入的原始数据完全适合要执行的统计分析模型，遗憾的是，这种情况很罕见，经常需要通过数据转换来提示变量之间的真实关系。

利用SPSS可进行从简单到复杂的数据转换。

（1）根据已存在的变量建立新变量

选择Transform=>Compute，打开ComputeVariable（计算变量）对话框。

在对话框中的TargetVariable（目标变量）下框中输入符合变量命名规则的变量名，目标变量可以是现存变量或新变量。

对话框中NumericExpression（数值表达式）下的文本框用于输入计算目标变量值的表达式。

表达式能够使用左下框列出的现存变量名、计算器板列出的算术运算符和常数和Functions（函数）列表框显示的各种函数等。

可以在文本框中直接输入和编辑表达式，也可以使用变量列表、计算器板和函数列表将元素粘贴到文本框中。

计算器板包括数字、算术运算符、关系运算符和逻辑运算符，可以象使用计算器一样使用它们。

函数表有70多个函数，包括算术函数、统计函数、分布函数、逻辑函数、日期和时间汇总与提取函数、缺失值函数、字符串函数、随机变量函数等等，例如对数函数LN（）、绝对值函数abs（）、求和函数sum（）等。

计算器板下面有一个IF按钮，单击该按钮打开条件表达式对话框。

在条件表达式对话框中指定一个逻辑表达式，一个逻辑表达式对每一个观测（case）返回真、假或缺失值。

如果一个逻辑表达式的结果是真，就把转换应用于那个观测；如果结果是假或缺失值，就不对那个观测应用转换。

（2）对观测（case）记录进行排序

在数据文件中，可根据一个或多个排序变量的值重排观测的顺序。

选择Data=>SortCases，打开SortCases对话框，对选定变量的数据按升序或降序进行排列。

（3）观测或变量转置

SPSS中将行作为观测，列作为变量。

对那些观测和变量的行列关系与此相反的数据文件，可以选择Data=>Transpose将行列互换。

（4）文件合并

可以将两个或更多个数据文件合并在一起，即可将具有相同变量但观测不同的文件合并，也可将观测相同变量不同的文件相合并。

选择Data=>MergeFiles=>Addcases从第二个文件即外部SPSS数据文件相当前工作数据文件追加观测。

选择Data=>MergeFiles=>AddVariables合并含有相同观测但不同变量的两个SPSS外部文件。

（5）选取观测子集

可以选择Data=>SelectCases根据包含变量和复杂的表达式的准则把统计分析限于某一特定观测子集，也可选取一个随机观测样本。

这样就可以同时对不同的观测子集做不同的统计分析。

（6）其它转换

数据汇总，Data=>Aggregate；

数据加权，Data=>WeightCases；

数值编码，Transform=>Recode；

数据求秩，Transform=>RankCases；

产生时间序列，Tranform=>CreateTimeSeries；等等。

4．保存数据文件

在数据文件中所做的任何变化都仅在这个SPSS过程期间保留，除非明确地保存它们。

要保存对前面建立的数据文件进行的任何改变，选择File=>Save或按Ctrl+S快捷键即可。

如果要把数据文件保存为一个新文件或将数据以不同格式保存，可选择File=>SaveAs，打开保存对话框，可以保存成SPSS默认格式，MicrosoftExcel格式或其它数据库格式等等。

5．打开已经存在的数据文件

选择File=>Open或按快捷键Ctrl+O，显示OpenFile（打开文件）对话框。

选择要打开文件的文件类型和文件名，单击“打开”。

1.2.2统计分析（StatisticalAnalysis）

在SPSS中建立了数据文件或打开一个数据文件之后，选择正确的统计分析方法，是得到正确分析结果的关键步骤。

统计分析过程在主菜单Analyze（分析）中的下拉菜单中。

1.2.3图形分析（GraphicalAnalysis）

统计图是用点的位置、线段的升降、直条的长短或面积的大小等方法来表达统计数据的一种形式，它可以把资料所反映的变化趋势、数量多少、分布状态和相互关系等形象直观地表现出来，以便于读者的阅读、比较和分析。

统计图具有简明生动、形象具体和通俗易懂的特点。

SPSS的图形分析功能很强，许多高精度的统计图形可从Analyze菜单的各种统计分析过程产生，也可以直接从Graph菜单中所包含的各个选项完成。

图形分析的一般过程为：

建立或打开数据文件，若数据文件结果不符合分析需要，则必须转换数据文件结果；生成图形；修饰生成的图形，保存结果。

常用的统计图形有条形图、线图、面积图、圆饼图、散点图、直方图、箱线图等等。

其中统计图形有两种形式，一种为一般图形，另一种为交互式图形，交互式图形提供了更多的选项，可绘制出更强大的图形。

1.2.4输出窗口（OutputManagement）

不管是统计分析还是图形分析，其结果都输出到新的窗口－Viewer窗口或DraftViewer窗口，SPSS默认输出窗口为Viewer窗口。

Viewer窗口的左边是输出大纲视图，可以单击统计过程名称左边的“+”和“-”展开或收缩输出大纲，也可以拖动输出内容项目改变改变项目的位置。

Viewer窗口的右边显示具体的输出内容，一般通过文字、表格、图形显示统计计算结果。

许多输出结果以数据透视表（PivotTable）的表格形式显示，数据透视表功能强大，便于用户自行定义所需格式。

如果要查看数据透视表中某个统计术语的含义，双击该数据透视表，右击术语，在弹出的快捷菜单中选择What'sThis，就可获得该术语的简单定义。

用户可通过与操作Windows应用程序一致的方法使用Viewer窗口。

§2统计数据的收集、整理与描述

2.1统计数据的收集

统计数据的收集就是统计调查，它按研究的目的和要求，有组织地向调查对象收集相关的各种资料。

为了保证统计数据资料的完整性、准确性和及时性，必须熟悉各种收集方法及各自的特点。

1．问卷调查

问卷是调查者向被调查者了解情况或征询意见时所运用的同一设计的调查表。

绝大多数旨在收集定量数据的调查都要采用某种形式的问卷，才会使调查得以顺利完成，并获得令人满意的数据。

2．普查法

普查，是按照一定标准时间对普查对象的全部单位无一例外地逐个进行的调查。

普查按门类划分，可分为人口普查、工业普查、商业普查、农业普查、第三产业普查等。

普查按区域划分，有宏观、中观和微观之分。

一般而言，我们经常提起的普查为宏观普查。

3．抽样调查

普查的覆盖面宽，但其耗费的人力、物力、财力太大，在统计调查中抽样调查更为常用。

抽样调查是从调查对象的总体中，按照一定的抽样原则抽取一部分单位作为样本，并以对样本进行调查的结果来推断总体的方法。

根据抽样方法是否随机，可将抽样调查分为随机抽样和非随机抽样两大类。

4．典型调查

典型调查是从调查对象的总体中选取一个或几个有代表性的单位进行全面、深入的调查。

调查单位可依不同调查目的选取企业、学校、个人、家庭等。

典型调查的目的就是通过对某个典型的深入分析来概括和反映全面。

因此，典型调查要求典型对总体推断有一定的代表性，这也是典型调查的关键。

典型的代表性可以从动态、静态两个方面来衡量。

从动态上来讲，是指事物的发展趋势；从静态上来讲，是指事物的共同属性与差异。

5．观察法

观察法是观察者深入现场或进入一定环境，观察调查对象，获取第一手资料的方法。

调查人员直接到调查现场，耳闻目睹顾客对市场的反映和公开言行，或者利用照相机、监视器等现代化器械间接地进行观察来收集资料等，都属于观察法。

观察法的特点就是从侧面观察被观察者的言行和反映，一般不直接向被调查人提出问题，所以，被调查者往往是在不知情的状况下被调查的。

6．实验法

实验法是研究者根据一定的研究目的，控制某种市场条件，或在人工环境中使一定的现象产生，通过观察、记录收集资料，以揭示其发生原因或规律的方法，是一种复杂、高级调查方法。

7．集体访谈法

集体访谈法是访问调查法的延伸和扩展，是调查者邀请若干被调查者，通过集体访谈的方式了解有关情况或研究实用统计学有关问题的方法。

2.2统计数据的整理

收集统计数据之后，要对获取的数据进行系统化、条理化地整理，以提取有用的信息。

1．统计分组

根据统计研究的目的和客观现象的内在特点，按某个标志（或几个标志）把被研究的总体划分为若干个不同性质的组，称为统计分组。

统计分组的对象是总体。

从分组的性质来看，分组具有分和双重含义。

2．频数分布与频率分布

将数据按其分组标志进行分组的过程，就是频数分布和频率分布形成的过程。

表示各组的次数称为频数，各组次数与总次数之比称为频率。

频数分布就是观察值按其分组标志分配在各组内的次数，由分组标志序列和各组相对应的分布次数两个要素构成。

由分组标志序列和各组相应的频率构成频率分布。

在平面直角坐标系上，将分组标志作为横轴并将各组频数（频率）作为纵轴，给出各组的长方形图即直方图。

与直方图相似作用的图示是折线图，它以各组标志值中点位置作为该组标志的代表值，然后用折线将各组频数连接起来。

当所观察的次数很多，组距很小并且组数很多时，所绘出的折线图就会越来越光滑，逐渐形成一条光滑的曲线，这种曲线即频数分布曲线，反映了数据的分布规律。

统计曲线在统计学中很重要，是描绘各种分布规律的有效方法。

常见的频数分布曲线有正态分布曲线、偏态分布曲线、

型分布曲线和

型分布曲线。

3．累计频数分布与频数分布

为了统计分析的需要，有时为了观察某一数值以上或某一数值以下频数或频率之和，这就需要在基本分组的基础上绘出累计频数或累计频率。

由表的上方向表的下方的频数或频率相加就称为“向下累计”，反之称为“向上累计”。

累计频率（或频率）分布曲线，可用以研究财富、土地和工资收入的分配是否公平。

这种累计分布曲线图最早由美国洛伦茨博士（Dr.M.O.Lorenz）提出的，故又称洛伦茨曲线图。

例1某车间30名工人安每天加工某种零件数如表1所示。

表1某车间工人每天加工某种零件件数

工人编号

加工零件数

工人标号

加工零件数

106

103

110

106

109

106

111

106

107

101

121

105

107

119

128

111

118

101

在SPSS中进行频数（率）分析的步骤为：

1）定义工人编号和加工零件数的变量名分布为NO和X，然后输入变量NO和X的原始数据。

2）选择Analyze=>DescriptiveStatistics=>Frequencies...，弹出Frequencies主对话框。

现欲对X进行频数分析，在对话框左侧的变量列表中选X，单击按钮使之进入Variable（s）列表框，并选择DisplayFrequencyTables显示频数分布表。

3）可单击Format...按钮弹出Frequencies：

Format子对话框，在Orderby栏中有四个选项：

Ascendingvalues为根据数值大小按升序从小到大作频数分布；

Descendingvalues为根据数值大小按降序从大到小作频数分布；

Ascendingcounts为根据频数多少按升序从少到多作频数分布；

Descendingcounts为根据频数多少按降序从多到少作频数分布。

这里选Ascendingvalues项后点击Continue钮返回Frequencies主对话框。

4）可单击Statistics...按钮，弹出Frequencies：

Statistics子对话框，并单击相应项目，在作频数表分析的基础上，附带作各种统计指标的描述，特别是可进行任何水平的百分位数计算。

这里不选。

5）可单击Charts...钮，弹

展开阅读全文