spss精选整理笔记讲解学习.docx

资源描述

spss精选整理笔记讲解学习.docx

《spss精选整理笔记讲解学习.docx》由会员分享，可在线阅读，更多相关《spss精选整理笔记讲解学习.docx（12页珍藏版）》请在冰豆网上搜索。

spss精选整理笔记讲解学习.docx

spss精选整理笔记讲解学习

1、spss的三种输出结果:

表格格式格式文本格式标准图与交互图

2、变量名的定义与保留字不同，同时变量名不能一数字开头。

变量名不能与spss保留字相同，spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。

3、字符型：

字符型数据的默认显示宽度为8个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。

注意：

在输入数据时不应输入引号，否则双引号将会作为字符型数据的一部分。

4、

（1）定类尺度（NominalMeasurement）：

定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。

离散型

特点：

其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。

对定类尺度的变量只能计算频数和频率。

在spss中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。

使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。

（2）定序尺度（OrdinalMeasurement）：

定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。

离散型

特点：

由于定序变量只能侧度类别之间的顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只能排序，不能进行运算。

（3）定矩尺度（IntervalMeasurement）：

定矩尺度是对事物类别或次序之间间距的测度。

特点：

不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定矩变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。

（4）定比尺度（ScaleMeasurement）：

定比尺度是能够测算两个测度值之间比值的一种计量尺度，它的测量结果同定距变量一样表现为数值。

特点：

定比变量是测量尺度的最高水平，它除了具有其他三种测量尺度的全部特点外，还具有可计算两个测度之间比值的特点，因此它可以进行加、减、乘、除运算，而定矩变量值可进行加减运算。

定类、定序、定距、定比变量的比较

适用的运算形式=、‡›、‹+、-X、∕

变

量

层

次定类变量√

定序变量√√

定距变量√√√

定比变量√√√√

5、对变量进行操作的内容主要集中于Transform菜单中，包括新变量的生成、记录的排序、对变量进行计数等。

1）计算新变量：

Compute

用于给变量赋值，其特点如下：

目标变量可以是新变量，也可以是已有的变量。

赋给变量的值可以是一个常数，也可以是从已有变量值或系统函数

计算而来的值

操作记录集可以是所有记录，也可以设定逻辑条件，只对满足条件

记录加以赋值。

其余纪录的相应变量或保持原状，或被赋于缺失值。

2）变量转换：

Recode——recodeintodifferentvariables

在SPSS中可以将连续变量转换为离散（等级或定序）变量，按照某种一一对应的关系生成新变量值，可以将新值赋给原变量。

注意所有的范围都是包含了端点的，而前面设定的变换会优于后面的变换。

Recode过程也常用于合并某个分类变量的几个水平为一个水平

3）Categorizevariable

用于将连续性变量自动按要求公成等间距的几组

4）count过程如果用户需要对满足某项条件的数据进行计数，可以使用Count命令。

先在TargetVariable中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到NumericVariables框中，再单击DefineValues按纽，打开ValuetoCount对话框。

Value:

输入某个值为清点对象；

System-missing:

以系统的缺失值为清点对象；

System-orusermissing:

以系统或用户指定的缺失值为清点对象；

Range:

指定数值的计数区域：

其中包括：

（）through（）在框内指定下限和上限

lowestthrough（）:

在框内只指定上限；

（）highestthrough:

在框内只指定下限。

5）在数据表格的变量名处单击右键，弹出的右键菜单最后两项就是“sortAscending”和“SortDescending”。

对于多变量排序，则需要使用SortCases过程来进行

多变量排序需要注意的三点：

（1）在多重排序中，制定排序变量名是很关键的，先指定的变量在排序时必然优先于后制订的变量。

（2）可以指定按某变量值升序排序的同时按另一变量值降序排序，或相反。

（3）排序以后，原来记录数据的排列次序将被打乱。

6）SplitFile分割文件的功能是把当前工作分割成两个或两个以上的组，随后的分析将对每个组进行。

7）SelectCases：

当用户不需要分析全部的数据，而是按要求分析其中的一部分，使用该选择。

Allcase：

选择所有数据；Ifconditionissatisfied:

按指定条件选择数据。

8）所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。

在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量（BreakVariable[s]）框中，在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量（AggregateVariable[s]）框中，即要求这些变量的值进行分类汇总。

“name&label”（名称与标签）：

单击此按钮可以修改组合后所生成新变量名称以及标签：

可以在name后面的矩形框中输入新变量名。

在Label后面的矩形框中输入新变量标签。

单击“continue”按钮继续。

、“Function”（函数）选择此项可以确定汇总变量的描述内容；系统默认函数为平均数。

6、纵向合并实质就是将两个数据文件的变量列，按照各个变量名的含义，一一对应的进行首尾相接。

Mergefiles——addcases

纵向合并必须遵循两个条件：

第一，两个合并的spss数据文件，其内容合并是有实际意义的。

第二，为方便spss数据文件的合并，在不同的数据文件中，最好起相同的名字，变量类型和变量长度也要尽量相同。

Unpairedvariable：

不匹配变量栏。

指变量名相同而变量定义不同的变量，或变量名不同的变量。

Variableinnewworkingdata：

新工作数据变量栏。

Indicatecasesourceasvariable：

指示记录来源的变量选项/

7、横向合并的实质是将两个数据文件的记录，按照记录对应，一一进行左右对接。

横向合并遵循三个条件：

mergefiles——addvariables

第一，如果不是按照记录号对应的规律进行合并，则两个数据文件必须至少有一个变量名相同的公共变量，这个变量是两个数据文件横向合并的依据，成为关键变量。

第二，如果是使用关键变量进行合并的对应，则两个数据文件都必须事先按关键变量进行升序排列。

第三，为方便SPSS文件的合并，在不同的数据文件中，数据含义不相同的列，变量名不应取相同的名称。

ExcludedVariables：

拒绝变量名。

外部文件与当前数据的同变量，拒绝加到新工作区中。

NewWorkingData：

新工作数据变量栏。

MatchCaseonKeyVariableinsort：

排序文件中按关键变量匹配记录选项。

Bothfilesprovidecase：

由外部文件和当前数据量两者提供记录。

Externalfileiskeyedtable：

外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。

WorkingDataFileiskeyedtable：

当前数据为关键表。

KeyVariables：

关键变量栏，在拒绝变量选择某变量作为关键变量。

Indicatecasesourceasvariable：

指示记录来源的变量选项。

8、集中趋势（CentralTrend）：

均数（Mean）中位数（Median）众数（Mode）总合（Sum）

离散趋势（DispersionTrend）：

标准差（Std.Deviation）、方差（Variance）、全距（Range）最小值（Minimum）、最大值（Maximum）、标准误（S.E.Mean）

分布特征（DistributionTendency）：

偏度系数（Skewness）和峰度系数（Kurtosis）

其他趋势：

百分位数指标（Percentile）、极端值（Outlier）。

所用到的统计图则有：

条图、饼图、直方图、箱式图、QQ图（用于判断正态性的）

9、Spss的用于连续变量统计描述的过程，均集中在DescriptiveStatistics子菜单中。

1）Frequencies：

产生原始数据的频数表，并能计算各种百分位数。

对分类资料和定量资料都适用。

2）Descriptive，该过程用于一般性的统计描述，相对于Frequencies过程而言，它不能绘制统计图。

3）Explore，该过程用于对连续性资料分布状况不清楚时的探索性分析，它可以计算许多描述统计量，给出各种统计图，并进行简单的参数估计。

4）Ratio，用于对两个连续性变量计算相对比指标，当研究者关心A、B两个指标比值的变动情况时，该过程非常有用。

10、Chi-Square过程其分析目的是检验分类数据样本所在总体分布（各类别所占比例）是否与已知总体分布相同，是一个单样本检验。

11、分类变量的联合描述

当一共有两个分类变量时，汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表，也称列联表。

12、Crosstabs过程既包括强大的描述功能，又提供了非常有力而实用的统计推断能力。

Crosstabs过程不能产生一维频数表（单变量频数表），该功能由Frequencies过程实现。

AnalyzeDescriptiveStatisticsCrosstabs，如果是二维列联表分析，可以将行变量选择进入Row（s）中，将列变量选择进入Column（s）框中

分类资料数据录入格式：

采用频数表格式来记录。

传递的总信息量和传统的枚举格式差不多，只是不能得知具体的个体取值而已。

对频数表格式需要用WeightCases过程指定频数变量。

13、多选题的统计描述，多重二分法（multipledichotomymethod），多重分类法（multiplecategorymethod）

多选题的描述指标体系

在多选题分析中比较特别的描述指标有：

（1）应答人数：

是指选择了本项人数。

（2）应答人数百分比（PercentofCases）：

选择该项的人占总人数的比例。

（3）应答人次：

选择本选项的人次。

（4）应答次数百分比（PercentofResponses）：

在作出的选择中，选择该项的人数占总次数的比例。

MultipleResponse

DefineSets过程：

该过程用于将若干个变量定义为多选题变量集，在这样定义后，多选题分析的专用过程就可以正确识别数据，并计算出如前所述的各种专用汇总指标。

Frequencies过程:

功能非常简单，就是为多选题变量集生成频数表

Crosstabs过程:

实际上，这里的Crosstabs过程和普通的Crosstabs过程没有本质区别，而且还只具有描述功能，没有统计推断能力。

但是它加入了对多选题变量集的支持，可以像使用普通变量一样的使用变量集。

14、1）小概率原理，就是认为小概率事件在一次试验中几乎不可能发生。

也就是说，如果对总体的某个假设是真实的，那么不利于或不能支持这一假设的小概率事件A在一次试验中是几乎不可能发生的；要是在一次试验中事件A竟然发生了，我们就有理由怀疑这一假设的真实性，拒绝这一假设。

2）假设检验的基本思想：

前提：

小概率事件发生拒绝原假设

承认进行一次实验

原假设

大概率事件发生接受原假设

3）假设检验的两类错误：

接受或拒绝H0，都可能犯错误

I类错误——弃真错误，发生的概率为α（αerror）

II类错误——取伪错误，发生的概率为β（βerror）

4）Z检验和t检验主要用于总体参数的检验，包括平均数、百分比等的检验。

平均数单值的假设检验，平均数差异的假设检验，若n<30的小样本，用t检验，大样本用z检验。

5）正态总体参数假设检验的步骤

第一步：

建立原假设H0和备择假设H1。

第二步：

计算统计量。

第三步：

确定显著水平α的值，查相应的分布表得其临界值以及拒绝域。

第四步：

进行显著性判别。

15、Analyze——CompareMeans

Means过程：

该过程更倾向于对样本进行描述，它可以对需要比较各组计算描述指标，进行检验前预分析。

当然如果你愿意，也可直接比较。

Means过程的优势在于所有的描述统计量均按自变量的取值分组计算，无需像其他过程那样必须先调用SplitFile过程。

One-sampleTTest过程：

该过程用于进行样本所在总体均数与已知总体均数的比较，即单样本的t检验。

Independent-samplesTTest过程：

该过程用于进行两样本均数的比较，即常用的两样本t检验。

和上面样本t检验的原理相同，我们也采用了小概率反证法，首先假设H0：

两样本来自同一总体。

当总体服从正态分布时，我们就可以采用两样本t检验来计算从该总体中抽出这样两个活宝的概率为多少，从而做出统计推断。

Paired-SampleTTest：

Paired-SampleTTest是检验两个有联系正态总体的均值是否存在显著的差异。

又称配对样本的t检验。

AnalyzeCompareMeansPaired-SampleTTest

该过程用于进行配对设计的差值均数与总体均数0比较的t检验，配对设计有两种情况：

（1）对同一个受试对象处理前后的比较。

（2）.将受试对象按情况相近者配对，分别给予两种处理，以观察两种处理效果有无差别。

16、方差分析基本术语：

Analyze——CompareMeans——One-wayANOVA

因单素方差分析

One-wayANOVA过程：

该过程用于进行两组及多组间样本均数的比较，即成组设计的方差分析。

如果做了相应选择，还可进行随后的两两比较。

甚至于精确设定均数比较方式。

——颜色例题

方差分析的原理：

数据差异的来源

因素的水平不同（系统性差异）；

随机因素（随机性差异）。

数据差异的度量

水平之间的方差（组间方差）——系统性因素和随机因素的共同作用。

水平内部的方差（组内方差）——随机性因素的作用。

方差分析的统计假设：

H。

：

U1=U2=····Ur

H1：

至少两个总体的均值不等

检验的统计量：

组间均方差与组内均方差之比：

F=组间均方差/组内均方差

F是一个统计量，服从F分布

Homogeneityofvariancetest进行不同水平间方差齐性的检验

PostHoc多重比较

双因素方差分析（彩电例题）

Analyze——GeneralLinearModelUnivariate

单因变量的双因素方差分析是对观察的现象（因变量）受两个因素或变量的影响进行分析，检验不同水平组合之间对因变量的影响是否显著。

双因素方差分析应用条件：

因变量和协变量必须是数值型变量，且因变量来自或近似来自正态总体。

因素变量是分类变量，变量可以是数值型或字符型的。

各水平下的总体假设服从正态分布，而且假设各水平下的方差是相等的。

选择要分析的变量”销售量”进入DependentVariable框中，选择因素变量”地区”和”时期”进入FixedFactor框中。

单击Model按纽选择分析模型，得到Model对话框。

Custom选项为自定义模型，先从左边框中选择因素变量进入Model框中，然后选择效应类型。

一般不考虑交互作用时，选择主效应Main，考虑交互作用时，选择交互作用Interaction

交互作用（Interaction）：

如果一个因素的效应大小在另一个因素不同水平下明显不同，则称为两因素间存在交互作用。

两个因素变量地区和时期的折线之间无交叉，因此两个因素之间基本上没有交互作用。

如果需要进行图形展示，可单击Plots按纽

（1）在Factor框中选择因素变量进入横坐标HorizontalAxis框内，然后单击add按纽，可以得到该因素不同水平的因变量均值的分布。

（2）如果要了解两个因素变量的交互作用，将一个因素变量送入横坐标后，将另一个因素变量送入SeparateLines分线框中，然后单击add按纽。

就可以输出反映两个因素变量的交互图。

本例中选择因素A为横坐标。

Homogeneityofvariancetest进行不同水平间方差齐性的检验

如需要将因素A各水平间均值进行两两比较，单击PostHoc按纽，打开PostHocMultiple多重比较对话框

17、单调关联是指调研人员可以指出两个变量关联的总体方向。

有两类单调关联：

增加型和减少型。

18、简单相关分析：

两个变量之间的相关关系称简单相关关系。

有两种方法可以反映简单相关关系。

一是通过散点图直观地显示变量之间关系，二是通过相关系数准确地反映两变量的关系程度。

AnalyzeCorrelateBivariate

在进行分析前必须先作散点图，以判断两变量之间有无相关趋势，以及该趋势是否呈线性。

只有从图形上明确两变量之间存在线性相关趋势，才能继续后面的分析。

散点图，SPSS软件的绘图命令集中在Graphs菜单中Scatterplot

19、回归分析（regressionanalysis）是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法。

运用十分广泛，回归分析按照涉及自变量的多少，可分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。

如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析

20、线性回归的假设理论：

（1）正态性假设：

即所研究的变量均服从正态分布；

（2）等方差假设：

即各变量总体的方差是相等的；

（3）独立性假设,即各变量之间是相互独立的；

（4）残差项无自相关性，即误差项之间互不相关，Cov（i，j）=0

SPSS软件中进行线性回归分析的选择项为Analyze→Regression→Linear。

21、偏相关分析：

简单相关关系只反映两个变量之间的关系，但如果因变量受到多个因素的影响时，因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响，不能真实地反映二者之间的关系，所以需要考察在其它因素的影响剔除后二者之间的相关程度，即偏相关分析。

AnalyzeCorrelatePartial，从左边框内选择要考察的两个变量进入Variables框内，其它客观存在的变量作为控制变量进入Controllingfor框内，如本例中考察煤气户数与火柴销量的偏相关系数进入Variables框内，其它相关变量（除年份外）进入Controllingfor框内

展开阅读全文