《社会统计学与SPSS应用》实验指导书.docx

资源描述

《社会统计学与SPSS应用》实验指导书.docx

《《社会统计学与SPSS应用》实验指导书.docx》由会员分享，可在线阅读，更多相关《《社会统计学与SPSS应用》实验指导书.docx（31页珍藏版）》请在冰豆网上搜索。

《社会统计学与SPSS应用》实验指导书.docx

《社会统计学与SPSS应用》实验指导书

《社会统计学与SPSS应用》的实验指导书

一、实验指导书撰写说明

（一）撰写宗旨

与社会统计的理论知识相结合，力求简单易懂，以案例数据模拟分析。

（二）撰写大纲

首先，说明SPSS的数据库建立。

围绕问卷的不同题型介绍录入的方式，以及问卷数据的录入。

第二，SPSS的数据与变量的重组。

主要围绕原始数据如何生成研究者所需要的新变量数据来谈。

第三，SPSS的数据分析。

这是撰写的重点部分，就简单的描述统计、两变量的相关分析、回归分析和检验等进行案例式讲解。

第四，SPSS的数据在Word文档中的编辑使用。

（三）适用学生人群

已经上过社会统计学理论课程的学生；如果正在上社会统计学课程的学生，其应当是与理论课交叉结合或者是先上完理论课再上实验课。

因为SPSS软件本身是一种数据分析软件，只有具备基本知识才可以深入地掌握软件中的统计意义。

（四）SPSS的版本

本指导书是在13.0基础上来操作实现的。

二、数据库结构的建立

首先打开SPSS窗口，

出现如下窗口

单击下面的变量窗口，出现

然后开始录入数据库，录入方式如下：

１．名称，通常就是问卷上的题号编码，不能直接录入数字，界定方法有三种：

一种是根据问卷各部分为准，如A01/B01/C01；一种是按照问题顺序，P（Problem缩写）01/02；一种是研究者自己可以识别的标准。

2．类型

当点击1行的类型对应的空白时，出现如下窗口，通常我们选择数值或字符类型。

当是录入汉字时，就为字符型；当录入数字时就为数值型。

3．宽度

表示录入的字数，一个汉字两个字符，因此在类型为字符型时，要将宽度增大。

4．小数点

表示的数字后面的小数点位数。

默认为2。

5．标签

表示测量的变量名称，简单来讲，就是问卷中的问题

6．值

表示测量变量的选项，也就是问卷中一道题所对应的选项。

当点击值下的空白时，出现如下窗口，在该窗口中可以定义变量值，如1=男，0=女。

7．缺失值

在如下窗口定义缺失值。

8．列

表示列宽度，通常默认为8。

9．对齐

有左对齐、右对齐和居中三种。

10．测量标准

社会统计上分为四个层次：

定类、定序和定距（定比）。

因此测量标准也就三个。

11．具体的录入方法

第一，开放题的录入

当是数字测量时，则类型选择数值型，在值一栏不需要定义。

当是汉字填写时，则类型选择字符型，在值一栏不需要定义。

第二、单选题的录入

当选择项中没有“其他”项时就不需要另外设置一道题补充说明，具体录入如下（见A02和A02a）：

第三、多选题的录入

当没有限制选项的多选题，录入标准是：

一道题有多少个选项则单独设置为多少道题，且选项作为“标签”，值定义为“1=是或选，0=否或不选”。

如果其中有其他，则设置为开放题形式。

当限制选项的多选题，录入标准是：

限制选多少项，就设置为多少道题，“标签”为问卷的问题，每一道题的值就为全部选项值。

如果选项中有其他，则需要在另外补充一道题进行说明。

定义了所有变量后，单击“DataView”标签，即可在出现的数据视图（编辑）窗中输入数据。

三、变量的重组

在讲变量重组之前，需要说明的是，你必须已经录入好了数据。

录入数据的时候，由于样本量大，通常是建立一个同一的数据库结构，也就是Variableview，然后分为几个人来共同录入，但是如何才能够将分散录入的数据进行整合呢，我们在合并文件data-Mergefile菜单下完成。

Addcase:

要求合并的两个文件中的所有变量名称要相同；

Addvariable：

要求合并的两个文件中的案例数相同。

由于录入好的数据，有时候并不能够直接用来分析，因此需要对变量进行重组或者称为转换，将数据分组、合并等，实现这样的功能有两种操作菜单：

（一），该任务是在transform转换中的compute计算变量来完成的，

主要有三种形式：

第一是将定距变量进行分组。

例如，想要对过去一年家庭年纯收入进行分组，具体操作过程式首先选择函数组中的算术，然后在函数和特殊变量中选择TRUNC函数（取整表示舍弃小数点后的数字），然后再点击向上箭头，进入数字表达式栏TRUNC（?

），在下图左边的类型与标签栏中找出想要转换的变量（如蓝色标示），然后点击向右的箭头，进入到数字表达式，为TRUNC（A14/3000），最后在“目标变量”下面录入重组后的变量名称，如“分组后的家庭年纯收入”，最后点击“确定”即可。

第二种，条件转化。

如将分组后的家庭年纯收入，进行再集中。

具体操作如下：

点击上图中的“如果”，然后出现如下窗口：

在该窗口中，需选“如果个案满足条件则包括”，则灰色就变成黑色，然后就在左边栏选择“分组后的家庭年纯收入”变量后点击向右的箭头，则“分组后的家庭年纯收入>=10”后，点击继续，窗口返回到计算变量窗口，在数字表达式栏中，输入“10”后，检察目标变量确定为“分组后的家庭年纯收入”，最后点击“确定”即可。

请注意如下变化：

第三种，将两个可以直接进行数学运算的变量进行运算。

如计算“家庭人均年纯收入”，则是用“家庭年纯收入”/“家庭总人口数”来实现。

（二）在Transform转换下的recode菜单下Recodeintodifferentvariable完成

将左边的变量移入右边空白栏中，然后在输出变量栏下的名称命名，并点击change更改，则在输入变量-输出变量栏会同时显示原来的变量名称和更改后的变量名称。

点击oldandnew旧值和新值，出现如下窗口：

旧值有不同的设定方式：

（1）当为确定值则直接选择Value值，如另1→0，添加到下面的旧→新栏下。

（2）当时一个范围Range时，则选择范围，如下图

总之，旧值是什么，然后将其定义为新值，并点击添加，直到定义完毕，点击继续，返回到前一个页面，则点击ok即可。

注意：

我们不要选择定义为相同变量，如果这样可能丧失原始数据信息。

四、SPSS的数据分析

本部分主要围绕社会统计学教材，讲述单变量的描述、双变量的交互分类、相关系数测量。

这主要是在Analyze下的descriptivestatistics完成。

第一，frequency频率

（1）选择左边栏中的变量到右边variables变量栏（没有变量层次限制），就可以点击ok，就只有频率表格。

（2）当选择了变量后，如果点击statistics，则出现

A、百分位值有四分位数，是分别为25%、50%、75%；割点表示你将其分为多少等分，如果为10，则表示其直接分位10等分；百分位数，你可以进行自定义；

B、集中趋势：

定类→众数；定序→中位数；定距→均值。

C、离散趋势：

定距→标准差和方差；范围=最大值与最小值的差；均值的标准误，也就是标准差/√n；

D、分布：

偏度Skewness,表示是否是对称的，左偏还是右偏；峰度Kurtosis表示分布是偏平的还是高耸的。

例如，当选择“客厅数”这一定距变量时，所呈现出的统计结果：

通过统计，结果显示，在500个调查样本中，有效样本数为489，整体上平均拥有客厅数1.21件，有75%的调查者只有1间以下的客厅，由于均值在中位值的右边，且偏度值为正，则说明该分布呈现正向偏态。

注意：

请根据变量测量层次选择统计的量，点击继续然后返回到前页面框，点击ok即可。

（3）当选择了变量后，并向选择charts图表，出现选择条形图、饼状图、直方图的窗口，则可以输出图形。

（4）可以选择输出的格式。

将变量按照变量值还是分布次数从低到高还是从高到低等。

第二，描述（descriptive）

步骤：

Analyze——descriptive

使用变量层次：

主要适用于定序（在社会学中可以将其赋予分值后视为定距看待）和定距变量。

如上图，可以选择需要描述的统计选项，也可以将其标准化得分另存为一个新变量。

该部分与Frequency的区别在于：

A、Descriptive菜单中没有百分位统计；B、Descriptive菜单中只有定距变量统计量；C、二者的输出结果的行列不同（具体如下）

第三、探索分析

1）目的：

由于收集到的数据分布我们并不清楚，因此，需要对数据进行初步探索，以便确定选择的统计方法。

目的是为了发现数据中的错误，探索变量分布特征。

2）步骤：

点击Analyze——descriptive——explore，就打开explore对话窗口。

3）界面解释：

Dependentlist：

因变量列表；

Factorlist：

因子列表

LabelCasesby：

标注个案

Display：

统计量（statistics）和绘制图（plots）都显示

4）具体操作：

A）点击statistic后，出现的统计窗口，M-estimators描述集中趋势的稳健极大似然估计量，这些估计量的值在用于观测值时分配于不同的权重而得到的，极端值权重小于接近于中心观测值的权重，对具有长尾的对称分布或有极端值时，其给出比平均值或中位数更好的均值估计。

分别为Huber稳健估计；Hampel非降稳健估计；Andrew波估计；Tukey复权重估计。

B）点击plots后，出现绘图窗口（如上图），则有

Boxplots（箱图）：

按照factorleveltogether（因子水平分组）、Dependenttogether（因变量分组）、none（无）；

Descriptive（描述）：

Stemandleaf（茎叶图）、histogram（直方图）；

检验：

normalityplotsbytests；

Spread（扩展）或levene水平检验：

none（无）、powerestimate（幂估计）、transformed（已转换）可以选择各种形式的幂（如自然对数）、

5）结果呈现

6）结果解释：

表示进行M估计与中位值77.50和57.00相差不太大;但是离均值不近，因此可以认为分布不具合理的正态性。

极端值表给出了在不同区域的调查者建筑面积对应的最高和最低的5个调查对象对应的面积数。

极端值表能够直观地告诉我们数据的极端分布情况。

方差齐性检验，由于都显著，说明韶关和广州的建筑面积在均值和中位值的差异显著，正态曲线拟和差。

说明K-S和S-W检验都显著，认为数据具有正态分布的虚无假设被否定，进而得出结论：

正态曲线拟和差。

总结：

通过探索分析，发现建筑面积在区域之间是存在显著差异的，因此，我们在日后分析过程中，可以考虑将区域变量与建筑面积进行交互分析，看二者之间的相关强度到底有多高？

或者是将区域变量作为Layer层控制变量。

第四、交互分析

1）涉及内容：

这部分正好是社会统计学的第三、第四章、第七章的实际操作应用。

交互过程可以显示两个或多个变量的联合分布情况。

一般选择离散变量或者类别变量来进行交互，如果需要将连续定距变量继续交互，则表太大，因此需要进行分组后交互。

有些分类较多的定类或定序变量交互时，也容易产生单元格太多的大表，这样容易导致0分布的单元格增多。

2）具体步骤：

点击analyze——Descriptivestatistic——Crosstable

3）操作过程及其界面：

将选择的变量分别从左边框移入右边，并选择是否需要精确性检验，其中Asymptoticonly（仅渐近法）表示大样本数据呈现渐进分布假设，而MonteCarlo却不需要这样的假设，也不一定需要大样本，是一种更具有精确计算的方法。

在Statistics框中，

（1）Nominal定类或名义变量的相关测量：

2）Ordinal定序变量；（3）NominalbyInterval名义与定距变量；（4）Correlations定距的相关测量；

contingencycoefficient=C=squarerootof[卡方值比上（卡方值+N）]；Phi=squarerootof[卡方值比上N]；Cramer’sV=V=squarerootof[卡方值比上（N（m-1））]。

选择需要计算的相关系数，点击并确定后呈现结果：

4）结果解释：

关键看Value值

由于自己与配偶的教育情况是定序变量，因此同时可以用定类-定类，定序-定序变量的相关测量，Lambda系数由对对称与非对称，其中Symmetric表示对称，Dependent表示因变量。

Value表示相关系数值，AsymptoticStandardError表示渐进标准误，ApproximateT表示相似性T检验，。

第五，检验

（1）Chi-Square卡方检验=∑[（f-e）^2/e]；对行列变量的独立性进行检验。

（2）Kappa系数：

用来检验两个评估人对同一对象进行评估时是否具有相同的态度，[0，1]只能用于两个变量具有相等数量的分类。

（3）Risk要求两个变项都是二分。

（4）McNemar系数：

适用于对二维交叉变量的非参数检验，用于探索在验前-验后试验设计由于试验的干扰而引起的变化。

（5）Cochran’sandMentel-Haenszelstatistics：

对变量之间的独立性进行检验。

例如，选择自己受教育情况作为因变量，父亲受教育情况为自变量；

然后选择在exact精确检验中选择Asymptoticonly；

选择Statistics统计量中的Lambda系数、Gamma系数和Somers’D系数，并选择Chi-Square卡方检验；

选择Crosstabulation中的显示复式条形图。

结果如下：

卡方检验的结果表明行列之间不具有独立性，具有显著的相关性。

从Value值中的Somers萨默森D值来看，自己的受教育程度与父亲的受教育程度之间的相关系数为0.418，正相关关系，但由于该值是测量对称关系的，因此不分自变量和因变量，其平均值表示一个变量的等级来预测另一个变量的登记，可以小件0.418^2*100%的误差。

五、数据图表

条形图（Barchart）

有两种方式：

第一，在analyze下的frequency框口，有chart选择按钮，

当是定类、定序变量时，可以选择条形图和饼图，当是定距变量时，选择直方图，且可以带正态曲线。

如

其中对于条形图的制作，还可以在Crosstabulation操作过程中选择显示复式条形图。

另外，在Graph图表菜单下来执行Barchart.出现sample\multiple\stocked三种方式。

（1）simple:

选择个案摘要——个案数——类别轴X，分类依据行或列。

（2）复式条形图：

其中定义聚类，是按照X轴的值来进行比较。

下图左就是选择城市为聚类变量。

图右增加了性别为行变量。

图3则是将性别为列变量。

图4是选择变量组摘要——条形变量至少两个，然后选择类别轴，行或者列。

即可得到。

从图4可知，男女性别之间在教育文化程度上具有差别，一般家庭中，女性的文化程度比男性要低。

3-D图：

这种不如条形图直观。

线形图

在这里，我们主要讲line线图：

sampleline简单线图、multipleline多线线图和垂直线图

当只有类别变量时，则出现如下图

当有类别变量和行变量时，则出现如下图

当有类别变量和行、列变量时，则出现如下图

之所以未出现这样的差异，因为行和列变量其实就是在选择数据分析的比较标准。

类似于交互分类。

六、线性回归分析

1、回归分析将变量y称为因变量，处于被解释的特殊地位，x变量没有随机性要求，并通过一定的数学表达式来确定一个或几个变量的变化对另一个特定变量的影响程度；

2、回归分析主要解决的问题：

确定变量之间的数学关系式。

对确定的数学关系式进行各种统计检验，并区分对某一特定变量影响较为显著的变量和影响不显著的变量。

控制可控变量的数值，利用确定的数学关系式，来预测或控制对某一特定变量的取值和精确度。

3、在回归模型中

需要引入多个“0”、“1”虚拟变量时，虚拟变量的个数应按下列原则来确定：

对于包含一个具有k种特征的类别变量的回归模型，如果回归模型不带常数项，则引入k个；

如有常数项，则只需引入k−1；

当k=2时，只需要引入一个。

4、回归方程模型为

5、操作步骤：

Analyze——Regression——Linear

例子，试图解释住房市价与建筑面积的一元线性回归

直接移入因变量和自变量，不做任何系统默认修改，点击ok,

当选择selectvalue令城市=1韶关，点击ok的结果

展开阅读全文