spss学习系列17交叉表与多选题.docx

资源描述

spss学习系列17交叉表与多选题.docx

《spss学习系列17交叉表与多选题.docx》由会员分享，可在线阅读，更多相关《spss学习系列17交叉表与多选题.docx（11页珍藏版）》请在冰豆网上搜索。

spss学习系列17交叉表与多选题.docx

spss学习系列17交叉表与多选题

17.交叉表与多选题

（一）基本理论

分类变量包括无序分类变量、有序分类变量、多选题变量集。

对于分类变量的描述统计，主要是对分类变量各水平值分别进行频数和比例计算，再进步计算所需的一些相对频数指标。

一、单分类变量的统计描述

1.频数分布

分类变量的分析，首先要了解：

各类别的样本数（频数），以及占总样本量的百分比；对有序分类变量，还需要了解：

累积频数、累积百分比。

2.集中/离散趋势

观察原始频数，或者使用众数。

对于分类变量，集中/离散趋势是一体的。

3.相对频数指标

（1）比（Riatio）

两个有关指标之比A/B,用来反映相对的大小关系，例如，月销售额/销售人数；

（2）构成比

用于描述事物内部各构成部分所占的比重，例如，百分比、累积百分比；

（3）率（Rate）

率是具有时间概念或速度、强度意义的指标，表示某个时期内某事件发生的频率或强度，例如速率、频率、费率、发病率等。

二、多分类变量的联合描述

列联表。

例如，r×c二维列联表：

（1）共n个样本；

（2）按两种属性A、B，属性A有r个水平值：

A1,…,Ar;属性B有c个水平值：

B1,…,Bc.属性A=Ai，属性B=Bj的样本数为nij.

（3）ni.=“属性A=Ai”的合计数，=“属性B=Bj”的合计数。

注：

多分类变量对应高维列联表。

三、多选题的统计描述

多选题是调查问卷的常见题型，因为多选题是回答同一个大问题，所以不能割裂开来单独分析，需要做汇总处理。

1.应答人数（Count）

选择各题项的人数，原始频数；

2.应答人数百分比

选择该项的人数占总人数的百分比，可以反映该选项在人群中的受欢迎程度；

3.应答人次（Response）

选择各选项的总人次，1个受访者选择2个选项，即2人次；

4.应答次数百分比

在做出的所有选择中，选择该项的人次占总人次数的比例。

（二）SPSS实现

有某调查问卷的数据文件（部分）：

变量属性：

一、单分类变量的描述——频率

变量“s4”表示学历：

问题1：

描述受访者的学历分布情况

【分析】——【描述统计】——【频率】，将“学历”选入【变量】框，点【确定】得到

S4.学历

频率

百分比

有效百分比

累积百分比

有效

初中/技校或以下

154

高中/中专

313

大专

331

本科

292

硕士或以上

合计

1147

注：

详细操作见第15篇《频率图表》。

二、多分类变量的联合描述——交叉表

问题2：

描述“性别”和“学历”的交叉频数分布

1.【分析】——【描述统计】——【交叉表】，打开“交叉表”窗口，将“性别”选入【行】框，将“学历”选入【列】框，勾选“显示复式条形图”

注：

若是3个分类变量的三维列联表，将第3个分类变量选入【层1的1】框，通过【下一张】可以设置更多层；

2.【精确】设置计算概率值的方法，保持默认；

【统计量】设置计算行/列变量关联性的统计指标和检验方法，保持默认；

【格式】【Bootstrap】一般不用设置；

3.点【单元格】，勾选【计数】的“观察值”，勾选【百分比】的“列”，【非整数权重】选默认的“四舍五入单元格计数”；

点【继续】回到原窗口，点【确定】得到

S2.性别*S4.学历交叉制表

S4.学历

合计

初中/技校或以下

高中/中专

大专

本科

硕士或以上

S2.性别

男

计数

167

191

169

637

S4.学历中的%

女

计数

146

140

123

510

S4.学历中的%

合计

计数

154

313

331

292

1147

S4.学历中的%

注：

若将变量“城市”选入第1步中的【层1的1】框，则得到三维列联表，

S2.性别*S4.学历*S0.城市交叉制表

S0.城市

S4.学历

合计

初中/技校或以下

高中/中专

大专

本科

硕士或以上

100北京

S2.性别

男

计数

188

S4.学历中的%

女

计数

190

S4.学历中的%

合计

计数

116

101

378

S4.学历中的%

200上海

S2.性别

男

计数

221

S4.学历中的%

女

计数

166

S4.学历中的%

合计

计数

122

108

387

S4.学历中的%

300广州

S2.性别

男

计数

228

S4.学历中的%

女

计数

154

S4.学历中的%

合计

计数

108

128

382

S4.学历中的%

合计

S2.性别

男

计数

167

191

169

637

S4.学历中的%

女

计数

146

140

123

510

S4.学历中的%

合计

计数

154

313

331

292

1147

S4.学历中的%

（三）多选题处理——多重响应

一、多选题的编码

多选题的编码方式有两种：

1.多重二分法

是标准的多选题数据格式，即每个选项各设一个变量，“选中=1”“未选中=0”

例如，C0题：

请问您的家庭目前有下列还贷支出吗

（1）房贷

（2）车贷（3）其他一般消费还贷

用变量C0_1、C0_2、C0_3分别代表上述3个选项，取值“1=选中、0=未选中、99=拒答”；

注：

“99=拒答”后续可作为缺失值，或合并到“0=未选中”。

2.多重分类法

若题项较多限定回答数较少，多重二分法就显得太啰嗦（过多的“未选中”），此时适合用多重分类法：

为所有选项设置一套值标签，需要多少个变量取决于限选项数。

例如，Q题：

如果你喝酒，主要受哪方面的影响（限选2项，请按主次程度排出顺序，不喝酒的不用填）

（1）家人

（2）朋友同学（3）影视剧（4）文学作品

（5）网络（6）风俗习惯（7）其他

用变量Qa_1、Qa_2分别表示第1影响、第2影响，取值为选项编号，如Qa_1=3,Qa_2=2.

二、设定多选题变量集

多选题按前文的编码方式录入后只是若干个离散的变量，SPSS并不知道它们代表一道多选题，这就需要将其设置为多选题变量集（也称为多重响应集），SPSS提供了两种方式：

方法1：

【分析】——【表】——【多响应集】

方法2：

【分析】——【多重响应】——【定义变量集】

二者操作基本相同，区别在于方法1可以保存定义的信息，方法2关闭数据文件后相应信息将丢失。

下面以方法2为例，

有数据文件：

多选题变量是c0和a3，其中c0_1,c0_2,c0_3是多重二分法编码；a3a_1,a3a_2是多重分类法编码。

1.【分析】——【多重响应】——【定义变量集】，打开“定义多重响应集”窗口；

2.将变量“c0_1,c0_2,c0_3”选入【集合中的变量】框；

勾选【将变量编码为】的“二分法”，在【计数值】框输入“1”，即指定“1”表示选中；

【名称】框输入“C0”，【标签】框输入“家庭每月还贷情况”；

点【添加】；

3.将变量“a3a_1,a3a_2”选入【集合中的变量】框；

勾选【将变量编码为】的“类别”，在【范围】框输入取值范围：

“0”到“150”；

【名称】框输入“A3a”，【标签】框输入“家庭经济状况”；

点【添加】，得到

注意：

同一多选题必须采用相同的编码方式和编码值。

三、多选题的频数

对前文得到的“多重响应集”C0进行频数分析。

1.【分析】——【多重响应】——【频率】，打开“多响应频率”窗口，将多响应集“C0”选入【表格】框；【缺失值】处理“在二分集内按照列表顺序排除个案”对应多重二分法多选题，“在类别内按照列表顺序排除个案”对应多重分类法多选题；

点【确定】得到

个案摘要

个案

有效的

缺失

总计

百分比

$C0a

163

984

1147

a.值为1时制表的二分组。

在1147受访者中，共有163人选择了至少一个贷款种类。

$C0频率

响应

个案百分比

百分比

家庭每月还贷情况a

C0.请问您的家庭目前有下列还贷支出吗：

房贷

118

C0.请问您的家庭目前有下列还贷支出吗：

车贷

C0.请问您的家庭目前有下列还贷支出吗：

其他一般消费还贷

总计

199

a.值为1时制表的二分组。

共199个有效回答（各种贷款种类共被选择199次），其中房贷118次，车贷33次，其他一般消费还贷48次；

响应百分比，给出了每类贷款选择次数占总选择数的百分比；

个案百分比，给出了选择某类贷款的人数占总人数的百分比，即应答人数百分比，以房贷为例，118/163=%;最后的%说明163个人平均每人选择了种贷款。

四、多选题的列联表分析

若要就多选题对不同人群分别描述，即对多选题变量集合其它分类变量进行交叉表描述。

问题：

按“婚姻状况”考察贷款情况

1.【分析】——【多重响应】——【交叉表】，打开“多响应交叉表”窗口，将变量“s7婚姻状况”选入【行】框，将【多响应集】“$C0$”选入【列】框；

2.选中【行】框中的“s7（）”，点【定义范围】，打开“定义变量范围”子窗口，根据变量s7的取值范围，【最小值】框输入“1”，【最大】框输入“3”

3.点【继续】回到原窗口，点【选项】打开“选项”子窗口，勾选【单元格百分比】的“行”；

注：

“百分比基于”可选择是基于“应答人数”还是“应答人次”；

“跨响应集匹配变量”当行/列变量均为多重分类法多选题时，可以让结果表格按两个变量集取值一一对应的方式来生成。

点【继续】回到原窗口，点【确定】得到

个案摘要

个案

有效的

缺失

总计

百分比

s7*$C0

163

984

1147

s7*$C0交叉制表

家庭每月还贷情况a

总计

C0.请问您的家庭目前有下列还贷支出吗：

房贷

C0.请问您的家庭目前有下列还贷支出吗：

车贷

C0.请问您的家庭目前有下列还贷支出吗：

其他一般消费还贷

S7.婚姻状况

已婚

计数

120

s7内的%

未婚

计数

s7内的%

离异/分居/丧偶

计数

s7内的%

总计

计数

118

163

百分比和总计以响应者为基础。

a.值为1时制表的二分组。

可以发现已婚人群的房贷比例高于未婚人群，而未婚人群的车贷和其他消费还贷比例则均高于已婚人群，但要注意上述结论只是基于163个有贷款的受访者计算的，而不是全部1147个受访者。

展开阅读全文