SPSS学习系列缺失值处理Word文件下载.docx-资源下载

SPSS学习系列缺失值处理Word文件下载.docx

1、提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵，通过这些方法计算出的统计量更加可靠。（3）用估计值替换缺失值：使用EM或回归法，用户可以从未缺失数据的分布情况中推算出缺失数据的估计值，从而能有效地使用所有数据进行分析，来提高统计结果的可信度。【缺失值分析】实例操作，使用SPSS 20自带的实例文件： 1.【分析】【缺失值分析】，打开“缺失值分析”窗口，将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】，将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】最大类别（最大分类数）默认为25，超过该数目的分类变量将不引入分析。2. 点【

2、描述】，打开“描述统计”子窗口，用来设置要显示的缺失值描述统计量。勾选“单变量统计量”，勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”，点【继续】3. 点【模式】，打开“模式”子窗口，用来设置显示输出表格中的缺失数据模式和范围。勾选“按照缺失值模式分组的表格个案”；因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据，“家庭收入”含有大量缺失值，将这些变量选入【附加信息】；其它保持默认，点【继续】4. 回到原窗口，勾选【估计】框中的“EM”和“回归”，其它默认设置。点击【EM】或【回归】按钮可以修改其设置注意：若要保存替换缺失值

3、之后的数据，需要勾选“保存完成数据”：创建新数据集并命名，或写入新数据文件。另外，默认使用所有变量进行分析，若要选择部分变量，可点【变量】按钮修改。点【确定】，得到输出结果：单变量统计N均值标准差缺失极值数目a计数百分比低高tenure96832age97525address8501509income82117971employ9049615reside9663433marital885115ed96535retire91684gender95842a. 超出范围（Q1 - *IQR，Q3 + *IQR）的案例数。提供了数据的一般特征，给出了所有分析变量缺失数据的频数、百分比，定量变量的均值、

4、标准差、极值数目。income（家庭收入）有最多具有缺失值（%），也有最多的极值；而age（年龄）有最少缺失值（5%）。估计均值摘要所有值EM回归估计标准差摘要使用EM法和回归法进行缺失值的估计和替换后，总体数据的均值和标准差的变化情况，其中“所有值”为原始数据特征，另两行分别是采用EM法、回归法得到的统计参数。单个方差 t 检验at.4.3.df# 存在819832693766824# 缺失149143128138142均值（存在）均值（缺失）793801741792175174157163.587788187491948092.0.98568627487288058571121131029

5、399109.288889377775182737081对于每个定量变量，由指示变量（存在，缺失）组成成对的组。a. 不显示少于 5% 个缺失值的指示变量。通过单个方差t 检验有助于标识缺失值模式可能影响定量变量的变量。按照相应变量是否缺失将全部记录分为两组，再对所有定量变量在这两组间进行t检验。判断数据是否完全随机缺失（表示缺失和变量的取值无关）。例如，似乎年纪较长的响应者更不可能报告收入水平。当income 缺失时，平均age 为，与之相比，当income 未缺失时为。实际上，income 的缺失似乎影响多个定量（刻度）变量的平均值。此指示数据可能并未完全随机缺失。类别变量相对于指示变量的

6、交叉制表总计未婚已婚SysMis存在390358% SysMis380348418387423392101不显示少于 5% 个缺失值的指示变量。观察marital（婚姻状况）表，指示变量的缺失值数量在marital 类别之间似乎变化不大。一个人结婚与否似乎并不影响任何定量（刻度）变量的数据缺失情况。例如，% 未婚者报告address（当前地址居住年限），% 已婚者报告相同变量。差异很小并且很可能是巧合。未完成中学学历中学学历社区学院大学学位研究生学位240186563015522916519350291782542046027814818452.7180259207观察ed（教育程度）的交叉制

7、表。如果对象至少接受过大学教育，婚姻状况响应更可能缺失。未接受大学教育的对象中至少% 报告婚姻状况。另一方面，那些拥有大学学位的人中只有% 报告婚姻状况。对于那些曾接受大学教育但未获学位者，数量更少。是否744732198644038 在retire（退休）中可看到更大差异。那些退休者与那些未退休者相比更不可能报告其收入。退休客户中只有% 报告收入水平，而那些未退休者报告收入水平的百分比为。男女36345631381406412457400445420461 gender（性别）的另一差异明显。男性与女性相比，地址信息经常缺失。虽然这些差异可能是巧合，其似乎不可能。数据似乎并非随机完全缺失。制

8、表模式案例数缺失模式a完整数，如果 .bincomeceddretiredgenderd4758746312201274X58427171195144762166875145622124685266134883535594911049271849366083752022不显示少于 1% 个（10 个或更少）案例的模式。a. 以缺失模式排列变量。b. 完整案例数，如果未使用该模式（用 X 标记）中缺失的变量。c. 在各个唯一模式处的均值d. 在各个唯一模式处的频率分布制表模式显示个别个案中多个变量的数据是否往往缺失，有助于判断数据是否联合缺失。在超过1% 的个案中存在三种模式的联合缺失数据。变量

9、employ（当前工作年限）和retire（退休）与其它变量对相比更容易缺失。这并不奇怪，因为retire和employ 记录类似信息。如果您不知道对象是否退休，您很可能也不知道其当前工作年限。平均income（家庭收入）似乎因缺失值模式的不同变化很大。实际上，在marital（婚姻状况）缺失时，6%个案的平均Income更高。（当tenure（服务月数）缺失时其更高，但此模式只占% 个案。）请记住，那些接受更高水平教育者更不可能响应婚姻状况相关问题。您可以在ed（教育程度）频率中看到此倾向。通过假定那些接受更高水平教育者赚更多钱并且更不可能报告婚姻状况，我们可能解释income 的增加。注

10、：下表脚注中的：【Little 的 MCAR 检验】用来检验数据是否完全随机缺失（原假设为：是完全随机缺失）。EM 估计统计量EM 均值aa. Little 的 MCAR 检验:卡方 = ，DF = 107，显着性 = .000EM 协方差aEM 相关性a.496.505.655.291.406.334.519.673.461.591回归估计统计量回归均值aa. 将随机正态变量添加到各个估计。回归协方差a回归相关性a.482.498.654.389.311.533.676.582另外还有多重插补法，是综合多种插补缺失值的方法，确定插补数据，因此比单一插补方法更准确。操作步骤：【分析】【多重归因】【分析模式】/【归因缺失数据值】具体步骤（略）。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？