1、百分比低高tenure96835.5621.268323.2age97541.7512.573252.5address85011.479.96515015.09income82171.146283.1442417917.971employ90411.0010.113969.615reside9662.321.431343.433marital88511511.5ed965353.5retire916848.4gender958424.2a. 超出范围Q1 - 1.5*IQR,Q3 + 1.5*IQR的案例数。提供了数据的一般特征,给出了所有分析变量缺失数据的频数、百分比,定量变量的均值、标准差
2、、极值数目。income家庭收入有最多具有缺失值17.9%,也有最多的极值;而age年龄有最少缺失值5%。估计均值摘要所有值EM36.1241.9111.5877.394111.222.29回归35.7741.6811.5974.317410.99估计标准差摘要21.46812.69910.26587.5486010.1651.41621.18812.5349.93584.7143010.2421.423使用EM法和回归法进行缺失值的估计和替换后,总体数据的均值和标准差的变化情况,其中“所有值为原始数据特征,另两行分别是采用EM法、回归法得到的统计参数。单个方差 t 检验at.4.3.1.41
3、.0df202.2192.5313.6191.1199.5# 存在819832693766824# 缺失149143128138142均值存在35.6841.7974.077911.202.34均值缺失34.9141.4955.27349.862.21-5.0-8.3-3.9-5.93.6249.5222.8203.3315.279380174179217517415716333.9340.0110.679.912.3942.9749.7314.9715.932.02-1.0-.4-.7.5-.3110.5110.297.6114.9110.98778818749194809235.3441.
4、6911.3771.49532.3137.7042.2712.3267.91252.37.01.81.2-.8.9-2.2148.1149.5138.8121.2128.3134.2856862748728805857112113102939910942.0011.6170.388711.102.2835.5739.8510.4377.075310.172.61-.6.295.494.484.093.299.08888937777518273708135.4441.7011.4271.335636.8942.2911.9669.11432.30对于每个定量变量,由指示变量存在,缺失组成成对的组
5、。a. 不显示少于 5% 个缺失值的指示变量。通过单个方差t 检验有助于标识缺失值模式可能影响定量变量的变量。按照相应变量是否缺失将全部记录分为两组,再对所有定量变量在这两组间进行t检验。判断数据是否完全随机缺失表示缺失和变量的取值无关。例如,似乎年纪较长的响应者更不可能报告收入水平。当income 缺失时,平均age 为49.73,与之相比,当income 未缺失时为40.01。实际上,income 的缺失似乎影响多个定量刻度变量的平均值。此指示数据可能并未完全随机缺失。类别变量相对于指示变量的交叉制表总计未婚已婚SysMis存在39035885.085.583.488.7% SysMis1
6、4.516.611.338034882.183.381.180.916.718.919.141838790.491.790.286.18.39.813.942339210191.692.891.487.87.28.612.2不显示少于 5% 个缺失值的指示变量。观察marital婚姻状况表,指示变量的缺失值数量在marital 类别之间似乎变化不大。一个人结婚与否似乎并不影响任何定量刻度变量的数据缺失情况。例如,85.5% 未婚者报告address当前地址居住年限,83.4% 已婚者报告相同变量。差异很小并且很可能是巧合。未完成中学学历中学学历社区学院大学学位研究生学位240186563083
7、.285.788.481.987.516.814.311.618.112.5155229165193502979.181.878.182.920.918.221.917.11782542046090.890.789.993.89.29.310.16.32781481845288.598.599.374.781.31.5.725.318.818025920791.892.590.991.28.27.59.18.8观察ed教育程度的交叉制表。如果对象至少接受过大学教育,婚姻状况响应更可能缺失。未接受大学教育的对象中至少98.5% 报告婚姻状况。另一方面,那些拥有大学学位的人中只有81.1% 报告婚
8、姻状况。对于那些曾接受大学教育但未获学位者,数量更少。是否74480.586.919.513.17321983.746.316.353.78644098.71.32.4100.03888.892.711.27.3 在retire退休中可看到更大差异。那些退休者与那些未退休者相比更不可能报告其收入。退休客户中只有46.3% 报告收入水平,而那些未退休者报告收入水平的百分比为83.7。男女3634563178.691.973.821.48.126.238140682.581.017.519.041245789.292.110.87.940044586.689.795.213.410.34.8420
9、46192.97.1 gender性别的另一差异明显。男性与女性相比,地址信息经常缺失。虽然这些差异可能是巧合,其似乎不可能。数据似乎并非随机完全缺失。制表模式案例数缺失模式a完整数,如果 .bincomeceddretiredgenderd47576.58538746312201274X584271711951447621668751456254.436821246852661348856.0000353577.21675949147.81251049276.235371849354.111166083752059.459522不显示少于 1% 个10 个或更少案例的模式。a. 以缺失模式排
10、列变量。b. 完整案例数,如果未使用该模式用 X 标记中缺失的变量。c. 在各个唯一模式处的均值d. 在各个唯一模式处的频率分布制表模式显示个别个案中多个变量的数据是否往往缺失,有助于判断数据是否联合缺失。在超过1% 的个案中存在三种模式的联合缺失数据。变量employ当前工作年限和retire退休与其它变量对相比更容易缺失。这并不奇怪,因为retire和employ 记录类似信息。如果您不知道对象是否退休,您很可能也不知道其当前工作年限。平均income家庭收入似乎因缺失值模式的不同变化很大。实际上,在marital婚姻状况缺失时,6%个案的平均Income更高。当tenure效劳月数缺失时
11、其更高,但此模式只占1.7% 个案。 请记住,那些接受更高水平教育者更不可能响应婚姻状况相关问题。您可以在ed教育程度频率中看到此倾向。通过假定那些接受更高水平教育者赚更多钱并且更不可能报告婚姻状况,我们可能解释income 的增加。注:下表脚注中的:【Little 的 MCAR 检验】用来检验数据是否完全随机缺失原假设为:是完全随机缺失。EM 估计统计量EM 均值aa. Little 的 MCAR 检验:卡方 = 179.836,DF = 107,显著性 = .000EM 协方差a460.893135.326161.261111.34185.440105.372547.182451.109300.5337664.75710113.35986.87148.051525.81159103.326-1.107-4.538-3.098-14.60886-1.9162.006EM 相关性a.496.505.655.291.406.334.519.673.461.591-.036-.252-.213-.118-.133回归估计统计量回归均值aa. 将随机正态变量添加到各个估计。回归协方差a448.925127.960157.107104.77281.38798.710521.577413.579261.7817176.51298115.75186.
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1