SPSS系列09缺失值处理Word格式文档下载.docx

上传人:b****6 文档编号:16269809 上传时间:2022-11-22 格式:DOCX 页数:21 大小:403.91KB
下载 相关 举报
SPSS系列09缺失值处理Word格式文档下载.docx_第1页
第1页 / 共21页
SPSS系列09缺失值处理Word格式文档下载.docx_第2页
第2页 / 共21页
SPSS系列09缺失值处理Word格式文档下载.docx_第3页
第3页 / 共21页
SPSS系列09缺失值处理Word格式文档下载.docx_第4页
第4页 / 共21页
SPSS系列09缺失值处理Word格式文档下载.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

SPSS系列09缺失值处理Word格式文档下载.docx

《SPSS系列09缺失值处理Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《SPSS系列09缺失值处理Word格式文档下载.docx(21页珍藏版)》请在冰豆网上搜索。

SPSS系列09缺失值处理Word格式文档下载.docx

tenure

968

35.56

21.268

32

3.2

age

975

41.75

12.573

25

2.5

address

850

11.47

9.965

150

15.0

9

income

821

71.1462

83.14424

179

17.9

71

employ

904

11.00

10.113

96

9.6

15

reside

966

2.32

1.431

34

3.4

33

marital

885

115

11.5

ed

965

35

3.5

retire

916

84

8.4

gender

958

42

4.2

a.超出范围(Q1-1.5*IQR,Q3+1.5*IQR)的案例数。

提供了数据的一般特征,给出了所有分析变量缺失数据的频数、百分比,定量变量的均值、标准差、极值数目。

income(家庭收入)有最多具有缺失值(17.9%),也有最多的极值;

而age(年龄)有最少缺失值(5%)。

估计均值摘要

所有值

EM

36.12

41.91

11.58

77.3941

11.22

2.29

回归

35.77

41.68

11.59

74.3174

10.99

估计标准差摘要

21.468

12.699

10.265

87.54860

10.165

1.416

21.188

12.534

9.935

84.71430

10.242

1.423

使用EM法和回归法进行缺失值的估计和替换后,总体数据的均值和标准差的变化情况,其中“所有值”为原始数据特征,另两行分别是采用EM法、回归法得到的统计参数。

单个方差t检验a

t

.4

.3

.

1.4

1.0

df

202.2

192.5

313.6

191.1

199.5

#存在

819

832

693

766

824

#缺失

149

143

128

138

142

均值(存在)

35.68

41.79

74.0779

11.20

2.34

均值(缺失)

34.91

41.49

55.2734

9.86

2.21

-5.0

-8.3

-3.9

-5.9

3.6

249.5

222.8

203.3

315.2

793

801

741

792

175

174

157

163

33.93

40.01

10.67

9.91

2.39

42.97

49.73

14.97

15.93

2.02

-1.0

-.4

-.7

.5

-.3

110.5

110.2

97.6

114.9

110.9

877

881

874

91

94

80

92

35.34

41.69

11.37

71.4953

2.31

37.70

42.27

12.32

67.9125

2.37

.0

1.8

1.2

-.8

.9

-2.2

148.1

149.5

138.8

121.2

128.3

134.2

856

862

748

728

805

857

112

113

102

93

99

109

42.00

11.61

70.3887

11.10

2.28

35.57

39.85

10.43

77.0753

10.17

2.61

-.6

.2

95.4

94.4

84.0

93.2

99.0

888

893

777

751

82

73

70

81

35.44

41.70

11.42

71.3356

36.89

42.29

11.96

69.1143

2.30

对于每个定量变量,由指示变量(存在,缺失)组成成对的组。

a.不显示少于5%个缺失值的指示变量。

通过单个方差t检验有助于标识缺失值模式可能影响定量变量的变量。

按照相应变量是否缺失将全部记录分为两组,再对所有定量变量在这两组间进行t检验。

判断数据是否完全随机缺失(表示缺失和变量的取值无关)。

例如,似乎年纪较长的响应者更不可能报告收入水平。

当income缺失时,平均age为49.73,与之相比,当income未缺失时为40.01。

实际上,income的缺失似乎影响多个定量(刻度)变量的平均值。

此指示数据可能并未完全随机缺失。

类别变量相对于指示变量的交叉制表

总计

未婚

已婚

SysMis

存在

390

358

85.0

85.5

83.4

88.7

%SysMis

14.5

16.6

11.3

380

348

82.1

83.3

81.1

80.9

16.7

18.9

19.1

418

387

90.4

91.7

90.2

86.1

8.3

9.8

13.9

423

392

101

91.6

92.8

91.4

87.8

7.2

8.6

12.2

不显示少于5%个缺失值的指示变量。

观察marital(婚姻状况)表,指示变量的缺失值数量在marital类别之间似乎变化不大。

一个人结婚与否似乎并不影响任何定量(刻度)变量的数据缺失情况。

例如,85.5%未婚者报告address(当前地址居住年限),83.4%已婚者报告相同变量。

差异很小并且很可能是巧合。

未完成中学学历

中学学历

社区学院

大学学位

研究生学位

240

186

56

30

83.2

85.7

88.4

81.9

87.5

16.8

14.3

11.6

18.1

12.5

155

229

165

193

50

29

79.1

81.8

78.1

82.9

20.9

18.2

21.9

17.1

178

254

204

60

90.8

90.7

89.9

93.8

9.2

9.3

10.1

6.3

278

148

184

52

88.5

98.5

99.3

74.7

81.3

1.5

.7

25.3

18.8

180

259

207

91.8

92.5

90.9

91.2

8.2

7.5

9.1

8.8

观察ed(教育程度)的交叉制表。

如果对象至少接受过大学教育,婚姻状况响应更可能缺失。

未接受大学教育的对象中至少98.5%报告婚姻状况。

另一方面,那些拥有大学学位的人中只有81.1%报告婚姻状况。

对于那些曾接受大学教育但未获学位者,数量更少。

744

80.5

86.9

19.5

13.1

732

19

83.7

46.3

16.3

53.7

864

40

98.7

1.3

2.4

100.0

38

88.8

92.7

11.2

7.3

在retire(退休)中可看到更大差异。

那些退休者与那些未退休者相比更不可能报告其收入。

退休客户中只有46.3%报告收入水平,而那些未退休者报告收入水平的百分比为83.7。

363

456

31

78.6

91.9

73.8

21.4

8.1

26.2

381

406

82.5

81.0

17.5

19.0

412

457

89.2

92.1

10.8

7.9

400

445

86.6

89.7

95.2

13.4

10.3

4.8

420

461

92.9

7.1

gender(性别)的另一差异明显。

男性与女性相比,地址信息经常缺失。

虽然这些差异可能是巧合,其似乎不可能。

数据似乎并非随机完全缺失。

制表模式

案例数

缺失模式a

完整数,如果...b

incomec

edd

retired

genderd

475

76.5853

87

463

12

201

274

X

584

27

17

11

95

14

47

62

16

687

5

1

4

562

54.4368

21

24

6

85

2

66

13

488

56.0000

3

535

77.2167

59

491

47.8125

10

492

76.2353

7

18

493

54.1111

660

8

37

520

59.4595

22

不显示少于1%个(10个或更少)案例的模式。

a.以缺失模式排列变量。

b.完整案例数,如果未使用该模式(用X标记)中缺失的变量。

c.在各个唯一模式处的均值

d.在各个唯一模式处的频率分布

制表模式显示个别个案中多个变量的数据是否往往缺失,有助于判断数据是否联合缺失。

在超过1%的个案中存在三种模式的联合缺失数据。

变量employ(当前工作年限)和retire(退休)与其它变量对相比更容易缺失。

这并不奇怪,因为retire和employ记录类似信息。

如果您不知道对象是否退休,您很可能也不知道其当前工作年限。

平均income(家庭收入)似乎因缺失值模式的不同变化很大。

实际上,在marital(婚姻状况)缺失时,6%个案的平均Income更高。

(当tenure(服务月数)缺失时其更高,但此模式只占1.7%个案。

)请记住,那些接受更高水平教育者更不可能响应婚姻状况相关问题。

您可以在ed(教育程度)频率中看到此倾向。

通过假定那些接受更高水平教育者赚更多钱并且更不可能报告婚姻状况,我们可能解释income的增加。

注:

下表脚注中的:

【Little的MCAR检验】用来检验数据是否完全随机缺失(原假设为:

是完全随机缺失)。

EM估计统计量

EM均值a

a.Little的MCAR检验:

卡方=179.836,DF=107,显著性=.000

EM协方差a

460.893

135.326

161.261

111.341

85.440

105.372

547.182

451.109

300.533

7664.75710

113.359

86.871

48.051

525.81159

103.326

-1.107

-4.538

-3.098

-14.60886

-1.916

2.006

EM相关性a

.496

.505

.655

.291

.406

.334

.519

.673

.461

.591

-.036

-.252

-.213

-.118

-.133

回归估计统计量

回归均值a

a.将随机正态变量添加到各个估计。

回归协方差a

448.925

127.960

157.107

104.772

81.387

98.710

521.577

413.579

261.781

7176.51298

115.751

86.757

49.026

504.78905

104.906

-1

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1