试验数据的正态性检验、数据的转换及卡方检验.doc

上传人:zf 文档编号:23161945 上传时间:2023-05-08 格式:DOC 页数:17 大小:441KB
下载 相关 举报
试验数据的正态性检验、数据的转换及卡方检验.doc_第1页
第1页 / 共17页
试验数据的正态性检验、数据的转换及卡方检验.doc_第2页
第2页 / 共17页
试验数据的正态性检验、数据的转换及卡方检验.doc_第3页
第3页 / 共17页
试验数据的正态性检验、数据的转换及卡方检验.doc_第4页
第4页 / 共17页
试验数据的正态性检验、数据的转换及卡方检验.doc_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

试验数据的正态性检验、数据的转换及卡方检验.doc

《试验数据的正态性检验、数据的转换及卡方检验.doc》由会员分享,可在线阅读,更多相关《试验数据的正态性检验、数据的转换及卡方检验.doc(17页珍藏版)》请在冰豆网上搜索。

试验数据的正态性检验、数据的转换及卡方检验.doc

.

试验数据的正态检验、数据的转换和卡方检验

目录

一、符合正态分布的例子 1

二、不符合正态分布的例子 6

三、不符合正态分布数据的转换及转换后数据的方差分析 11

四、次数分布资料的卡方检验 14

在对试验数据进行方差分析前,应对数据的三性(即同质性、独立性和正态性)进行检验。

本文介绍对资料的正态性进行检验的方法,主要介绍3种检验方法:

(1)频数检验——作频率分布图、看偏度系数和峰度系数,

(2)作Q-Q图检验,(3)非参数检验——单个样本K-S检验。

下面以两个试验数据为例,例1为84头育肥猪的体重数据,通常符合正态分布。

例2为生长育肥猪7个试验处理组的腹泻率(百分数资料)统计结果,这类资料往往不符合正态,而大多数人以为是符合正态分布,进行方差分析的,因而不能得出正确的结论,却可能得出错误结论。

一、符合正态分布的例子

【例1】84头生长育肥猪的“体重”数据如表1-1,检验该数据是否呈正态分布。

表1-184头育肥猪的“体重”数据(排序后)

No.

体重

No.

体重

No.

体重

No.

体重

No.

体重

No.

体重

No.

体重

No.

体重

No.

体重

1

55.3

11

71.6

21

78.3

31

81.2

41

84.6

51

88.6

61

92.0

71

99.4

81

107.4

2

58.2

12

72.1

22

78.7

32

82.2

42

84.7

52

88.8

62

92.0

72

100.7

82

109.0

3

60.2

13

72.8

23

78.8

33

82.4

43

84.7

53

89.2

63

92.2

73

102.4

83

112.8

4

64.8

14

73.6

24

79.1

34

82.8

44

85.0

54

89.9

64

93.0

74

103.0

84

113.2

5

65.8

15

75.9

25

79.3

35

82.8

45

85.3

55

90.4

65

94.2

75

105.4

6

66.7

16

76.1

26

79.7

36

82.8

46

85.7

56

90.9

66

95.3

76

105.4

7

67.9

17

77.0

27

80.2

37

83.5

47

86.4

57

91.0

67

97.0

77

105.4

8

68.4

18

77.1

28

80.6

38

83.7

48

86.8

58

91.1

68

97.8

78

106.0

9

70.1

19

77.2

29

81.1

39

84.3

49

87.3

59

91.2

69

98.4

79

106.2

10

70.8

20

78.1

30

81.1

40

84.4

50

87.4

60

91.4

70

98.5

80

107.3

检验方法一:

频数检验——作频率分布图、看偏度系数和峰度系数

步骤1:

数据录入SPSS中,如图1-1。

图1-1体重数据录入SPSS中

步骤2:

在SPSS里执行“分析—>描述统计—>频率”,然后弹出“频率”对话框(图1-2a),变量选择“体重”;再点右边的“统计量”按钮,弹出图“频率:

统计量”对话框(图1-2b),选择“偏度”和“丰度”(图1-2b);再点右边的“图表”按钮,弹出图“频率:

图表”对话框(图1-2c),选择“直方图”,并选中“在直方图显示正态曲线”

图1-2a“频率”对话框

图1-2b“频率:

统计量”对话框图1-2c“频率:

图表”对话框

  设置完后点“确定”后,就会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:

统计量

体重

N

有效

84

缺失

0

偏度

.040

偏度的标准误

.263

峰度

-.202

峰度的标准误

.520

偏度系数=0.040,峰度系数-0.202;两个系数都小于1,可认为近似于正态分布。

再看直方图(图1-3),如下:

图1-384头育肥猪体重的频数分布直方图

图1-3中横坐标为“增重”,纵坐标为增重出现的“频数”。

根据直方图及绘出的曲线,可以认为该数据近似正态分布。

检验方法二:

Q-Q图检验 

步骤1:

数据录入SPSS中,如图1-1。

步骤2:

在SPSS里执行“描述统计—>Q-Q图”,弹出“Q-Q图”对话框,变量选择“体重”,检验分布选择“正态”(见图1-4),其他选择默认,然后“确定”。

图1-4“Q-Q图”对话框

最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图1-5。

所有数据几乎在一条直线上,表明近似正态分布。

图1-584头生长育肥猪的正态Q-Q图

检验方法三:

非参数检验——单个样本K-S检验 

步骤1:

数据录入SPSS中,如图1-1。

步骤2:

在SPSS里执行“分析—>非参数检验—>旧对话框—>单个样本K-S检验”,弹出对话框,检验变量选择“期初平均分”,检验分布选择“常规”(即正态分布),然后点“确定”(图1-6)。

图1-6单样本K-S检验对话框

从以下结果可以看出,K-S检验中,Z值为0.563,渐近显著性(双侧)(即P值)=0.909>0.05,因此数据呈近似正态分布。

单样本Kolmogorov-Smirnov检验

体重

N

84

正态参数a,b

均值

85.9654

标准差

12.67824

最极端差别

绝对值

.061

.061

-.056

Kolmogorov-SmirnovZ

.563

渐近显著性(双侧)

.909

a.检验分布为正态分布。

b.根据数据计算得到。

二、不符合正态分布的例子

【例2】7个处理组,每个处理4个重复,每重复3头生长育肥猪全期(98天)的腹泻次数统计结果见表1-2。

“腹泻率”统计结果,检验其是否符合正态分布?

(腹泻指数为每天有1头猪发生腹泻,记为1头次)。

表2-1生长育肥猪全期98天腹泻次数统计及腹泻率计算表

分组

重复(头数)

饲养天数

腹泻指数(腹泻头次)

总指数(总头数)

(=3*98)

全期腹泻率%

(=腹泻头次/总头次)

1

3

98

3

294

1.02

1

3

98

11

294

3.74

1

3

98

2

294

0.68

1

3

98

5

294

1.70

2

 

2

3

98

10

294

3.40

2

3

98

6

294

2.04

2

3

98

6

294

2.04

3

3

98

12

294

4.08

3

3

98

7

294

2.38

3

3

98

55

294

18.71

3

3

98

12

294

4.08

4

3

98

23

294

7.82

4

3

98

1

294

0.34

4

3

98

2

294

0.68

4

3

98

11

294

3.74

5

3

98

74

294

25.17

5

3

98

45

294

15.31

5

3

98

83

294

28.23

5

3

98

4

294

1.36

6

3

98

7

294

2.38

6

3

98

14

294

4.76

6

3

98

6

294

2.04

6

3

98

22

294

7.48

7

3

98

73

294

24.83

7

3

98

3

294

1.02

7

3

98

4

294

1.36

7

3

98

36

294

12.24

检验方法一:

频数检验——作频率分布图、看偏度系数和峰度系数

步骤1:

数据录入SPSS中,如图2-1。

图2-1腹泻率数据录入SPSS中

步骤2:

在SPSS里执行“分析—>描述统计—>频率”,然后弹出“频率”对话框(图2-2a),变量选择“腹泻率”;再点右边的“统计量”按钮,弹出图“频率:

统计量”对话框(图2-2b),选择“偏度”和“丰度”(图2-2b);再点右边的“图表”按钮,弹出图“频率:

图表”对话框(图2-2c),选择“直方图”,并选中“在直方图显示正态曲线”

图2-2a“频率”对话框

图2-2b“频率:

统计量”对话框图2-2c“频率:

图表”对话框

  设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:

统计量

腹泻率

N

有效

27

缺失

1

偏度

1.623

偏度的标准误

.448

峰度

1.433

峰度的标准误

.872

偏度系数=1.623,峰度系数1.433;两个系数都大于1,可认为不服从正态分布。

再看直方图(图2-3),如下:

图2-3腹泻率的频数分布直方图

图2-3中横坐标为“腹泻率”,纵坐标为增重出现的“频数”。

根据直方图可以看出,分布显然是偏态的,与正态分布曲线相差甚远。

检验方法二:

Q-Q图检验 

步骤1:

数据录入SPSS中,如图2-1。

步骤2:

在SPSS里执行“描述统计—>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”(见图2-4),其他选择默认,然后“确定”。

图2-4“Q-Q图”对话框

最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图2-5。

腹泻率数据不在一条直线上,表明不符合正态分布。

图2-5腹泻率的正态Q-Q图

检验方法三:

非参数检验——单个样本K-S检验 

步骤1:

数据录入SPSS中,如图2-1。

步骤2:

在SPSS里执行“分析—>非参数检验—>旧对话框—>单个样本K-S检验”,弹出对话框,检验变量选择“腹泻率”,检验分布选择“常规”(即正态分布),然后点“确定”(图2-6)。

图2-6单样本K-S检验对话框

检验结果为:

从结果可以看出,K-S检验中,Z值=1.544,渐近显著性(双侧)(即P值)=0.016<0.05,因此数据分布不符合正态分布。

单样本Kolmogorov-Smirnov检验

腹泻率

N

27

正态参数a,b

均值

6.7641

标准差

8.30213

最极端差别

绝对值

.299

.299

-.220

Kolmogorov-SmirnovZ

1.554

渐近显著性(双侧)

.016

a.检验分布为正态分布。

b.根据数据计算得到。

后记:

对于以上腹泻率百分数资料的正态性检验,结果表明不符合正态分布,因此不能用方差分析进行检验。

可进行数据转换(对数转换等),然后再对转换后的数据进行正态性检验,或采用其他检验方法(如卡方检验)。

数据的转换和卡方检验方法介绍如下:

三、不符合正态分布数据的转换及转换后数据的方差分析

3.1“自然对数转换”后的Q-Q图

对于以上【例2】的腹泻率数据进行自然对数转换,可在Q-Q图检验时,选择“自然对数转换”,步骤如下:

在SPSS里执行“描述统计—>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”,在转换中选择“自然对数转换”(见图3-1),其他选择默认,然后“确定”。

图3-1腹泻率自然对换转换后的“Q-Q图”对话框

输出结果见图3-2。

可见所有数据几乎在一条直线上,可认为近似正态分布。

图3-2腹泻率自然对换转换后的“Q-Q图”

3.2对自然对数转换后的数据作频率分布图、看偏度系数和峰度系数

将以上【例2】的腹泻率数据时行自然对数转换,结果如下表。

分组

重复(头数)

饲养天数

腹泻指数

(腹泻头次)

总指数

(总头数)

全期腹泻率

自然对数转换后的

腹泻率

1

3

98

3

294

1.02

0.02

1

3

98

11

294

3.74

1.32

1

3

98

2

294

0.68

-0.39

1

3

98

5

294

1.70

0.53

2

 

 

 

 

 

 

2

3

98

10

294

3.40

1.22

2

3

98

6

294

2.04

0.71

2

3

98

6

294

2.04

0.71

3

3

98

12

294

4.08

1.41

3

3

98

7

294

2.38

0.87

3

3

98

55

294

18.71

2.93

3

3

98

12

294

4.08

1.41

4

3

98

23

294

7.82

2.06

4

3

98

1

294

0.34

-1.08

4

3

98

2

294

0.68

-0.39

4

3

98

11

294

3.74

1.32

5

3

98

74

294

25.17

3.23

5

3

98

45

294

15.31

2.73

5

3

98

83

294

28.23

3.34

5

3

98

4

294

1.36

0.31

6

3

98

7

294

0.024

-3.738

6

3

98

14

294

0.048

-3.045

6

3

98

6

294

0.020

-3.892

6

3

98

22

294

0.075

-2.593

7

3

98

73

294

0.248

-1.393

7

3

98

3

294

0.010

-4.585

7

3

98

4

294

0.014

-4.297

7

3

98

36

294

0.122

-2.100

自然对数转换后腹泻率的频率分布图(直方图)、偏度系数和峰度系数如下:

图3-3自然对数转换后的腹泻率的直方图(近似正态分布)

统计量

自然对数转后的腹泻率

N

有效

27

缺失

57

偏度

.212

偏度的标准误

.448

峰度

-.656

峰度的标准误

.872

自然对数转换后的腹泻率的偏度系数=0.213,峰度系数=-0.656,均小于1.0,表明符合正态分布。

3.3数据转换前后的方差分析结果的比较

腹泻率数据转换前与转换后的各组平均数如下:

描述性统计量

分组

均值

标准偏差

N

腹泻率

1

1.7850

1.37058

4

2

2.4933

.78520

3

3

7.3125

7.64048

4

4

3.1450

3.47150

4

5

17.5175

12.10036

4

6

4.1650

2.51960

4

7

9.8625

11.25701

4

总计

6.7641

8.30213

27

自然对数转后的腹泻率

1

.3700

.73670

4

2

.8800

.29445

3

3

1.6550

.88730

4

4

.4775

1.45973

4

5

2.4025

1.42003

4

6

1.2875

.60665

4

7

1.5113

1.58538

4

总计

1.2391

1.19919

27

SPSS一般线性模型方差分析结果如下:

主体间效应的检验

因变量

III型平方和

df

均方

F

Sig.

分组

腹泻率

735.443

6

122.574

2.320

.073

自然对数转后的腹泻率

12.140

6

2.023

1.603

.198

误差

腹泻率

1056.615

20

52.831

自然对数转后的腹泻率

25.250

20

1.262

总计

腹泻率

3027.381

27

自然对数转后的腹泻率

78.843

27

方差分析结果显示:

腹泻率数据转换前的P=0.073>0.05,差异不显著;而转换后的腹泻率P=0.198>0.05,仍然差异不显著。

四、次数分布资料的卡方检验

以上猪腹泻次数统计数据属于次数性资料,虽然换算成百分数后属于连续性资料,但经检验,不满足正态分布,因此不宜采用方差分析来检验各组腹泻率差异的显著性。

而经自然对数转换后,腹泻率基本满足正态分布条件,可采用方差分析。

但无论是转换前还转换后的腹泻率百分数资料,经以上方差分析显示,各组间腹泻率均差异不显著。

因此,有必要寻求其他种检验方法——次数性资料的差异显著检验方法——卡方检验来试一试。

表4-1生长育肥猪(98天)腹泻次数统计表

分组

头数

饲养天数

腹泻指数(腹泻头次)

总指数(总头数)

全期腹泻率

1

12

98

21

1176

1.79%

2

9

98

22

882

2.49%

3

12

98

86

1176

7.31%

4

12

98

206

1176

17.52%

5

12

98

49

1176

4.17%

6

12

98

116

1176

9.86%

7

12

98

37

1176

3.15%

表4-2生长育肥猪(98天)腹泻次数资料——卡方检验表

腹泻次数——观察值

分组

腹泻头次(n1)

正常头次(n2)

合计头次(N)

腹泻率

1

21

1155

1176

1.79%

2

22

860

882

2.49%

3

86

1090

1176

7.31%

4

206

970

1176

17.52%

5

49

1127

1176

4.17%

6

116

1060

1176

9.86%

7

37

1139

1176

3.15%

合计

537

7401

7938

比例

0.068

0.932

1

 腹泻次数——理论值计算结果 

分组

腹泻头次(n1)

正常头次(n2)

合计头次(N)

1

79.6

1096.4

1176.0

 

2

59.7

822.3

882.0

 

3

79.6

1096.4

1176.0

 

4

79.6

1096.4

1176.0

 

5

79.6

1096.4

1176.0

 

6

79.6

1096.4

1176.0

 

7

79.6

1096.4

1176.0

 

合计

537.0

7401.0

7938.0

 

 腹泻次数——卡方值计算结果 

分组

腹泻头次(n1)

正常头次(n2)

合计头次(N)

 

1

43.10

3.13

46.23

 

2

23.78

1.73

25.50

 

3

0.52

0.04

0.56

 

4

200.97

14.58

215.55

 

5

11.74

0.85

12.59

 

6

16.70

1.21

17.91

 

7

22.76

1.65

24.42

 

合计

319.56

23.19

342.75

 

合计卡方值=342.75,查卡方分布表知其对应的P值=5.56E-71,差异极显著。

该检验结果与前面方差分析结果大相径庭(见第三部分:

不符合正态分布数据的转换及转换数据的方差分析)。

后记:

可见以上腹泻次数资料(腹泻率百分数资料)不宜采用方差分析,而应考虑采用卡方检验。

.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工程科技 > 兵器核科学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1