试验数据的正态性检验、数据的转换及卡方检验.doc
《试验数据的正态性检验、数据的转换及卡方检验.doc》由会员分享,可在线阅读,更多相关《试验数据的正态性检验、数据的转换及卡方检验.doc(17页珍藏版)》请在冰豆网上搜索。
.
试验数据的正态检验、数据的转换和卡方检验
目录
一、符合正态分布的例子 1
二、不符合正态分布的例子 6
三、不符合正态分布数据的转换及转换后数据的方差分析 11
四、次数分布资料的卡方检验 14
在对试验数据进行方差分析前,应对数据的三性(即同质性、独立性和正态性)进行检验。
本文介绍对资料的正态性进行检验的方法,主要介绍3种检验方法:
(1)频数检验——作频率分布图、看偏度系数和峰度系数,
(2)作Q-Q图检验,(3)非参数检验——单个样本K-S检验。
下面以两个试验数据为例,例1为84头育肥猪的体重数据,通常符合正态分布。
例2为生长育肥猪7个试验处理组的腹泻率(百分数资料)统计结果,这类资料往往不符合正态,而大多数人以为是符合正态分布,进行方差分析的,因而不能得出正确的结论,却可能得出错误结论。
一、符合正态分布的例子
【例1】84头生长育肥猪的“体重”数据如表1-1,检验该数据是否呈正态分布。
表1-184头育肥猪的“体重”数据(排序后)
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
1
55.3
11
71.6
21
78.3
31
81.2
41
84.6
51
88.6
61
92.0
71
99.4
81
107.4
2
58.2
12
72.1
22
78.7
32
82.2
42
84.7
52
88.8
62
92.0
72
100.7
82
109.0
3
60.2
13
72.8
23
78.8
33
82.4
43
84.7
53
89.2
63
92.2
73
102.4
83
112.8
4
64.8
14
73.6
24
79.1
34
82.8
44
85.0
54
89.9
64
93.0
74
103.0
84
113.2
5
65.8
15
75.9
25
79.3
35
82.8
45
85.3
55
90.4
65
94.2
75
105.4
6
66.7
16
76.1
26
79.7
36
82.8
46
85.7
56
90.9
66
95.3
76
105.4
7
67.9
17
77.0
27
80.2
37
83.5
47
86.4
57
91.0
67
97.0
77
105.4
8
68.4
18
77.1
28
80.6
38
83.7
48
86.8
58
91.1
68
97.8
78
106.0
9
70.1
19
77.2
29
81.1
39
84.3
49
87.3
59
91.2
69
98.4
79
106.2
10
70.8
20
78.1
30
81.1
40
84.4
50
87.4
60
91.4
70
98.5
80
107.3
检验方法一:
频数检验——作频率分布图、看偏度系数和峰度系数
步骤1:
数据录入SPSS中,如图1-1。
图1-1体重数据录入SPSS中
步骤2:
在SPSS里执行“分析—>描述统计—>频率”,然后弹出“频率”对话框(图1-2a),变量选择“体重”;再点右边的“统计量”按钮,弹出图“频率:
统计量”对话框(图1-2b),选择“偏度”和“丰度”(图1-2b);再点右边的“图表”按钮,弹出图“频率:
图表”对话框(图1-2c),选择“直方图”,并选中“在直方图显示正态曲线”
图1-2a“频率”对话框
图1-2b“频率:
统计量”对话框图1-2c“频率:
图表”对话框
设置完后点“确定”后,就会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:
统计量
体重
N
有效
84
缺失
0
偏度
.040
偏度的标准误
.263
峰度
-.202
峰度的标准误
.520
偏度系数=0.040,峰度系数-0.202;两个系数都小于1,可认为近似于正态分布。
再看直方图(图1-3),如下:
图1-384头育肥猪体重的频数分布直方图
图1-3中横坐标为“增重”,纵坐标为增重出现的“频数”。
根据直方图及绘出的曲线,可以认为该数据近似正态分布。
检验方法二:
Q-Q图检验
步骤1:
数据录入SPSS中,如图1-1。
步骤2:
在SPSS里执行“描述统计—>Q-Q图”,弹出“Q-Q图”对话框,变量选择“体重”,检验分布选择“正态”(见图1-4),其他选择默认,然后“确定”。
图1-4“Q-Q图”对话框
最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图1-5。
所有数据几乎在一条直线上,表明近似正态分布。
图1-584头生长育肥猪的正态Q-Q图
检验方法三:
非参数检验——单个样本K-S检验
步骤1:
数据录入SPSS中,如图1-1。
步骤2:
在SPSS里执行“分析—>非参数检验—>旧对话框—>单个样本K-S检验”,弹出对话框,检验变量选择“期初平均分”,检验分布选择“常规”(即正态分布),然后点“确定”(图1-6)。
图1-6单样本K-S检验对话框
从以下结果可以看出,K-S检验中,Z值为0.563,渐近显著性(双侧)(即P值)=0.909>0.05,因此数据呈近似正态分布。
单样本Kolmogorov-Smirnov检验
体重
N
84
正态参数a,b
均值
85.9654
标准差
12.67824
最极端差别
绝对值
.061
正
.061
负
-.056
Kolmogorov-SmirnovZ
.563
渐近显著性(双侧)
.909
a.检验分布为正态分布。
b.根据数据计算得到。
二、不符合正态分布的例子
【例2】7个处理组,每个处理4个重复,每重复3头生长育肥猪全期(98天)的腹泻次数统计结果见表1-2。
“腹泻率”统计结果,检验其是否符合正态分布?
(腹泻指数为每天有1头猪发生腹泻,记为1头次)。
表2-1生长育肥猪全期98天腹泻次数统计及腹泻率计算表
分组
重复(头数)
饲养天数
腹泻指数(腹泻头次)
总指数(总头数)
(=3*98)
全期腹泻率%
(=腹泻头次/总头次)
1
3
98
3
294
1.02
1
3
98
11
294
3.74
1
3
98
2
294
0.68
1
3
98
5
294
1.70
2
2
3
98
10
294
3.40
2
3
98
6
294
2.04
2
3
98
6
294
2.04
3
3
98
12
294
4.08
3
3
98
7
294
2.38
3
3
98
55
294
18.71
3
3
98
12
294
4.08
4
3
98
23
294
7.82
4
3
98
1
294
0.34
4
3
98
2
294
0.68
4
3
98
11
294
3.74
5
3
98
74
294
25.17
5
3
98
45
294
15.31
5
3
98
83
294
28.23
5
3
98
4
294
1.36
6
3
98
7
294
2.38
6
3
98
14
294
4.76
6
3
98
6
294
2.04
6
3
98
22
294
7.48
7
3
98
73
294
24.83
7
3
98
3
294
1.02
7
3
98
4
294
1.36
7
3
98
36
294
12.24
检验方法一:
频数检验——作频率分布图、看偏度系数和峰度系数
步骤1:
数据录入SPSS中,如图2-1。
图2-1腹泻率数据录入SPSS中
步骤2:
在SPSS里执行“分析—>描述统计—>频率”,然后弹出“频率”对话框(图2-2a),变量选择“腹泻率”;再点右边的“统计量”按钮,弹出图“频率:
统计量”对话框(图2-2b),选择“偏度”和“丰度”(图2-2b);再点右边的“图表”按钮,弹出图“频率:
图表”对话框(图2-2c),选择“直方图”,并选中“在直方图显示正态曲线”
图2-2a“频率”对话框
图2-2b“频率:
统计量”对话框图2-2c“频率:
图表”对话框
设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:
统计量
腹泻率
N
有效
27
缺失
1
偏度
1.623
偏度的标准误
.448
峰度
1.433
峰度的标准误
.872
偏度系数=1.623,峰度系数1.433;两个系数都大于1,可认为不服从正态分布。
再看直方图(图2-3),如下:
图2-3腹泻率的频数分布直方图
图2-3中横坐标为“腹泻率”,纵坐标为增重出现的“频数”。
根据直方图可以看出,分布显然是偏态的,与正态分布曲线相差甚远。
检验方法二:
Q-Q图检验
步骤1:
数据录入SPSS中,如图2-1。
步骤2:
在SPSS里执行“描述统计—>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”(见图2-4),其他选择默认,然后“确定”。
图2-4“Q-Q图”对话框
最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图2-5。
腹泻率数据不在一条直线上,表明不符合正态分布。
图2-5腹泻率的正态Q-Q图
检验方法三:
非参数检验——单个样本K-S检验
步骤1:
数据录入SPSS中,如图2-1。
步骤2:
在SPSS里执行“分析—>非参数检验—>旧对话框—>单个样本K-S检验”,弹出对话框,检验变量选择“腹泻率”,检验分布选择“常规”(即正态分布),然后点“确定”(图2-6)。
图2-6单样本K-S检验对话框
检验结果为:
从结果可以看出,K-S检验中,Z值=1.544,渐近显著性(双侧)(即P值)=0.016<0.05,因此数据分布不符合正态分布。
单样本Kolmogorov-Smirnov检验
腹泻率
N
27
正态参数a,b
均值
6.7641
标准差
8.30213
最极端差别
绝对值
.299
正
.299
负
-.220
Kolmogorov-SmirnovZ
1.554
渐近显著性(双侧)
.016
a.检验分布为正态分布。
b.根据数据计算得到。
后记:
对于以上腹泻率百分数资料的正态性检验,结果表明不符合正态分布,因此不能用方差分析进行检验。
可进行数据转换(对数转换等),然后再对转换后的数据进行正态性检验,或采用其他检验方法(如卡方检验)。
数据的转换和卡方检验方法介绍如下:
三、不符合正态分布数据的转换及转换后数据的方差分析
3.1“自然对数转换”后的Q-Q图
对于以上【例2】的腹泻率数据进行自然对数转换,可在Q-Q图检验时,选择“自然对数转换”,步骤如下:
在SPSS里执行“描述统计—>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”,在转换中选择“自然对数转换”(见图3-1),其他选择默认,然后“确定”。
图3-1腹泻率自然对换转换后的“Q-Q图”对话框
输出结果见图3-2。
可见所有数据几乎在一条直线上,可认为近似正态分布。
图3-2腹泻率自然对换转换后的“Q-Q图”
3.2对自然对数转换后的数据作频率分布图、看偏度系数和峰度系数
将以上【例2】的腹泻率数据时行自然对数转换,结果如下表。
分组
重复(头数)
饲养天数
腹泻指数
(腹泻头次)
总指数
(总头数)
全期腹泻率
自然对数转换后的
腹泻率
1
3
98
3
294
1.02
0.02
1
3
98
11
294
3.74
1.32
1
3
98
2
294
0.68
-0.39
1
3
98
5
294
1.70
0.53
2
2
3
98
10
294
3.40
1.22
2
3
98
6
294
2.04
0.71
2
3
98
6
294
2.04
0.71
3
3
98
12
294
4.08
1.41
3
3
98
7
294
2.38
0.87
3
3
98
55
294
18.71
2.93
3
3
98
12
294
4.08
1.41
4
3
98
23
294
7.82
2.06
4
3
98
1
294
0.34
-1.08
4
3
98
2
294
0.68
-0.39
4
3
98
11
294
3.74
1.32
5
3
98
74
294
25.17
3.23
5
3
98
45
294
15.31
2.73
5
3
98
83
294
28.23
3.34
5
3
98
4
294
1.36
0.31
6
3
98
7
294
0.024
-3.738
6
3
98
14
294
0.048
-3.045
6
3
98
6
294
0.020
-3.892
6
3
98
22
294
0.075
-2.593
7
3
98
73
294
0.248
-1.393
7
3
98
3
294
0.010
-4.585
7
3
98
4
294
0.014
-4.297
7
3
98
36
294
0.122
-2.100
自然对数转换后腹泻率的频率分布图(直方图)、偏度系数和峰度系数如下:
图3-3自然对数转换后的腹泻率的直方图(近似正态分布)
统计量
自然对数转后的腹泻率
N
有效
27
缺失
57
偏度
.212
偏度的标准误
.448
峰度
-.656
峰度的标准误
.872
自然对数转换后的腹泻率的偏度系数=0.213,峰度系数=-0.656,均小于1.0,表明符合正态分布。
3.3数据转换前后的方差分析结果的比较
腹泻率数据转换前与转换后的各组平均数如下:
描述性统计量
分组
均值
标准偏差
N
腹泻率
1
1.7850
1.37058
4
2
2.4933
.78520
3
3
7.3125
7.64048
4
4
3.1450
3.47150
4
5
17.5175
12.10036
4
6
4.1650
2.51960
4
7
9.8625
11.25701
4
总计
6.7641
8.30213
27
自然对数转后的腹泻率
1
.3700
.73670
4
2
.8800
.29445
3
3
1.6550
.88730
4
4
.4775
1.45973
4
5
2.4025
1.42003
4
6
1.2875
.60665
4
7
1.5113
1.58538
4
总计
1.2391
1.19919
27
SPSS一般线性模型方差分析结果如下:
主体间效应的检验
源
因变量
III型平方和
df
均方
F
Sig.
分组
腹泻率
735.443
6
122.574
2.320
.073
自然对数转后的腹泻率
12.140
6
2.023
1.603
.198
误差
腹泻率
1056.615
20
52.831
自然对数转后的腹泻率
25.250
20
1.262
总计
腹泻率
3027.381
27
自然对数转后的腹泻率
78.843
27
方差分析结果显示:
腹泻率数据转换前的P=0.073>0.05,差异不显著;而转换后的腹泻率P=0.198>0.05,仍然差异不显著。
四、次数分布资料的卡方检验
以上猪腹泻次数统计数据属于次数性资料,虽然换算成百分数后属于连续性资料,但经检验,不满足正态分布,因此不宜采用方差分析来检验各组腹泻率差异的显著性。
而经自然对数转换后,腹泻率基本满足正态分布条件,可采用方差分析。
但无论是转换前还转换后的腹泻率百分数资料,经以上方差分析显示,各组间腹泻率均差异不显著。
因此,有必要寻求其他种检验方法——次数性资料的差异显著检验方法——卡方检验来试一试。
表4-1生长育肥猪(98天)腹泻次数统计表
分组
头数
饲养天数
腹泻指数(腹泻头次)
总指数(总头数)
全期腹泻率
1
12
98
21
1176
1.79%
2
9
98
22
882
2.49%
3
12
98
86
1176
7.31%
4
12
98
206
1176
17.52%
5
12
98
49
1176
4.17%
6
12
98
116
1176
9.86%
7
12
98
37
1176
3.15%
表4-2生长育肥猪(98天)腹泻次数资料——卡方检验表
腹泻次数——观察值
分组
腹泻头次(n1)
正常头次(n2)
合计头次(N)
腹泻率
1
21
1155
1176
1.79%
2
22
860
882
2.49%
3
86
1090
1176
7.31%
4
206
970
1176
17.52%
5
49
1127
1176
4.17%
6
116
1060
1176
9.86%
7
37
1139
1176
3.15%
合计
537
7401
7938
比例
0.068
0.932
1
腹泻次数——理论值计算结果
分组
腹泻头次(n1)
正常头次(n2)
合计头次(N)
1
79.6
1096.4
1176.0
2
59.7
822.3
882.0
3
79.6
1096.4
1176.0
4
79.6
1096.4
1176.0
5
79.6
1096.4
1176.0
6
79.6
1096.4
1176.0
7
79.6
1096.4
1176.0
合计
537.0
7401.0
7938.0
腹泻次数——卡方值计算结果
分组
腹泻头次(n1)
正常头次(n2)
合计头次(N)
1
43.10
3.13
46.23
2
23.78
1.73
25.50
3
0.52
0.04
0.56
4
200.97
14.58
215.55
5
11.74
0.85
12.59
6
16.70
1.21
17.91
7
22.76
1.65
24.42
合计
319.56
23.19
342.75
合计卡方值=342.75,查卡方分布表知其对应的P值=5.56E-71,差异极显著。
该检验结果与前面方差分析结果大相径庭(见第三部分:
不符合正态分布数据的转换及转换数据的方差分析)。
后记:
可见以上腹泻次数资料(腹泻率百分数资料)不宜采用方差分析,而应考虑采用卡方检验。
.