试验数据的正态性检验数据的转换及卡方检验.docx
《试验数据的正态性检验数据的转换及卡方检验.docx》由会员分享,可在线阅读,更多相关《试验数据的正态性检验数据的转换及卡方检验.docx(24页珍藏版)》请在冰豆网上搜索。
试验数据的正态性检验数据的转换及卡方检验
试验数据的正态检验、数据的转换和卡方检验
一、符合正态分布的例子1
二、不符合正态分布的例子6
三、不符合正态分布数据的转换及转换后数据的方差分析11
四、次数分布资料的卡方检验14
在对试验数据进行方差分析前,应对数据的三性(即同质性、独立性和正态性)进行检验。
本文介绍对资料的正态性进行检验的方法,主要介绍3种检验方法:
(1)频数检验——作频率分布图、
看偏度系数和峰度系数,
(2)作Q-Q图检验,(3)非参数检验——单个样本K-S检验。
下面以两个试验数据为例,例1为84头育肥猪的体重数据,通常符合正态分布。
例2为生长育
肥猪7个试验处理组的腹泻率(百分数资料)统计结果,这类资料往往不符合正态,而大多数人以为是符合正态分布,进行方差分析的,因而不能得出正确的结论,去卩可能得出错误结论。
、符合正态分布的例子
【例1】84头生长育肥猪的“体重”数据如表1-1,检验该数据是否呈正态分布。
表1-184头育肥猪的“体重”数据(排序后)
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
No.
体重
1
55.3
11
71.6
21
78.3
31
81.2
41
84.6
51
88.6
61
92.0
71
99.4
81
107.4
2
58.2
12
72.1
22
78.7
32
82.2
42
84.7
52
88.8
62
92.0
72
100.7
82
109.0
3
60.2
13
72.8
23
78.8
33
82.4
43
84.7
53
89.2
63
92.2
73
102.4
83
112.8
4
64.8
14
73.6
24
79.1
34
82.8
44
85.0
54
89.9
64
93.0
74
103.0
84
113.2
5
65.8
15
75.9
25
79.3
35
82.8
45
85.3
55
90.4
65
94.2
75
105.4
6
66.7
16
76.1
26
79.7
36
82.8
46
85.7
56
90.9
66
95.3
76
105.4
7
67.9
17
77.0
27
80.2
37
83.5
47
86.4
57
91.0
67
97.0
77
105.4
8
68.4
18
77.1
28
80.6
38
83.7
48
86.8
58
91.1
68
97.8
78
106.0
9
70.1
19
77.2
29
81.1
39
84.3
49
87.3
59
91.2
69
98.4
79
106.2
10
70.8
20
78.1
30
81.1
40
84.4
50
87.4
60
91.4
70
98.5
80
107.3
检验方法一:
频数检验作频率分布图、看偏度系数和峰度系数
步骤1:
数据录入SPSS中,如图1-1。
步骤2:
在SPSS里执行“分析一>描述统计一>频率”,然后弹出“频率”对话框(图1-2a)量选择“体重”;再点右边的“统计量”按钮,弹出图“频率:
统计量”对话框(图1-2b)
,变
,选
择“偏度”和“丰度”(图1-2b);再点右边的“图表”按钮,弹出图“频率:
图表”对话框(图1-2c),选择“直方图”,并选中“在直方图显示正态曲线”
统计量
体重
N有效
84
缺失
0
偏度
.040
偏度的标准误
.263
峰度
-.202
峰度的标准误
.520
偏度系数=0.040,峰度系数-0.202;两个系数都小于1,可认为近似于正态分布。
再看直方图(图1-3),如下:
I■血
*申
图1-384头育肥猪体重的频数分布直方图
图1-3中横坐标为“增重”,纵坐标为增重出现的“频数”。
根据直方图及绘出的曲线,可以认为该数据近似正态分布。
检验方法二:
Q-Q图检验
步骤1:
数据录入SPSS中,如图1-1。
步骤2:
在SPSS里执行“描述统计一>Q-Q图”,弹出“Q-Q图”对话框,变量选择“体重”,检验分布选择“正态”(见图1-4),其他选择默认,然后“确定”。
QQFR
图1-4“Q-Q图”对话框
图1-584头生长育肥猪的正态Q-Q图
检验方法三:
非参数检验——单个样本K-S检验
步骤1:
数据录入SPSS中,如图1-1。
,弹出对话框,
(图1-6)o
步骤2:
在SPSS里执行"分析一>非参数检验一>旧对话框一>单个样本K-S检验”
检验变量选择“期初平均分”,检验分布选择“常规”(即正态分布),然后点“确
甲样本Kolmogorov-Smimov榆验
4^NO
a
•他症曲祐-
巫當理柩等W
kLI
臓厂I殛l重誼画|取泊r帶他
图1-6单样本K-S检验对话框
单样本Kolmogorov-Smirnov检验
体重
N
84
正态参数a,b
均值
85.9654
标准差
12.67824
最极端差别
绝对值
.061
正
.061
负
-.056
Kolmogorov-SmirnovZ
.563
渐近显著性(双侧)
.909
a.检验分布为正态分布
b.根据数据计算得到。
、不符合正态分布的例子
【例2】7个处理组,每个处理4个重复,每重复3头生长育肥猪全期(98天)的腹泻次数统计结果见表1-2。
“腹泻率”统计结果,检验其是否符合正态分布?
(腹泻指数为每天有1头猪发生腹
泻,记为1头次)。
表2-1生长育肥猪全期98天腹泻次数统计及腹泻率计算表
分组
重复(头数)
饲养天数
腹泻指数(腹泻头次)
总指数(总头数)
(=3*98)
全期腹泻率%
(=腹泻头次/总头次)
1
3
98
3
294
1.02
1
3
98
11
294
3.74
1
3
98
2
294
0.68
1
3
98
5
294
1.70
2
2
3
98
10
294
3.40
2
3
98
6
294
2.04
2
3
98
6
294
2.04
3
3
98
12
294
4.08
3
3
98
7
294
2.38
3
3
98
55
294
18.71
3
3
98
12
294
4.08
4
3
98
23
294
7.82
4
3
98
1
294
0.34
4
3
98
2
294
0.68
4
3
98
11
294
3.74
5
3
98
74
294
25.17
5
3
98
45
294
15.31
5
3
98
83
294
28.23
5
3
98
4
294
1.36
6
3
98
7
294
2.38
6
3
98
14
294
4.76
6
3
98
6
294
2.04
6
3
98
22
294
7.48
7
3
98
73
294
24.83
7
3
98
3
294
1.02
7
3
98
4
294
1.36
7
3
98
36
294
12.24
检验方法一:
频数检验作频率分布图、看偏度系数和峰度系数
步骤1:
数据录入SPSS中,如图2-1。
氓冃
饲养天藏
息指鬥
后朗腹淨串
1
1
3
死
3
2EM
1.02
.02
?
1
3
98
11
2&4
3"
1.32
3
1
3
98
2
294
68
•39
A
1
3
州
5
294
1.70
.53
5
?
6
2
3
98
10
妙
340
122
7
2
3
93
§
2.04
.71
6
2
3
98
6
2阳
?
04
.71
g
3
3
58
12
妙
4.00
1.41
10
3
3
98
7
2W
23S
.0?
11
3
3
58
55204
1S71
293
图2-1腹泻率数据录入SPSS中
步骤2:
在SPSS里执行“分析一>描述统计一>频率”,然后弹出“频率”对话框(图2-2a),变量选择“腹泻率”;再点右边的“统计量”按钮,弹出图“频率:
统计量”对话框(图2-2b),
设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看“统计
量”表,如下:
统计量
腹泻率
N有效
27
缺失
1
偏度
1.623
偏度的标准误
.448
峰度
1.433
峰度的标准误
.872
偏度系数=1.623,峰度系数1.433;两个系数都大于1,可认为不服从正态分布。
再看直方图(图
2-3),如下:
图2-3腹泻率的频数分布直方图
图2-3中横坐标为“腹泻率”,纵坐标为增重出现的“频数”。
根据直方图可以看出,分布显然是偏态的,与正态分布曲线相差甚远。
检验方法二:
Q-Q图检验
步骤1:
数据录入SPSS中,如图2-1。
步骤2:
在SPSS里执行“描述统计一>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”(见图2-4),其他选择默认,然后“确定”。
护備养犬的
”总械
v址数疣中佔计(目
I
iiift
]L牯贴Q|直蛊迟jJ|瞬|[帮的」
图2-4“Q-Q图”对话框
步骤1:
数据录入SPSS中,如图2-1。
步骤2:
在SPSS里执行“分析一>非参数检验一>旧对话框一>单个样本K-S检验”,弹出对话框,检验变量选择“腹泻率”,检验分布选择“常规”(即正态分布),然后点“确定”(图2-6)。
[fi]单样Kolmogorov-Smirnov
車饲养天进
Ld
zsffin
liZ
□汨松■屮n指歎井布隹]
[礪定j曲日巳|重理_|聊常,切即]
图2-6单样本K-S检验对话框
K-S检验中,Z值=1.544,渐近显著性(双侧)(即P值)=0.016<0.05,
检验结果为:
从结果可以看出,因此数据分布不符合正态分布。
单样本Kolmogorov-Smirnov检验
腹泻率
N
27
正态参数玄小
均值
6.7641
标准差
8.30213
最极端差别
绝对值
.299
正
.299
负
-.220
Kolmogorov-SmirnovZ
1.554
渐近显著性(双侧)
.016.
a.检验分布为正态分布
b.根据数据计算得到。
后记:
对于以上腹泻率百分数资料的正态性检验,结果表明不符合正态分布,因此不能用方差分析进行检验。
可进行数据转换(对数转换等),然后再对转换后的数据进行正态性检验,或采用其他检验方法(如卡方检验)。
数据的转换和卡方检验方法介绍如下:
三、不符合正态分布数据的转换及转换后数据的方差分析
3.1“自然对数转换”后的Q-Q图
对于以上【例2】的腹泻率数据进行自然对数转换,可在Q-Q图检验时,选择“自然对数转换”,步骤如下:
在SPSS里执行“描述统计一>Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验
分布选择“正态”,在转换中选择“自然对数转换”(见图3-1),其他选择默认,然后“确定”。
^VAR30015
Q-Q鬧
伯驶劳布仃)
正尬
曜从滋据中怙计㈢
1uni.
111*
比例怙计会式
*BtomORantatOTiAq^
CV^ri血rWarden尢牺指S:
的栈
聽均僵蟲)Q^(H)©岷吐)
确罡
ffi®
[豳j
当萌隹朗匚无
图3-1腹泻率自然对换转换后的“Q-Q图”对话框
C•制打开惊J9
3.2对自然对数转换后的数据作频率分布图、看偏度系数和峰度系数
将以上【例2】的腹泻率数据时行自然对数转换,结果如下表。
分组
重复(头数)
饲养天数
腹泻指数
(腹泻头次)
总指数
(总头数)
全期腹泻率
自然对数转换后的
腹泻率
1
3
98
3
294
1.02
0.02
1
3
98
11
294
3.74
1.32
1
3
98
2
294
0.68
-0.39
1
3
98
5
294
1.70
0.53
2
■
2
3
98
10
294
3.40
1.22
2
3
98
6
294
2.04
0.71
2
3
98
6
294
2.04
0.71
3
3
98
12
294
4.08
1.41
3
3
98
7
294
2.38
0.87
3
3
98
55
294
18.71
2.93
3
3
98
12
294
4.08
1.41
4
3
98
23
294
7.82
2.06
4
3
98
1
294
0.34
-1.08
4
3
98
2
294
0.68
-0.39
4
3
98
11
294
3.74
1.32
5
3
98
74
294
25.17
3.23
5
3
98
45
294
15.31
2.73
5
3
98
83
294
28.23
3.34
5
3
98
4
294
1.36
0.31
6
3
98
7
294
0.024
-3.738
6
3
98
14
294
0.048
-3.045
6
3
98
6
294
0.020
-3.892
6
3
98
22
294
0.075
-2.593
7
3
98
73
294
0.248
-1.393
7
3
98
3
294
0.010
-4.585
7
3
98
4
294
0.014
-4.297
7
3
98
36
294
0.122
-2.100
自然对数转换后腹泻率的频率分布图(直方图)、偏度系数和峰度系数如下:
图3-3自然对数转换后的腹泻率的直方图(近似正态分布)
统计量
自然对数转后的腹泻率
N有效
27
缺失
57
偏度
.212
偏度的标准误
.448
峰度
-.656
峰度的标准误
.872
自然对数转换后的腹泻率的偏度系数=0.213,峰度系数=-0.656,均小于1.0,表明符合正态分
布。
3.3数据转换前后的方差分析结果的比较
腹泻率数据转换前与转换后的各组平均数如下:
描述性统计量
分组
均值
标准偏差
N
腹泻率
1
1.7850
1.37058
4
2
2.4933
.78520
3
3
7.3125
7.64048
4
4
3.1450
3.47150
4
5
17.5175
12.10036
4
6
4.1650
2.51960
4
7
9.8625
11.25701
4
总计
6.7641
8.30213
27
自然对数转后的腹泻率
1
.3700
.73670
4
2
.8800
.29445
3
3
1.6550
.88730
4
4
.4775
1.45973
4
5
2.4025
1.42003
4
6
1.2875
.60665
4
7
1.5113
1.58538
4
总计
1.2391
1.19919
27
SPSS—般线性模型方差分析结果如下:
主体间效应的检验
源
因变量
III型平方和
df
均方
F
Sig.
分组
腹泻率
735.443
6
122.574
2.320
.073
自然对数转后的腹泻率
12.140
6
2.023
1.603
.198
误差
腹泻率
1056.615
20
52.831
自然对数转后的腹泻率
25.250
20
1.262
总计
腹泻率
3027.381
27
自然对数转后的腹泻率
78.843
27
方差分析结果显示:
腹泻率数据转换前的P=0.073>0.05,差异不显著;而转换后的腹泻率
P=0.198>0.05,仍然差异不显著。
四、次数分布资料的卡方检验
以上猪腹泻次数统计数据属于次数性资料,虽然换算成百分数后属于连续性资料,但经检验,不满足正态分布,因此不宜采用方差分析来检验各组腹泻率差异的显著性。
而经自然对数转换后,腹泻率基本满足正态分布条件,可采用方差分析。
但无论是转换前还转换后的腹泻率百分数资料,经以上方差分析显示,各组间腹泻率均差异不显著。
因此,有必要寻求其他种检验方法一一次数性资料的差异显著检验方法一一卡方检验来试一试。
表4-1生长育肥猪(98天)腹泻次数统计表
分组
头数
饲养天数
腹泻指数(腹泻头次)
总指数(总头数)
全期腹泻率
1
12
98
21
1176
1.79%
2
9
98
22
882
2.49%
3
12
98
86
1176
7.31%
4
12
98
206
1176
17.52%
5
12
98
49
1176
4.17%
6
12
98
116
1176
9.86%
7
12
98
37
1176
3.15%
腹泻次数一一观察值
分组
腹泻头次(山)
正常头次(n2)
合计头次(N)
腹泻率
1
21
1155
1176
1.79%
2
22
860
882
2.49%
3
86
1090
1176
7.31%
4
206
970
1176
17.52%
5
49
1127
1176
4.17%
6
116
1060
1176
9.86%
7
37
1139
1176
3.15%
合计
537
7401
7938
比例
0.068
0.932
1
腹泻次数一一理论值计算结果
分组
腹泻头次(山)
正常头次(n2)
合计头次(N)
1
79.6
1096.4
1176.0
2
59.7
822.3
882.0
3
79.6
1096.4
1176.0
4
79.6
1096.4
1176.0
5
79.6
1096.4
1176.0
6
79.6
1096.4
1176.0
7
79.6
1096.4
1176.0
合计
537.0
7401.0
7938.0
腹泻次数一一卡方值计算结果
分组
腹泻头次(山)
正常头次(n2)
合计头次(N)
1
43.10
3.13
46.23
2
23.78
1.73
25.50
3
0.52
0.04
0.56
4
200.97
14.58
215.55
5
11.74
0.85
12.59
6
16.70
1.21
17.91
7
22.76
1.65
24.42
合计
319.56
23.19
342.75
合计卡方值=342.75,查卡方分布表知其对应的P值=5.56E-71,差异极显著。
该检验结果与前
面方差分析结果大相径庭(见第三部分:
不符合正态分布数据的转换及转换数据的方差分析)。
后记:
可见以上腹泻次数资料(腹泻率百分数资料)不宜采用方差分析,而应考虑采用卡方检验。
范文素材和资料部分来自网络,供参考。
可复制、编制,期待你的好评与关注)