试验数据正态性检验数据转换及卡方检验文档格式.docx
《试验数据正态性检验数据转换及卡方检验文档格式.docx》由会员分享,可在线阅读,更多相关《试验数据正态性检验数据转换及卡方检验文档格式.docx(19页珍藏版)》请在冰豆网上搜索。
78.8
33
82.4
43
53
89.2
63
92.2
73
102.4
83
112.8
4
64.8
14
73.6
24
79.1
34
82.8
44
85.0
54
89.9
64
93.0
74
103.0
84
113.2
5
65.8
15
75.9
25
79.3
35
45
85.3
55
90.4
65
94.2
75
105.4
6
66.7
16
76.1
26
79.7
36
46
85.7
56
90.9
66
95.3
76
7
67.9
17
77.0
27
80.2
37
83.5
47
86.4
57
91.0
67
97.0
77
8
68.4
18
77.1
28
80.6
38
83.7
48
86.8
58
91.1
68
97.8
78
106.0
9
70.1
19
77.2
29
81.1
39
84.3
49
87.3
59
91.2
69
98.4
79
106.2
10
70.8
20
78.1
30
40
84.4
50
87.4
60
91.4
70
98.5
80
107.3
检验方法一:
频数检验——作频率分布图、看偏度系数和峰度系数
步骤1:
数据录入SPSS中,如图1-1。
图1-1体重数据录入SPSS中
步骤2:
在SPSS里执行“分析—>
描述统计—>
频率”,然后弹出“频率”对话框(图1-2a),变量选择“体重”;
再点右边的“统计量”按钮,弹出图“频率:
统计量”对话框(图1-2b),选择“偏度”和“丰度”(图1-2b);
再点右边的“图表”按钮,弹出图“频率:
图表”对话框(图1-2c),选择“直方图”,并选中“在直方图显示正态曲线”
图1-2a“频率”对话框
图1-2b“频率:
统计量”对话框图1-2c“频率:
图表”对话框
设置完后点“确定”后,就会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:
统计量
N
有效
缺失
偏度
.040
偏度的标准误
.263
峰度
-.202
峰度的标准误
.520
偏度系数=0.040,峰度系数-0.202;
两个系数都小于1,可认为近似于正态分布。
再看直方图(图1-3),如下:
图1-384头育肥猪体重的频数分布直方图
图1-3中横坐标为“增重”,纵坐标为增重出现的“频数”。
根据直方图与绘出的曲线,可以认为该数据近似正态分布。
检验方法二:
Q-Q图检验
在SPSS里执行“描述统计—>
Q-Q图”,弹出“Q-Q图”对话框,变量选择“体重”,检验分布选择“正态”(见图1-4),其他选择默认,然后“确定”。
图1-4“Q-Q图”对话框
最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图1-5。
所有数据几乎在一条直线上,表明近似正态分布。
图1-584头生长育肥猪的正态Q-Q图
检验方法三:
非参数检验——单个样本K-S检验
非参数检验—>
旧对话框—>
单个样本K-S检验”,弹出对话框,检验变量选择“期初平均分”,检验分布选择“常规”(即正态分布),然后点“确定”(图1-6)。
图1-6单样本K-S检验对话框
从以下结果可以看出,K-S检验中,Z值为0.563,渐近显著性(双侧)(即P值)=0.909>
0.05,因此数据呈近似正态分布。
单样本Kolmogorov-Smirnov检验
正态参数a,b
均值
85.9654
标准差
12.67824
最极端差别
绝对值
.061
正
负
-.056
Kolmogorov-SmirnovZ
.563
渐近显著性(双侧)
.909
a.检验分布为正态分布。
b.根据数据计算得到。
二、不符合正态分布的例子
【例2】7个处理组,每个处理4个重复,每重复3头生长育肥猪全期(98天)的腹泻次数统计结果见表1-2。
“腹泻率”统计结果,检验其是否符合正态分布?
(腹泻指数为每天有1头猪发生腹泻,记为1头次)。
表2-1生长育肥猪全期98天腹泻次数统计与腹泻率计算表
分组
重复(头数)
饲养天数
腹泻指数(腹泻头次)
总指数(总头数)
(=3*98)
全期腹泻率%
(=腹泻头次/总头次)
1
3
98
294
1.02
3.74
0.68
1.70
2
3.40
2.04
4.08
2.38
18.71
4
7.82
0.34
5
25.17
15.31
28.23
1.36
6
4.76
7.48
7
24.83
12.24
数据录入SPSS中,如图2-1。
图2-1腹泻率数据录入SPSS中
频率”,然后弹出“频率”对话框(图2-2a),变量选择“腹泻率”;
统计量”对话框(图2-2b),选择“偏度”和“丰度”(图2-2b);
图表”对话框(图2-2c),选择“直方图”,并选中“在直方图显示正态曲线”
图2-2a“频率”对话框
图2-2b“频率:
统计量”对话框图2-2c“频率:
图表”对话框
设置完后点“确定”,就后会出来一系列结果,包括2个表格和一个图,我们先来看看“统计量”表,如下:
腹泻率
1.623
.448
1.433
.872
偏度系数=1.623,峰度系数1.433;
两个系数都大于1,可认为不服从正态分布。
再看直方图(图2-3),如下:
图2-3腹泻率的频数分布直方图
图2-3中横坐标为“腹泻率”,纵坐标为增重出现的“频数”。
根据直方图可以看出,分布显然是偏态的,与正态分布曲线相差甚远。
Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”(见图2-4),其他选择默认,然后“确定”。
图2-4“Q-Q图”对话框
最后可以得到Q-Q图检验结果,结果很多,我们只需要看最后一个图,见图2-5。
腹泻率数据不在一条直线上,表明不符合正态分布。
图2-5腹泻率的正态Q-Q图
单个样本K-S检验”,弹出对话框,检验变量选择“腹泻率”,检验分布选择“常规”(即正态分布),然后点“确定”(图2-6)。
图2-6单样本K-S检验对话框
检验结果为:
从结果可以看出,K-S检验中,Z值=1.544,渐近显著性(双侧)(即P值)=0.016<
0.05,因此数据分布不符合正态分布。
6.7641
8.30213
.299
-.220
1.554
.016
后记:
对于以上腹泻率百分数资料的正态性检验,结果表明不符合正态分布,因此不能用方差分析进行检验。
可进行数据转换(对数转换等),然后再对转换后的数据进行正态性检验,或采用其他检验方法(如卡方检验)。
数据的转换和卡方检验方法介绍如下:
三、不符合正态分布数据的转换与转换后数据的方差分析
3.1“自然对数转换”后的Q-Q图
对于以上【例2】的腹泻率数据进行自然对数转换,可在Q-Q图检验时,选择“自然对数转换”,步骤如下:
Q-Q图”,弹出“Q-Q图”对话框,变量选择“腹泻率”,检验分布选择“正态”,在转换中选择“自然对数转换”(见图3-1),其他选择默认,然后“确定”。
图3-1腹泻率自然对换转换后的“Q-Q图”对话框
输出结果见图3-2。
可见所有数据几乎在一条直线上,可认为近似正态分布。
图3-2腹泻率自然对换转换后的“Q-Q图”
3.2对自然对数转换后的数据作频率分布图、看偏度系数和峰度系数
将以上【例2】的腹泻率数据时行自然对数转换,结果如下表。
腹泻指数
(腹泻头次)
总指数
(总头数)
全期腹泻率
自然对数转换后的
0.02
1.32
-0.39
0.53
1.22
0.71
1.41
0.87
2.93
2.06
-1.08
3.23
2.73
3.34
0.31
0.024
-3.738
0.048
-3.045
0.020
-3.892
0.075
-2.593
0.248
-1.393
0.010
-4.585
0.014
-4.297
0.122
-2.100
自然对数转换后腹泻率的频率分布图(直方图)、偏度系数和峰度系数如下:
图3-3自然对数转换后的腹泻率的直方图(近似正态分布)
自然对数转后的腹泻率
.212
-.656
自然对数转换后的腹泻率的偏度系数=0.213,峰度系数=-0.656,均小于1.0,表明符合正态分布。
3.3数据转换前后的方差分析结果的比较
腹泻率数据转换前与转换后的各组平均数如下:
描述性统计量
标准偏差
1.7850
1.37058
2.4933
.78520
7.3125
7.64048
3.1450
3.47150
17.5175
12.10036
4.1650
2.51960
9.8625
11.25701
总计
.3700
.73670
.8800
.29445
1.6550
.88730
.4775
1.45973
2.4025
1.42003
1.2875
.60665
1.5113
1.58538
1.2391
1.19919
SPSS一般线性模型方差分析结果如下:
主体间效应的检验
源
因变量
III型平方和
df
均方
F
Sig.
735.443
122.574
2.320
.073
12.140
2.023
1.603
.198
误差
1056.615
52.831
25.250
1.262
3027.381
78.843
方差分析结果显示:
腹泻率数据转换前的P=0.073>
0.05,差异不显著;
而转换后的腹泻率P=0.198>
0.05,仍然差异不显著。
四、次数分布资料的卡方检验
以上猪腹泻次数统计数据属于次数性资料,虽然换算成百分数后属于连续性资料,但经检验,不满足正态分布,因此不宜采用方差分析来检验各组腹泻率差异的显著性。
而经自然对数转换后,腹泻率基本满足正态分布条件,可采用方差分析。
但无论是转换前还转换后的腹泻率百分数资料,经以上方差分析显示,各组间腹泻率均差异不显著。
因此,有必要寻求其他种检验方法——次数性资料的差异显著检验方法——卡方检验来试一试。
表4-1生长育肥猪(98天)腹泻次数统计表
头数
98
1176
1.79%
882
2.49%
86
7.31%
206
17.52%
4.17%
116
9.86%
3.15%
表4-2生长育肥猪(98天)腹泻次数资料——卡方检验表
腹泻次数——观察值
腹泻头次(n1)
正常头次(n2)
合计头次(N)
1155
860
1090
970
1127
1060
1139
合计
537
7401
7938
比例
0.068
0.932
腹泻次数——理论值计算结果
79.6
1096.4
1176.0
59.7
822.3
882.0
537.0
7401.0
7938.0
腹泻次数——卡方值计算结果
43.10
3.13
46.23
23.78
1.73
25.50
0.52
0.04
0.56
200.97
14.58
215.55
11.74
0.85
12.59
16.70
1.21
17.91
22.76
1.65
24.42
319.56
23.19
342.75
合计卡方值=342.75,查卡方分布表知其对应的P值=5.56E-71,差异极显著。
该检验结果与前面方差分析结果大相径庭(见第三部分:
不符合正态分布数据的转换与转换数据的方差分析)。
可见以上腹泻次数资料(腹泻率百分数资料)不宜采用方差分析,而应考虑采用卡方检验。