非参数统计课程论文基于符号检验的葡萄酒评分差异性检验大学论文文档格式.docx
《非参数统计课程论文基于符号检验的葡萄酒评分差异性检验大学论文文档格式.docx》由会员分享,可在线阅读,更多相关《非参数统计课程论文基于符号检验的葡萄酒评分差异性检验大学论文文档格式.docx(14页珍藏版)》请在冰豆网上搜索。
1方法介绍及步骤
1.1检验方法简介
符号检验(signtest)是非参数统计中最古老的检验方法之一,是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。
具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。
需要特别指出的是符号检验与参数检验中相关样本显著性t检验是相对应的,当数据分布不满足参数检验的要求时,可以采用此方法来检验两个相关样本的差异显著性。
符号检验除了可以检验成对样本,还可以分析判断两个总体之间是否存在显著性差异,还可以用于检验一个样本是否来自某个总体。
结合文章所给数据,易知文章采用符号检验的目的是检验两个相关样本的差异显著性。
符号检验的步骤:
(1)设置假设(判别中心位置是否为中位数M0)。
H0:
Me=MH1:
Me≠M
(2)构建检验统计量
S+:
表示大于M0的数据的个数
S-:
表示小于M0的数据的个数
则
(3)在显著性水平为a前提下求出拒绝域,或求出检验P值。
1.2Wilcoxon符号秩检验简介
在Wilcoxon符号秩检验中,它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。
它适用于参数检验中t检验的成对比较,但并不要求成对数据之差服从正态分布,只要求服从对称分布即可。
检验成对观测数据之差是否来自均值为0的总体(产生数据的总体是否具有相同的均值)。
Wilcoxon符号秩检验过程。
假设样本点X1,X2,·
·
,XX,来自连续对称总体分布,则总体的中位数等于均值。
Wilcoxon符号秩检验的步骤如下:
(1)对i=1,2,·
,n,计算|Xi-M0|;
它们表示这样样本点到M0的距离。
(2)将上面n个绝对值排序,并找出它们的n个秩;
如果有相同的样本点,每个点取平均秩。
(3)令W+等于Xi-M0>
0的|Xi-M0|的秩的和,W-等于Xi-M0<
0的|Xi-M0|的秩的和。
(4)对双边检验H0:
M=M0<
=>
H1:
M≠M0,在零假设下,W+和W-应差不多。
因而,当其中之一,很小时,应怀疑零假设。
在此,取检验统计量W=min{W+,W-}。
(5)根据得到的W值,利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值。
如果n很大要用正态近似:
得到一个与W有关的正态随机变量Z的值,再用软件或查正态分布表得到p值。
(6)如果p值较小(比如小于或等于给定的显著性水平,譬如0.05)则可以拒绝零假设。
如果p值较大则没有充分的证据来拒绝零假设,但不意味着接受零假设。
1.3符号检验与符号秩检验区别
符号检验利用了观测值和零假设的中心位置之差的符号进行检验,但是它并没有利用这些差的大小(体现于差的绝对值大小)所包含的信息。
因此,在符号检验中,每个观测值点相应的正号或负号仅仅代表了该点在中心位置的哪一边,而并没有表明该点距离中心的远近。
如果把各观测值距离中心远近的信息考虑进去,自然比仅仅利用符号要更有效。
而在Wilcoxon符号秩检验中则考虑到了各个差值距离中心位置的远近问题,使得结果更加的准确些。
1.4W检验和K-S检验简介
W检验全称Shapiro-Wilk检验,是一种基于相关性的算法。
当样本容量在8≤n≤50时,W检验可以检验样本是否符合正态分布。
通过计算可得到一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。
计算公式为:
其检验步骤如下:
①将数据按数值大小重新排列,使X1≤X2≤·
≤Xn;
②计算上式分母;
③计算a值,可查表得出;
④计算检验统计量W;
⑤若W值小于判断界限值Wα(可通过查表求得),按表上行写明的显著性水平α舍弃正态性假设;
若W>
Wα,接受正态性假设。
K-S检验全称Kolmogorov-Smirnov检验,它是用来检验单一样本是否来自某一特定分布。
这一检验方法是以样本数据的累计频数分布于特定理论分布比较,若两者的差距很小,则推论该样本取自某特定分布族。
假设问题如下:
H0:
样本所来自的总体分布服从某特定分布
H1:
样本所来自的总体分布服不从某特定分布
本文则主要是用其检验一组数据是否为正态分布,即Kolmogorov-Smirnov正态性检验。
2实证分析
2.1数据的选取
文章的数据来源2012年“高教社杯”全国大学生数学建模竞赛的题目。
题目列出两组评酒员分别对28种白葡萄酒样品和27种红葡萄酒样品的各项分类指标的评分,其中每组都由十名评酒员组成。
2.2数据的预处理
(1)将每位评酒员分别对27种红葡萄酒样品、28种白葡萄酒样品的分类指标评分进行求和,得出每位评酒员对于每一种葡萄酒样品的总评分。
(2)将每组的十位评酒员分别对于每一种葡萄酒样品的总评分进行汇总求平均值,得出每组评酒员对于每一种葡萄酒的总评分的平均值。
(3)对得到的相关数据进行整理,使用Excel编制表格如下:
白酒与红酒分类汇总的平均值
baijiu
one
two
hongjiu
first
second
1
82
77.9
62.7
68.1
2
74.2
75.8
80.3
74
3
85.3
75.6
80.4
74.6
4
79.4
76.9
68.6
71.2
5
71
81.5
73.3
72.1
6
68.4
75.5
72.2
66.3
7
77.5
71.5
65.3
8
71.4
72.3
66
9
72.9
78.2
10
74.3
79.8
68.8
11
70.1
61.6
12
63.3
72.4
53.9
68.3
13
65.9
73.9
14
72
77.1
73
72.6
15
78.4
58.7
65.7
16
67.3
74.9
69.9
17
78.8
79.3
74.5
18
73.1
76.7
59.9
65.4
19
76.4
78.6
20
77.8
76.6
21
79.2
22
77.2
71.6
23
75.9
77.4
85.6
24
76.1
78
25
79.5
69.2
68.2
26
81.3
73.8
27
64.8
77
28
79.6
注:
①表中1~28指葡萄酒样品的编号,其中“hongjiu”是指红葡萄酒,“baijiu”是指白葡萄酒。
②one是指第一组评酒员,two是指第二组评酒员。
并且它们下面的数值是每组评酒员对于每一种葡萄酒的总评分的平均值。
2.3分析过程
本文主要使用SAS9.2软件对符号检验与和符号秩检验进行编程,运行程序后得到相关结果,并进行相应分析。
2.3.1两种葡萄酒样品评分提出假设
假设检验问题:
(设定显著性水平为α=0.05)
两组红葡萄酒样品评分无显著性差异
两组红葡萄酒样品评分存在显著性差异
两组白葡萄酒样品评分无显著性差异
两组白葡萄酒样品评分存在显著性差异
2.3.2两种葡萄酒的评分数据编程
依据整理好的数据,编程如下:
编程[2]一为白葡萄差值、正态检验、位置检验
DataX;
inputbaijiuonetwo;
diff=one-two;
cards;
18277.9
274.275.8
385.375.6
479.476.9
57181.5
668.475.5
777.574.2
871.472.3
972.980.4
1074.379.8
1172.371.4
1263.372.4
1365.973.9
147277.1
1572.478.4
167467.3
1778.880.3
1873.176.7
1972.276.4
2077.876.6
2176.479.2
227179.4
2375.977.4
2473.376.1
2577.179.5
2681.374.3
2764.877
2881.379.6
;
run;
procunivariatedata=Xnormal;
vardiff;
编程[2]二为红葡萄差值、正态检验、位置检验
dataY;
inputhongjiuonetwo;
162.768.1
280.374
380.474.6
468.671.2
573.372.1
672.266.3
771.565.3
872.366
981.578.2
1074.268.8
1170.161.6
1253.968.3
1374.668.8
147372.6
1558.765.7
1674.969.9
1779.374.5
1859.965.4
1978.672.6
207