说明第二组评酒员对葡萄酒的评价更具有可信度。
问题二,为了对酿酒葡萄进行分级,本文建立考虑权重的聚类分析,对传统聚类分析进行改进。
基于指标过多,建立单因子方差分析模型,筛选出在聚类分析中发挥显著作用的m个指标,通过聚类模型得到对酿酒葡萄的五级划分。
问题三,酿酒葡萄与葡萄酒的理化指标关系,是研究两组变量之间的相关性。
通过建立典型相关分析模型,将两组变量分别作为一个整体进行分析。
通过数据分析,得出相关表达式,得到酿酒葡萄与葡萄酒的理化指标之间存在重要的相关关系。
问题四,为论证葡萄与葡萄酒的理化指标能否评价葡萄酒的质量,本文运用前14个指标建立综合评价模型,运用主成分分析法分3个成分,经过成分重要性计算和相关性确定正负值对标准化后的样本数据加权计算评价得分。
最后得出11号样品酒的质量最差,23号样品酒的质量最好,与评酒员的评分相近。
故认为葡萄与葡萄酒的理化指标能在一定程度上评价葡萄酒的质量,部分误差是因为芳香物质等感官指标的影响。
关键字:
综合评价模型信度分析聚类分析典型相关分析主成分分析
1间题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:
1)分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2问题的分析
2.1问题一
由于两组评酒员品尝评分样本属于同一样本,在对同一研究对象进行不同评判标准时,视为对两配对样本的检验,且数据处理之前总体分布情况未知,可建立非参数检验模型进行显著性差异评价,本文采用Wilcoxon符号平均秩检验。
在可信度分析上,可通过建立标准参考数据组,两组评酒员评分分别与其进行标准差比较,判断离散程度。
或者采用SPSS对两组数据进行可靠性分析处理。
利用最终求得的信度系数评判两组评酒员评价结果的可靠性。
2.2问题二
将酿酒葡萄理化指标进行单因子方差分析,选取出在聚类分析中发挥明显作用的m个指标。
根据酿酒葡萄的好坏与所酿葡萄酒的质量关系有直接关系,把对葡萄酒质量的评分当做特殊的第m+1个指标。
由于各指标的对酿酒葡萄分级所发挥作用的效果不同,而传统聚类分析把各指标放在了等同的地位。
基于这点,本文提出了考虑权重的聚类分析方法。
通过网络査阅资料,对各指标在分级中所起的重要性进行评分。
最后对赋权的指标进行聚类分析,对所分类样品数据加权求平均分来分级。
2.3问题三
由于葡萄和葡萄酒理化指标之间联系为多对多联系,研究两组变量之间的相关关系,可以通过典型相关分析模型,得到典型相关系数。
对数据进行分析,判断两组变量之间关系。
2.4问题四
根据对酿酒葡萄与葡萄酒的理化指标大量数据的统计分析,本文选择了四个统计量来分析理化指标对葡萄酒质量的影响。
以相关性和P值来初步分析与葡萄酒的质量有显著相关的指标。
以通径分析解释指标变量与葡萄酒质量是否为直接作用。
以变异系数的大小反映该指标在总体理化指标中的稳定性,变异系数越小,越稳定,就越具有代表性。
在四个统计分析中,能总体把握酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。
3模型的假设和符号说明
3.1模型假设:
1)评酒师所评的分数具有客观可信度。
2)所有样品的酿酒工艺一致。
3.2符号说明:
%:
信度系数
J:
观测矩阵
忌:
复相关系数
X:
变异系数
X=(旺,尤2,…,耳):
随机变量y=($1*2,…,儿):
随机变量x:
总体协方差阵
p:
相关系数
cov(x,r):
协方差
4模型建立与求解
4.1问题一
4.1.1模型建立
1、Wilcoxon符号平均秩检验
根据附件1中的数据,分别求得2组红葡萄酒以与2组白葡萄酒评酒员品尝各样品总分的平均分。
首先分析红葡萄酒两组评分数据,由于两组样品为同一对象。
可将其两组对应数据视为两配对样本。
因其总体分布无法确定,可用非参数检验中的两配对样本非参数Wilcoxon符号平均秩检验方法,确定其是否具有显著差异性⑴。
(1)假设酒样品来自两配对样本总体的分布无显著差异,将第二组红样本的各个观察值减去第一组红样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号。
同时保存差值的绝对值数据。
(2)然后将绝对差值数据按升序排序,并求出相应的秩.
(3)最后分别计算正号秩总合W+、负号秩总合W-以与正号平均秩和负号平均秩。
如果正号平均秩和负号平均秩大致相当,则可以认为两配对样本数据正负变化程度基本相当,分布差距较小。
(4)计算Z统计量,并计算P值
VV-/^+l)/4
(1)
Jn(n+1X"+2)/24
n为总个数,W=min(W+,W-)o
2、可信度分析
(1)样本标准差判别离散程度
评判两组评酒员评价结果的可信度,求得每组评酒员分别对葡萄酒样品的评分平均分。
再通过构造比较标准参考评分数据组,通过标准差比较两组数据的离散程度,最终判断其评酒的可信度。
a.分别求出第一组评酒员对27组红葡萄酒样品的平均分*左=1,2,....,27)与第二组评酒员对27组红葡萄酒样品的平均分乙(山1,2,.…,27),以与第一组评酒员对28组白葡萄酒样品的平均分X=,28)与第二组评酒员对28组白葡萄酒样品的平均分0=1,2,28)
b.分别对原始数据中,20各评酒员对每个样品评价总分数据中,去掉两个最大值与两个最小值,样本中数据剔除掉部分奇异数据组后将变得更加平稳可靠,求出该葡萄酒样品的平均分乙(山1,2,....,27)与Z&=1,2,....,28),所得Z值数据组即为构造的标准参考组数据。
C.将X数据组与Z数据组以与Y数据组与Z数据组分别求出标准差
d.分别比较旳与er—%与%大小。
即两组评酒员分别对红葡萄酒与白葡萄酒的品尝评分标准差。
6值越小,说明其对于标准参考分值离散程度较小,该组评酒员的品尝评分较为可信。
(2)运用SPSS实现信度分析
信度⑵又叫可靠性,是指测验的可信程度。
它主要表现测验结果的一贯性、一致性、再现性和稳定性。
在测量学中,信度被定义为一组测量分数的真变异数功总变异数(实得变异数)的比率,信度系数=真变异数/总变异数,即:
内在信度也称为内部一致性,用以衡量组成量表题项的内在一致性程度如何。
运用Cronbach,sa系数法检测模型,求得两组评酒员品尝评分的信度。
其统计原理为
k
口
4.1.2模型求解
1、将附件1中的数据求出每个样品品尝评分均值后,按照样品顺序排列。
处理后数据如下表:
表1每组的均值得分
编号
第一
第二
组红
组红
样品1
62.7
68.1
样品2
80.3
74
样品3
80.4
74.6
第一
组白
第二组白
编号
82
77.9
样品
15
74.2
75.8
样品
16
7&3
75.6
样品
第一
第二
第一
第二
组红
组红
组白
组白
58.7
65.7
72.4
78.4
74.9
69.9
74
67.3
79.3
74.5
78.8
80.3
样品4
68.6
71.2
79.4
76.9
17样品
59.9
65.4
73.1
76.7
18
样品5
73.3
72.1
71
81.5
样品
19
78.6
72.6
72.2
76.4
样品6
72.2
66.3
68.4
75.5
样品
20
78.6
75.8
77.8
76.6
样品7
71.5
65.3
77.5
74.2
样品
21
77.1
72.2
76.4
79.2
样品8
72.3
66
71.4
72.3
样品
22
77.2
71.6
71
79.4
样品9
81.5
78.2
72.9
80.4
样品
23
85.6
77.1
75.9
77.4
样品
10
74.2
68.8
74.3
79.8
样品
24
78
71.5
73.3
76.1
样甜
11
70.1
61.6
72.3
71.4
样品
25
69.2
68.2
77.1
79.5
样品
12
53.9
68.3
63.3
72.4
样品
26
73.8
72
81.3
74.3
样品
13
74.6
68.8
65.9
73.9
样品
27
73
71.5
64.8
77
样品
14
73
72.6
72
77.1
样品
28
81.3
79.6
建立假设:
%=第一组红葡萄酒品尝评分
%=第二组红葡萄酒品尝评分
施。
=%
Hw=第一组白葡萄酒品尝评分
Hu=第二组白葡萄酒品尝评分
检验标准:
a=0.05
运用SPSS软件,运行结果为:
Wilcoxon带符号秩检验:
表2秩
N秩均值
第一绢红
-第一
负秩
22a
13.39
294.50
组红
正秩
5b
16.70
83.50
结
0c
总数
27
第一组白
-第一
负秩
9d
11.06
99.50
组白
正秩
19e
16.13
306.50
结
0f
总数
28
表3检验统计・c
第二组红-第一组红第二组白-第一组白
Z-2.535a-2.357b
渐近显著性(双侧)0.0110.018
结果分析:
由运行结果可以看出,对于红葡萄酒,正秩与负秩均值分别为13.39与16.70,大致相当。
因此,Wilcoxon符号平均秩检验是可行的。
由于P=.0011<0.05(67=0.05),拒绝原假设仏。
与卷无显著差异,即两组评酒员的对
红葡萄酒的评价结果有显著性差异。
同理,正秩与负秩均值分别为11.06与16.13,大致相当。
因此,Wilcoxon符号平均秩检验是可行的。
由于P=.0018<0.05(a=0.05),拒绝原假设与日口无显著差异,即两组评酒员的对白葡萄酒的评价结果有显著性差异。
由于两组品酒员对红葡萄酒与白葡萄酒的品尝评分均存在显著差异,因此,可认为两组评酒员的评价结果由显著差异。
2、
(1)由EXCEL中的SUM函数,求得各评酒员对各葡萄酒样品的评分分值;用AVERAGE函数求得每组评酒员对每个葡萄酒样品的平均分。
再运用(SUM(A2:
J2)-LARGE(A2:
J2,1)-SMALL(A2:
J2,1)-LARGE(A2:
J2,2)-SMALL(A2:
J2⑵)/(COUNT(A2:
J2)-4)函数,求得标准参考值,所得数据如下表:
表4每组均值得分与标准參考值
样品
第一组红
第一纟日红
红标准参考值
第一组白
第一组白
白参考值
1
62.7
68.1
65.6875
82
77.9
80.062
5
2
80.3
74
76.6875
74.2
75.8
76.375
3
80.4
74.6
77.5
78.3
75.6
78.062
5
4
68.6
71.2
70.1875
79.4
76.9
78.437
5
5
73.3
72.1
72.5625
71
81.5
77.5
6
72.2
66.3
68.75
68.4
75.5
73
7
71.5
65.3
68.5
77.5
74.2
76.25
8
72.3
66
69.375
71.4
72.3
72.875
9
81.5
78.2
79.5625
72.9
80.4
77.687
5
10
74.2
68.8
71.25
74.3
79.8
78.625
11
70.1
61.6
65.8125
72.3
71.4
72.312
5
12
53.9
68.3
62
63.3
72.4
69.125
13
74.6
68.8
71.75
65.9
73.9
71.375
14
73
72.6
73.3125
72
77.1
75.75
15
58.7
65.7
62.1875
72.4
78.4
76.812
5
16
74.9
69.9
72.4375
74
67.3
70.875
17
79.3
74.5
75.875
78.8
80.3
80.312
5
18
59.9
65.4
62.375
73.1
76.7
76.187
5
19
78.6
72.6
76
72.2
76.4
74.562
5
20
78.6
75.8
77.5
77.8
76.6
78
21
77.1
72.2
74.0625
76.4
79.2
79.687
5
22
77.2
71.6
73.875
71
79.4
76.187
5
23
85.6
77.1
81.375
75.9
77.4
76.75
24
78
71.5
74.0625
73.3
76.1
75.5
25
69.2
68.2
68.0625
77.1
79.5
79.562
5
26
73.8
72
73.1875
81.3
74.3
78.562
27
73
71.5
71.9375
64.8
77
72.25
80.937
28
81.3
79.6
5
3.1509
2.75011
3.56250
2.26366
2
2
2
6
结果分析:
由最终数据可得6严3.15092>%=2.750112,即第一组评酒员比第二组评酒员对红葡萄酒的品尝评分与标准比较值偏差较大,可认为第二组评酒员的品尝评分较贴近标准比较值,即第二组评酒员对红葡萄酒的评价结果更可信。
又b2i=3.562502>62=2.263666,同理可得第二组评酒员对白葡萄酒的品尝
评分更具可信力。
综上,第二组评酒员对葡萄酒的评价结果更可信。
(2)将每个评酒员对每个葡萄酒样本的总体评分按要求输入SPSS数据处理界面,通过可靠性分析处理,结果如下:
表5第一组评酒员可靠性
Cronbach,sAlpha
项数
.894
28
表6第二组评酒员可靠性
Cronbach,sAlpha
项数
.923
28
结果分析:
由运算结果可得匕=0.894<«2=0.923,说明第二组评酒员对葡萄酒评分信度较大,即第二组评酒员对葡萄酒的评价更具有可信度。
4.2问题二
4.2.1模型建立
1、单因素方差分析选取理化指标:
方差分析就是采用数理统计的方法对所得结果进行分析以鉴别各种因素对研究对象的某些特性值影响大小的一种有效方法⑶。
对酿酒葡萄的理化指标进行单因素方差分析,分析F统计量与其相伴概率,选取出在快速聚类中发挥明显作用的m个指标。
单因子方差分析基本原理见附录A:
2、酒质量的分数选取
将问题一中更可信的那组评分结果去除最低最高分取均值作为样品酒质量的标准评分值,并将此作为对酿酒葡萄分级的第m+1个重要指标。
3、考虑权重的K-means聚类分析
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
考虑到聚类分析没有考虑指标权重的问题,即将所有的指标的权重视为等同⑷。
所以本文以对标准化后的指标赋权重来改进传统的聚类分析法。
首先对原始数据进行标准化处理,消除量纲的影响。
ZScores:
标准化
变换公式为:
Vij®
V;j=5o-若5H0(j=12.・・‘)
-0⑸
对指标重要性进行分级赋权:
根据查阅书籍与网上资料将m+1个指标分成三个等级,分别给予1-3的分数。
如表7:
表7指标重要性尊级得分
等级
一级重要
二级重要
三级重要
得分W(分)
3
2
1
赋权后的数据:
处理后的数据再次进行单因素方差分析,
*W
选取最合适的
⑺n个指标。
4、K-means算法:
将巳经测定n个采样点的m种指标数据列成一个二维矩阵,亦称作观测矩阵:
(••、
vu・••%
V*=[V|,v*,--v*]=:
:
(8)
♦♦
VV
\nlrun/
把(21,2,…〃)分成c个组,求出每组的聚类重心,使得组内的方差和达到最小,
八仏$)=工》小;話|
JIr-1
其中
工二除i,叫已{°,1}迭代过程:
⑴给出初始聚类中心,严={严,習,…曙)}
(2)用下列公式更新
(10)
(/+”_fl若心argmin{vk-s;bI
其中1为迭代次数。
⑶更新护“
如果max月s严-s;hk£或者/>T则停止;否则/=/+!
转至⑵。
4.2.2模型求解
运用spss对酿酒葡萄的理化指标做单因子方差分析,结果见表8.
表8ANOVA表
聚类
误差
F
Sig.
均方
df
均方
df
氨基酸总
.897
4
1.019
22
.880
.492
里
蛋白质
2.566
4
.715
22
3.588
.021
VC含量
1.110
4
.980
22
1.132
.367
花色昔
2.603
4
.709
22
3.673
.019
酒石酸
1.725
4
.868
22
1.987
.132
苹果酸
3.772
4
.496
22
7.603
.001
柠檬酸
2.217
4
.779
22
2.847
.048
多酚氧化酶
3.090
4
.620
22
4.983
.005
褐变度
5.154
4
.245
22
21.060
.000
DPPH自由基
4.137
4
.430
22
9.632
.000
总酚
4.664
4
.334
22
13.974
.000
单宁
3.323
4
.578
22
5.754
.003
葡萄总黄
酮
4.887
4
.293
22
16.662
.000
白藜芦醇
4.797
4
.310
22
15.496
.000
黄酮醇
1.615
4
.888
22
1.819
.161
总糖
2.670
4
.696
22
3.834
.016
还原糖
2.052
4
.809
22
2.538
.069
可溶性固
1.844
4
.846
22
2.179
.105
形物
PH值
1.832
4
.849
22
2.159
.107
可滴定酸
2.068
4
.806
22
2.567
.067
固酸比
1.083
4
.985
22
1.100
.381
干物质含
量
3.487
4
.548
22
6.366
.001
果穂质量
.908
4
1.017
22
.894
.484
百粒质量
1.821
4
.851
22
2.140
.110
果梗比
1.343
4
.938
22
1.432
.257
出汁率
2.048
4
.809
22
2.530
.070
果皮质量
.800
4
1.036
22
.772
.555
果皮颜色
L*
1.962
4
.825
22
2.379
.083
果皮颜色
O