葡萄酒的研究.docx
《葡萄酒的研究.docx》由会员分享,可在线阅读,更多相关《葡萄酒的研究.docx(42页珍藏版)》请在冰豆网上搜索。
葡萄酒的研究
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
华北科技学院
参赛队员(打印并签名):
1.顾亚楠
2.孔维文
3.陈灏
指导教师或指导教师组负责人(打印并签名):
于健
日期:
年月日
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价
摘要
本文是有关葡萄酒的评价问题的研究,
对问题
(1),首先了解到葡萄酒感官评价结果的分析中,大部分分析方法(如方差分析)都是建立在感官评价专家组成员基础上的。
但在具体的实践中,由于各种因素的共同作用,专家组成员间存在差异性。
这就需要将感官评价专家作为可能影响感官评价结果的因素来考虑,而且这一因素甚至会掩盖被葡萄酒样品的显著性差异。
因此在对于感官评价统计中需要对原始数据做处理,使得置信水平达到最大,再利用两个正态总体均值的假设检验。
对问题
(2),我们需要对酿酒葡萄进行分级主要采取聚类分析的方法,使得具有相似性质的对象归为一组。
数据导入SPSS中得到得到龙骨图,横向距离表示差异的大小,从图中可以清楚看到聚类的过程,从而对酿酒葡萄分级。
对问题(3),我们考虑到利用模糊综合评价,这一模型的建立优点是:
对事物全面又定量化的评价,事物之间的联系用具体数值来表示。
但是由于数据量相当大,在矩阵乘积计算中用matlab软件,快速处理大量数据。
对问题(4),先联系第三问得到的结果,进一步分析酿酒葡萄与葡萄酒之间的联系,采取主成分分析与模糊综合评价结合来对葡萄酒的质量评价。
对于论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,采用因子分析法。
在解决了以上四个问题后,我们对模型要进行相应的评价预测,对问题使用的模型可行性分析,对其中存在的优点和缺点提出自己的看法,完善整个建模的过程,使葡萄酒业的发展更具有良好的前景。
关键词:
葡萄酒;酿酒葡萄;置信区间;假设检验;聚类分析;主成分分析;
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件-1给出了某一年份一些葡萄酒的评价结果,附件-2和附件-3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
下面我们将建立数学模型讨论下列问题:
1.分析附件-1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
上述要求我们可以看到:
主体是对葡萄酒的评价,联系问题:
根据第一问的问题,评价哪一组更可信,就应该考虑到系统误差和偶然误差。
系统误差小的结果比系统误差大的结果可信。
当然,评酒员是随机分配到两组的话,多数情况下可以认为不同的人的系统误差相互抵消。
偶然误差小的(数据比较集中)的结果比偶然误差大的结果可信。
为此,该厂家各种葡萄酒质量与他们酿酒的葡萄之间联系密切吗?
更深一层就是酿酒葡萄的理化指标到底存在什么样的关系?
做出更有合理的问题。
二、问题分析
葡萄酒业状况及其潜在竞争力的指标体系应包含外观澄清度色调、香气浓度、口感持久性、社会声誉等各个方面,由附表-1中给出的数据,我们须依靠数学软件进行相应的整理,使其具有条理性,方便建立数学模型。
下面我们分开讨论分析四个问题。
问题一分析:
我国葡萄酒国家标准对感官指标有明确的规定。
葡萄酒的感官指标主要指色泽、香气、滋味和典型性方面的要求,参照附表-1中我们首先需要对评分的数据整理计算均值,标准差。
而后我们看到是显著性差异问题,这就让我们首先想到数理统计中的置信区间,假设检验。
这一方法对于统计中大量数据处理非常有效。
问题二分析:
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
理化指标主要指酒精含量(酒精度)、酸度和糖分指标。
从感官指标来看,首先要求葡萄酒应具有天然的色泽。
即原料葡萄的色泽,如红葡萄酒是宝石红,白葡萄酒是浅黄色。
葡萄酒本身应清亮透明无浑浊。
葡萄酒除应有葡萄的天然果香外还应有浓厚的酯香,不应有外来的气味,更不能有异味。
滋味与香气密切相关,香气优良的葡萄酒其滋味醇厚柔润。
葡萄酒的滋味主要有酸、甜、涩、浓.淡、后味等。
典型性也称为风格。
各种葡萄酒有各自不同的风格。
同时因各地区、各厂家的葡萄栽培和酿造工艺的不同,同一品种的酒,其风格特点也可能各不相同。
每种葡萄酒均有自己的典型性,典型性越强越好。
我们考虑的是葡萄酒的化学成分,这些化学成分在酿酒葡萄中也是存在的。
为了更好地对酿酒葡萄分级,我们先直观的对葡萄酒的各种成分计算比例,筛选主要的几种成分,再对应到酿酒葡萄中,对酿酒葡萄的这些主要成分指标利用系统聚类法进行归类。
问题三分析:
首先想到的是模糊评价模型,它是一个事物之间联系的问题这是一个很有利评价事物联系的模型,这个模型主要是矩阵乘积的运算,借助数学软件即可得到联系矩阵。
问题四分析:
最后一个问题中,看到有两个小问,第一小问中我们首先对附件-3的成分进行主成分分析,抽取影响葡萄酒芳香的主要化学指标,再结合模糊综合评价从附表-3中选取相对较大的两个矩阵,和第三问有类似之处,但是两种模型结合运用使我们对事物联系分析更深一层。
第二小问中我们采取因子分析,相对于主成分分析,因子分析更侧重于描述指标之间的相关关系,再计算载荷因子与得分矩阵。
这样便有力的论证“能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量”。
三、基本假设
为了简化问题,我们可以做以下假设:
1.假设附件一中两组红白葡萄酒的评分服从正态分布
2.看从澄净度,颜色来看健康低龄的葡萄酒通常很澄清而陈年后也会出现酒渣,这是自然现象,假设不会影响酒的品质。
此外坏了的葡萄酒也会出现絮状不澄清,这个需要区别;
3.假设联系的六种情况:
最为密切,密切,一般,较差,差,最差。
4.闻香味复杂,先仅靠率浓度、品质、种类三方面因素。
5.假设葡萄酒的质量只与题目中给出的附件指标有关,而与其他之外的因素无关。
四、基本符号说明
(1)
:
附表-1中第一组(红)第二组(红)各个化学成分的平均数;
(2)
:
附表-2中第一组(白)第二组(白)各个化学成分的平均数;
(3)
:
附表-2中第一组(红)第二组(红)各个化学成分的标准差;
(4)
:
附表-2中第一组(白)第二组(白)各个化学成分的标准差;
(5)
:
表示均值
(6)
(
;
):
表示模糊评价矩阵各值的隶属度
(7)
(
):
表示第
个目标的权系数。
(8)
(
):
表示模糊评价向量
(9)Xi(i=1,2,,
,27):
表示附录三样品个数
五、模型的建立与求解
5.1、第一问解题过程:
5.1.1:
均值与标准差求值:
首先将各个不同的样品在外观,香气,口感评价的九项指标中,将每个评价员的评分导入SPSS中,计算出均值,方差(这里第一组红葡萄酒与第一组白葡萄酒对比,第二组类似)因此得到四个表。
见下:
表-1第一组红葡萄酒评分
描述统计量
N
极小值
极大值
均值
标准差
评价员1
90
3.00
16.00
6.9889
3.31999
评价员2
90
2.00
19.00
7.7778
4.24470
评价员3
90
2.00
22.00
7.8333
4.33758
评价员4
89
2.00
16.00
6.6742
3.43040
评价员5
90
2.00
19.00
7.2889
3.96684
评价员6
90
1.00
19.00
7.6889
4.11259
评价员7
90
3.00
16.00
7.3333
3.72661
评价员8
90
3.00
16.00
6.9444
3.65464
评价员9
90
2.00
19.00
8.2222
4.19946
评价员10
90
3.00
19.00
7.5556
3.77488
有效的N(列表状态)
89
表-2第一组白葡萄酒评分
描述统计量
N
极小值
极大值
均值
标准差
评价员1
280
2.00
19.00
7.6286
4.15789
评价员2
280
1.00
16.00
5.6714
3.44323
评价员3
280
2.00
19.00
8.3500
4.28538
评价员4
280
2.00
19.00
6.4393
3.65588
评价员5
280
2.00
19.00
7.6107
3.92427
评价员6
280
1.00
22.00
7.2643
4.03055
评价员7
280
.00
77.00
8.1714
5.80748
评价员8
280
2.00
16.00
7.0643
3.77354
评价员9
280
1.00
22.00
8.1107
4.07526
评价员10
280
1.00
22.00
7.9500
4.48786
有效的N(列表状态)
280
表-3第二组红葡萄酒评分
描述统计量
N
极小值
极大值
均值
标准差
评价员1
270
3.00
19.00
7.1370
3.96731
评价员2
270
2.00
16.00
6.9778
3.83288
评价员3
270
2.00
19.00
7.6704
4.26696
评价员4
270
2.00
19.00
6.5889
3.56947
评价员5
270
1.00
16.00
6.4259
3.52369
评价员6
270
3.00
19.00
7.2667
3.47417
评价员7
270
2.00
19.00
7.2000
3.55373
评价员8
270
2.00
19.00
7.2815
3.70000
评价员9
270
2.00
19.00
7.0148
3.59985
评价员10
270
2.00
16.00
6.9519
3.88418
有效的N(列表状态)
270
表-4第二组白葡萄酒评分
描述统计量
N
极小值
极大值
均值
标准差
评价员1
281
2.00
74.00
8.0249
5.65901
评价员2
281
3.00
80.00
7.9609
5.76955
评价员3
281
3.00
80.00
8.0819
5.83252
评价员4
281
1.00
80.00
8.0890
5.95122
评价员5
281
2.00
74.00
7.8612
5.74070
评价员6
281
3.00
79.00
8.4306
5.85506
评价员7
281
2.00
75.00
8.2527
6.01577
评价员8
281
2.00
73.00
6.5374
5.43923
评价员9
281
2.00
83.00
7.7011
5.93443
评价员10
281
3.00
76.00
8.0747
6.04844
有效的N(列表状态)
281
由以上的四个表格我们可以直观的看出不同评价员在不同组中评价分数的均值与标准差,但是这样存在误差,没有置信水平,因此我们还需要求得μ的置信区间(σ已知),得到置信区间表。
5.1.2:
各组红,白葡萄酒的置信区间:
表-5第一组红葡萄酒置信区间
单个样本检验
检验值=0
差分的95%置信区间
t
df
Sig.(双侧)
均值差值
下限
上限
评价员1
19.971
89
.000
6.98889
6.2935
7.6842
评价员2
17.383
89
.000
7.77778
6.8887
8.6668
评价员3
17.132
89
.000
7.83333
6.9248
8.7418
评价员4
18.355
88
.000
6.67416
5.9515
7.3968
评价员5
17.432
89
.000
7.28889
6.4581
8.1197
评价员6
17.737
89
.000
7.68889
6.8275
8.5503
评价员7
18.668
89
.000
7.33333
6.5528
8.1139
评价员8
18.027
89
.000
6.94444
6.1790
7.7099
评价员9
18.574
89
.000
8.22222
7.3427
9.1018
评价员10
18.988
89
.000
7.55556
6.7649
8.3462
表-6第一组白葡萄酒的置信区间
单个样本检验
检验值=0
差分的95%置信区间
t
df
Sig.(双侧)
均值差值
下限
上限
评价员1
30.701
279
.000
7.62857
7.1394
8.1177
评价员2
27.562
279
.000
5.67143
5.2664
6.0765
评价员3
32.604
279
.000
8.35000
7.8459
8.8541
评价员4
29.473
279
.000
6.43929
6.0092
6.8694
评价员5
32.452
279
.000
7.61071
7.1491
8.0724
评价员6
30.158
279
.000
7.26429
6.7901
7.7384
评价员7
23.545
279
.000
8.17143
7.4882
8.8546
评价员8
31.326
279
.000
7.06429
6.6204
7.5082
评价员9
33.303
279
.000
8.11071
7.6313
8.5901
评价员10
29.642
279
.000
7.95000
7.4220
8.4780
表-7第二组红葡萄酒的置信区间
单个样本检验
检验值=0
差分的95%置信区间
t
df
Sig.(双侧)
均值差值
下限
上限
评价员1
29.560
269
.000
7.13704
6.6617
7.6124
评价员2
29.914
269
.000
6.97778
6.5185
7.4370
评价员3
29.538
269
.000
7.67037
7.1591
8.1816
评价员4
30.331
269
.000
6.58889
6.1612
7.0166
评价员5
29.965
269
.000
6.42593
6.0037
6.8481
评价员6
34.369
269
.000
7.26667
6.8504
7.6829
评价员7
33.291
269
.000
7.20000
6.7742
7.6258
评价员8
32.337
269
.000
7.28148
6.8382
7.7248
评价员9
32.019
269
.000
7.01481
6.5835
7.4461
评价员10
29.409
269
.000
6.95185
6.4865
7.4172
表-8第二组白葡萄酒的置信区间
单个样本检验
检验值=0
差分的95%置信区间
t
df
Sig.(双侧)
均值差值
下限
上限
评价员1
23.771
280
.000
8.02491
7.3604
8.6894
评价员2
23.130
280
.000
7.96085
7.2833
8.6384
评价员3
23.228
280
.000
8.08185
7.3969
8.7668
评价员4
22.785
280
.000
8.08897
7.3901
8.7878
评价员5
22.955
280
.000
7.86121
7.1871
8.5353
评价员6
24.137
280
.000
8.43060
7.7430
9.1182
评价员7
22.996
280
.000
8.25267
7.5462
8.9591
评价员8
20.147
280
.000
6.53737
5.8986
7.1761
评价员9
21.753
280
.000
7.70107
7.0042
8.3979
评价员10
22.379
280
.000
8.07473
7.3645
8.7850
由上面的置信区间表可以进行对比,第一组红葡萄酒与第二组红葡萄酒,第一组白葡萄酒与第二组白葡萄酒,取α=0.05,得到95%的置信区间,经过对比我们可以看到各个评价员的均值差值都落在了置信区间内,但是我们还是不能说有无显著性差异,下面我们进行两个正态总体均值的假设检验:
5.1.3:
均值的假设检验:
①第一组(红葡萄酒)与第二组(红葡萄酒):
原假设:
两组评分员的评分无显著性差异(
);
备择假设:
两组评分员的评分有显著性差异(
);
检测统计量:
(5.2.1-1)
拒绝域:
(5.2.1-2)
建立好假设检验模型后由表-1,表-2得到:
m=900,n=2800,
=7.43
=7.05
=3.87
=3.73
=1.96(α取0.05)计算得出μ=2.57
μ落在了拒绝域内,因此拒绝原假设,接受备择假设,故两组评分员的评分有显著性差异。
②第一组(白葡萄酒)与第二组(白葡萄酒):
原假设:
两组评分员的评分无显著性差异(
);
备择假设:
两组评分员的评分有显著性差异(
);
检测统计量:
拒绝域:
建立好假设检验模型后由表-1,表-3得到:
m=2800,n=2800,
=7.43
=7.90
=4.16
=5.82
=1.96(α取0.05)计算得出μ=-3.36
μ落在了拒绝域内,因此拒绝原假设,接受备择假设,故两组评分员的评分有显著性差异。
5.1.4:
论证结果:
由假设检验可知第一组评价员(红)与第二组评价员(红)有显著性差异;
第一组评价员(白)与第二组评价员(白)有显著性差异
由表一,二,三,四中标准差的平均值可得:
第二组评价员更好(红对红);
第一组评价员更好(白对白);
第二问解题过程:
5.2.1:
模型建立(系统聚类模型):
首先我们将n个样本看成n类(一类包含一个样品),然后将性质最接近的两类合成一个新的类,我们得到n-1类,再从中找出接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分为多少类,每类各有什么样品。
5.2.2:
模型求解:
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
接下来我们首先算出红,白葡萄酒中各个化学物质占总组成部分的比例(用EXCEL),我们抽取主要的成分并且相应的找到酿酒葡萄的化学成分,再对其进行聚类。
这样对于问题就有了主次之分,鉴于题目给出的化学成分含量单位不统一,因此换算单位为第一步工作。
下面介绍计算得到的数据:
Ⅰ:
红葡萄酒成分占总成分的比例:
花色苷:
1.3%单宁:
38.0%总酚:
33.1%酒总黄酮:
25.3%白藜芦醇:
2.2%DPPH半抑制体积,色泽:
0.1%;我们抽取单宁,总酚,酒总黄酮,对应于酿酒葡萄(红)的成分。
酿葡萄酒(红)的分级状况(SPSS数据):
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
4-+
25-+
12-+
27-+-+
13-+|
20-++---+
16-+||
11-+||
26-+-+|
7-+|
18-++-------------+
5-+||
19-+-+||
21-+|||
22-+|||
14-++---++---------------------------+
17-+|||
6-+|||
24-+-+||
10-+||
8---+-------+||
15---++---------+|
1-+-+||
3-++-------+|
2---+|
9-+-----------------------------------------------+
23-+
图
(一)