数学建模国赛A题论文.docx
《数学建模国赛A题论文.docx》由会员分享,可在线阅读,更多相关《数学建模国赛A题论文.docx(8页珍藏版)》请在冰豆网上搜索。
![数学建模国赛A题论文.docx](https://file1.bdocx.com/fileroot1/2023-1/8/c64e486f-7fed-470f-abb0-b34414d679c9/c64e486f-7fed-470f-abb0-b34414d679c91.gif)
数学建模国赛A题论文
葡萄酒的评价
摘要
一.问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
根据这些数据,要完成的工作有一下四项:
1.分析附件1中两组评酒员的评价结果有无显著性差异,并评价哪一组结果更可信。
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二.基本假设
A样品酒的品质分布可以看作是服从正态分布
B两组评酒员的评酒水准相当,出现失误的可能性较小且完全随机
C所有的评酒员的打分是完全独立的,相互之间没有影响
三.符号说明
k标识葡萄(酒)种类,1为红葡萄,2为白葡萄
i标识样本号
j标识指标号
x酿酒葡萄指标
X酿酒葡萄良、恶性指标
Q葡萄酒的质量参考得分
四.问题分析
首先从整体上看,这是一个与葡萄酒质量的评分有关的问题。
在我国现有的葡萄酒分级机制中,参照法国的分级标准,我们会综合酿酒葡萄的品种、酿酒葡萄的产量、葡萄的含糖量、葡萄酒陈酿期、理化指标、感官指标六项指标对葡萄酒的质量进行评价并分级。
而在本问题中,题目显然对葡萄酒的质量进行了很大程度上的简化,仅考虑感官指标与理化指标两个方面的问题,所以下面如果不作特别说明,“葡萄酒的质量”指的就是葡萄酒感官方面的品质。
仔细探讨题意,我们不难发现该问题的核心目标其实是一种对现有评级机制的完善的尝试。
因为在现有的葡萄酒分级机制中“感官指标”这一项的分数有很大的人为因素。
评酒师的职业能力与发生失误的可能性对这一项指标得分的可靠性有着重要的影响。
这也是整个葡萄酒分级系统中最大的不稳定因素。
因此,本问题试图寻找理化指标这种可靠数据与感官指标这种认为数据之间的联系,从而建立新的感官指标的评分体系,完善整个葡萄酒分级系统。
因此,我们理解的每一问的意义是:
第一问:
由于我们想要建立一个新的评价体系,在建立这个体系的时候我们必须有一个参照的依据用来检验我们新的评价体系的功效能否让人满意。
第一问的目的就是要确定这个参考分值。
在给定数据中有两组评酒员对葡萄酒样本的打分,我们假定这些找来评酒员都是水平较高,评酒能力相差不大的评酒员,只不过由于个人的打分习惯以及失误的发生,再加上每个人对于外观、香气、口感这三个方面的优劣程度的量化不同,而会出现个体上打分的差异。
但是从整体上来看,在理想的情况下两组人员的打分情况应该不会出现很大的差异性。
我们所要做的工作就是测评这两组人员打分的差异情况确定这两组分数的可靠性,并且考察各组打分的稳定性,确定可信度更高的一组打分作为模型的参考打分。
第二问:
查询专业知识我们了解到,对最终葡萄酒的质量影响较大的两个因素是酿酒葡萄和酿造工艺。
而有一句行话叫作七分原料三分工艺,这表明酿酒的原料——酿酒葡萄对于葡萄酒的质量有着最大的影响力。
所以这一小问所关注的重点便是酿酒的原料,要求我们对酿酒葡萄进行分级。
此外,我们认为酿酒葡萄的理化指标还在一定程度上反映了酿造方面的问题。
因为通常来讲,同一批葡萄的酿造工序应该是大抵相同的,也就是说它们所经过的技术处理不会有太大的差异。
因此,排除酿造过程中的意外,最终决定葡萄酒成品的质量的还应该是最初开始酿制时葡萄的状态。
更直观地说,这个酿造过程相当于是大多数的葡萄所前进的距离大抵相同,决定了最终它们能走多远的,就应该是各个葡萄的起点。
而酿酒葡萄的理化指标在一定程度上反映了葡萄在开始酿造时的状态,也就是这个起点。
所以,综上所述,第二问中结合酿酒葡萄的理化指标和酿成的葡萄酒的质量的反馈这两方面的信息,我们可以获得酿酒葡萄的状态信息,最终对酿酒葡萄进行品质分级。
第三问:
在完成了酿酒葡萄的分级之后,我们目前所掌握的并且进行考虑的可以用来作为模型输入的信息一共来自三块:
酿酒葡萄的分级情况、酿酒葡萄的理化指标、葡萄酒的理化指标。
这里面的信息我们并不能保证他们的独立性。
如果某两个输入的信息实际上是重合的信息,那么必然会对模型的工作效率产生很大的影响。
因此,我们需要考察这三个输入之间的关系。
由于在上一问之中,在获得酿酒葡萄的分级情况的时候,我们主要用到的信息是酿酒葡萄的理化指标这一信息,而且按照最常规的思维,成品的理化指标与原料的理化指标之间必然会有一定的联系。
因此,这一问的关注点就在于能否找到酿酒葡萄的理化指标与葡萄酒的理化指标之间的联系,这样的联系是否强烈。
如果找到了一种强烈的密切的联系,那么我们在建立模型的时候完全可以将这两个指标简化为仅一个葡萄酒的理化指标作为输入。
第四问:
进行到这里的时候,我们建立这个新的评分体系的所有准备工作就已经全部完毕了,接下来的工作就是建立这个体系。
首先我们确定的输入有两个:
酿酒葡萄的等级和葡萄酒的理化指标。
而我们最终想要达到的目的是利用这两种信息得出对葡萄酒的评分。
因此这里的主要关注点是我们选取的这两个输入是否与葡萄酒的品质(也就是得分)有联系,即能否通过其进行打分。
打分的情况是否合理,如果不合理该如何完善这个新评分体系。
五.模型的建立与求解
第一问:
第二问:
1.酿酒葡萄分级模型的基本思想:
优质的酿酒葡萄有被酿出优质葡萄酒的潜力,但是由于酿造工艺的问题,不是所有的优质葡萄都能酿成高品质的葡萄酒。
因此,葡萄酒的质量等级并不能完全代表酿酒葡萄的等级。
但是由于原料与成品之间的密切联系,成品酒的质量等级又能够在一定程度上反映原料葡萄的品质上限。
因此在实际的建模过程中,我们仅将葡萄酒的质量作为参考因素,而主要以酿酒葡萄的理化指标为核心信息来对葡萄进行分级。
葡萄酒的理化指标表中含有众多的指标,由于专业知识的缺乏,我们并不能直接分辨这些指标对于最终的葡萄酒的品质的影响。
但是我们可以通过数学的方法,通过葡萄酒的质量的反馈来确定这些指标中哪些是对葡萄酒的品质有益的(称为良性指标),哪些是对葡萄酒的品质有害的(称为恶性指标)。
然后对良性指标和恶性指标分别进行综合评估,最终得出酿酒葡萄的打分,再参照已知的葡萄酒的质量,对这些酿酒葡萄进行分级。
2.酿酒葡萄分级模型的建立与求解
2.1.良性指标与恶性指标的划分
在考察一个指标对于另一个指标的影响的时候,我们主要是通过相关度来判断的。
如果相关系数是正的,则说明这两个指标正相关,而如果是负的,则说明是负相关。
在这里,我们利用matlab软件计算出酿酒葡萄理化指标中各个主要一级指标
与葡萄酒质量
的相关度
,相关系数的计算公式如下:
部分结果如下表1,结果与程序详见附录1.
表1.1酿酒红葡萄理化指标与葡萄酒质量的相关度
……
0.14918
0.51755
-0.070308
0.27208
0.28848
……
表1.2酿酒白葡萄理化指标与葡萄酒质量的相关度
……
0.26338
-0.062634
0.19007
-0.28019
0.39166
……
从相关度分析的结果来看,关于红葡萄酒一共有16个良性指标
以及14个恶性指标
。
关于白葡萄酒一共有19个良性指标
以及11个恶性指标
。
因而可以得到良性指标表和恶性指标表。
2.2.计算酿酒葡萄得分模型
在根据葡萄的状态信息(理化指标表)计算酿酒葡萄得分的时候,我们用的方法的核心思想是基于主成分分析法的。
这里需要引入一个信息贡献力的概念。
我们之前说过酿酒葡萄的理化指标表现的是葡萄的状态信息,对于一个葡萄的好坏程度全部可以通过这些状态信息得到。
在我们评价一个事物的好坏的时候是带有一定的目的性,而我们之前对指标的区分工作就好像对这些信息进行了一次整理,让它在体现葡萄好坏的时候是朝着我们需要的方向,也就是说用来酿酒的方向进行的。
所以,在我们给定了这个方向之后,我们所要做的工作就是尽可能地把这些信息表达出来就够了。
所以在这里某一个指标所能表达的信息的能力就构成了它对葡萄得分的影响。
这样一种能力就称为信息贡献力。
计算酿酒葡萄的综合得分分为以下步骤:
(1)对原始数据进行标准化处理
假设进行信息贡献力分析的指标变量有m个,分别为
,一共要对n个对象进行评价,第i个评价对象的第j个指标的取值为
。
将各指标值
转换成标准化指标值
,有
其中:
,
(2)计算相关系数矩阵R。
相关系数矩阵
,有
,其中,
就是第i个指标和第j个指标的相关系数
(3)计算矩阵的特征值与特征向量
(4)根据特征值计算信息贡献力与综合得分
具体的信息贡献力与综合得分的计算方法:
从相关系数矩阵中得到的特征值为
,则对应成分
的信息贡献力就为
,综合得分为
按照以上的计算方法,可以分别计算出酿酒葡萄的良性指标综合得分和恶性指标综合得分,最终酿酒葡萄的总分=良性指标综合得分-恶性指标综合得分。
部分计算结果统计如下表2,详细结果和程序见附录。
表2.1酿酒红葡萄的得分统计表
......
良性得分
0.78104
1.6082
1.464
-1.1587
0.62766
……
恶性得分
1.5364
0.1301
0.62643
-0.45791
-0.19744
……
总分
-0.75536
1.4781
0.83757
-0.70079
0.8251
……
表2.2酿酒白葡萄的得分统计表
......
良性得分
-0.45668
-0.22388
0.24695
0.4165
0.69474
……
恶性得分
0.19268
-0.52211
0.089534
-0.88703
-0.55092
……
总分
-0.64936
0.29823
0.157416
1.30353
1.24566
……
2.3.以酿酒葡萄的得分为根据划分葡萄等级
由于之前我们对指标进行区分的时候,是利用葡萄酒的质量给定方向的,如果在最终的分级的时候再次参照葡萄酒的质量,则无法保证酿酒葡萄的理化指标这一信息的核心地位。
此外,考虑到最终我们所要建立的新的评分体系的输入中并没有葡萄酒的质量这一因素,因此我们在为酿酒葡萄进行分级的时候只参考上面所求出的酿酒葡萄的得分。
由于葡萄的得分大体分布为-2~2,因此我们将葡萄分级的标准设定如下:
得分在[1,+∞)为第一级葡萄,得分在[0,1)为第二级葡萄,得分在[-1,0)为第三级葡萄,得分在(-∞,-1)的为第四级葡萄。
依据这样的划分标准最终酿酒葡萄的分级结果如下表3。
表3.1酿酒红葡萄的分级结果
葡萄等级
第一级
第二级
第三级
第四级
样本标号
2,9,23,26
3,5,10,13,14,17,19,20,21,24,25
1,4,6,15,16,22,27
7,8,11,12,18
表3.2酿酒白葡萄的分级结果
葡萄等级
第一级
第二级
第三级
第四级
样本标号
4,5,17,21,23,26,28
2,3,9,14,20,22
1,6,7,10,11,12,19,24,25,27
8,13,15,16,18
得到了葡萄的分级结果之后,如果我们再去考察评酒员对对应编号的葡萄酒的打分我们可以发现,从整体上来看,总趋势确实是符合“好的葡萄酿出好的酒”这样一个大众化的主观认识。
当然这里面也存在一些例外的情况。
例如编号为26的红葡萄样品身为第一级的葡萄酿出来的酒却只有59分,而编号为11的红葡萄样品身为第四级的葡萄酿出来的酒却高达80分。
这样一种例外也在我们的预料之内。
因为葡萄酒的酿制除了原料的影响之外酿造工艺的影响也是不可忽略的。
这些好的葡萄由于酿造时处理失当最终酿出了差酒,而差的葡萄机缘巧合,酿出来的酒竟然出类拔萃。
这些情况都是可能发生的。
此外,评酒员打分的失误因素也是不容忽视的。
这些方面都是值得发挥的,但是由于时间紧张、数据不充分,我们并没有再深入地探讨下去。
第三问:
第三问我们可以看作是输入整合,主要的目的是用来简化新的评分系统的输入。
如果酿酒葡萄的理化指标与葡萄酒的理化指标能够相互表达,相互转化,那么我们在最终的评分系统的输入端只需要保留一个系列的指标就好了。
这样可以大大地提高模型的效率。
在这里我们主要用的是拟合与回归的思想,同时再次使用了主成分分析法对算法进行了优化。
拟合与回归的过程是通过matlab软件完成的,我们将酿酒葡萄的各项指标作为自变量
,将葡萄酒的