葡萄酒的评价数学建模论文.docx

资源描述

葡萄酒的评价数学建模论文.docx

《葡萄酒的评价数学建模论文.docx》由会员分享，可在线阅读，更多相关《葡萄酒的评价数学建模论文.docx（62页珍藏版）》请在冰豆网上搜索。

葡萄酒的评价数学建模论文.docx

葡萄酒的评价数学建模论文葡萄酒的评价数学建模论文2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。

如有违反竞赛规则的行为，我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。

我们参赛选择的题号是（从A/B/C/D中选择一项填写）：

A我们的参赛报名号为（如果赛区设置报名号的话）：

所属学校（请填写完整的全名）：

参赛队员（打印并签名）：

1.2.3.指导教师或指导教师组负责人（打印并签名）：

日期：

2012年9月10日赛区评阅编号（由赛区组委会评阅前进行编号）：

2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：

赛区评阅记录（可供赛区评阅时使用）：

评阅人评分备注全国统一编号（由赛区组委会送交全国前编号）：

全国评阅编号（由全国组委会评阅前进行编号）：

葡萄酒的评价摘要本文以酿酒葡萄和葡萄酒为对象,根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行了分级,建立了酿酒葡萄与葡萄酒理化指标间的联系,并就酿酒葡萄与葡萄酒理化指标对葡萄酒质量的影响进行了分析讨论。

针对问题一，首先用EXCEL软件分别对红白葡萄酒的两组评价结果进行处理，得到其打分分数的平均值，然后考虑到本题确定的两个独立样本的分布形态不确定，所以选用非参数检验中的Mann-WhitneyU检验和Kolmogorov-Smirnov检验方法对评价结果进行显著性分析，发现两组评酒员的评价结果有显著性差异，最后分别对两组评分数据求标准差并进行比较，确定出第二组评酒员的评价结果可信度高。

针对问题二，我们用聚类分析和主成分分析两种方法对葡萄样品进行分类，并比较两种方法的优劣性。

首先用SPSS软件中的聚类分析法对葡萄样品进行分类，结果将葡萄分为四类，然后用主成分分析法简化酿酒葡萄的理化指标，并求出简化后理化指标的权重，得出葡萄样品的综合排名，对其进行排序，用建立好的评级指标可以将样品分为如下四类：

等级红葡萄白葡萄最佳8,10,141,13良好2,3,5,263,5,6,10,15,16,17,20,21,24,27中等1,6,9,13,17,19,21,23,24,272,4,7,8,9,11,12,14,18,19,22,23,25,28差4,7,11,12,15,16,20,22,25,2826最后通过对两种方法的比较，得出主成分分析法为较优方法。

针对问题三，首先根据问题二中主成分分析法的结果对酿酒葡萄的指标进行简化，将问题转化为一个多元函数的求解问题，然后分别对酿酒葡萄中的指标和葡萄酒理化指标进行相关性分析，得出指标间的相关性关系，将问题转化为求解超定方程组的解，最后利用最小二乘法建立了酿酒葡萄与葡萄酒理化指标间的关系式。

针对问题四，首先把评酒员对酒样品的评分作为葡萄酒质量的评价，用相关性分析方法求出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的相关性，然后再把芳香度作为葡萄酒质量的评价，求出理化指标与葡萄酒质量之间的相关性，对比这两种方法的结果可以得出结论：

在一定程度上不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

关键词：

非参数检验聚类分析法主成分分析法相关性分析一问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

附件1给出了某一年份一些葡萄酒的评价结果，附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。

请尝试建立数学模型讨论下列问题：

1.分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？

2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？

二问题分析对于问题一，要想得到差异的显著性，首先就要处理数据得到两组评价结果的平均值，但考虑到两个独立样本的分布形态不确定，所以用非参数检验法更加准确。

针对这个问题，我们采用最常用的两种方法：

Mann-WhitneyU检验和Kolmogorov-Smirnov检验来判断是否有显著性差异。

对于可信度，考虑到标准差是反应一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标，可以反映组内个体间的离散程度，所以采用标准差值的大小来衡量测量结果的可信度。

对于问题二，我们可以用聚类分析对葡萄样品进行分类，也可以用主成分分析求出主要的影响指标及其权重，进而对样品进行排序并分类。

最后通过对比两种方法的优劣性得出较优方法，从而得到葡萄的质量分级。

对于问题三，由于酿酒葡萄的指标很多，所以首先应该对酿酒葡萄的指标进行简化将问题转化为一个多对多的模型，然后分别对酿酒葡萄中的指标和葡萄酒理化指标进行相关性分析，得出指标间的相关性关系，将问题转化为求解超定方程组的解，最后可以利用最小二乘法建立酿酒葡萄与葡萄酒理化指标间的联系。

对于问题四，首先根据问题三的结果可以将酿酒葡萄和葡萄酒的理化指标进行进一步的简化，然后把评酒员对酒样品的评分作为葡萄酒质量的评价，用软件中的相关性分析方法求出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的相关性，就可以得出他们之间的影响程度，然后再把芳香度作为葡萄酒质量的评价，求出理化指标与葡萄酒质量之间的相关性，对比这两种方法的结果来论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

三模型假设1.假设酿酒葡萄和葡萄酒是一一对应的关系；2.假设葡萄酿酒过程中的卫生指标符合规定，本题不予以考虑；3.假设评酒员在评分时不受其他主观因素的影响；4.假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系；5.假设两组评酒员都是随机选取的；6.为了便于问题解决，假设酿酒葡萄和葡萄酒的理化指标属于线性关系；7.芳香物质是葡萄酒质量的重要指标,文中将芳香物质摩尔总和用于评价葡萄酒质量。

四符号说明符号名称符号意义双侧显著性水平显著水平理论葡萄酒累积频数分布次观测的随机样本的经验分布函数检验统计量综合主成分值红葡萄酒的理化指标红葡萄的指标白葡萄酒的理化指标白葡萄的指标五模型的建立与求解5.1问题一求解本文首先分析了影响评酒员对葡萄酒进行评价的相关因素，发现他们是从外观、香气和口感等方面来对白葡萄酒和红葡萄酒的各样本进行打分的，为了综合这些因素，能够更好地比较出两组评分结果的差异性与可信度，需要对附件的数据进行处理，这里我们分别求出第一组和第二组评酒员对白葡萄酒和红葡萄酒打分分数的平均值。

处理的数据见表1.1.1,表1.1.2,表1.1.3,表1.1.4：

表1.1.1：

第一组红酒各样品分数平均值样品123456789平均值62.780.380.468.673.372.271.572.381.5样品101112131415161718平均值74.270.153.974.67358.774.979.359.9样品192021222324252627平均值78.679.877.177.285.67869.273.873表1.1.2：

第二组红酒各样品分数平均值样品123456789平均值68.17474.671.272.166.365.36678.2样品101112131415161718平均值68.861.668.368.872.665.769.974.565.4样品192021222324252627平均值72.675.872.271.677.171.568.27571.5表1.1.3：

第一组白酒各样品分数平均值样品1234567平均值8274.278.379.47168.477.5样品891011121314平均值71.472.974.372.363.365.972样品15161718192021平均值72.47478.873.172.277.876.4样品22232425262728平均值7175.973.377.181.364.881.3表1.1.4：

第二组白酒各样品分数平均值样品1234567平均值77.975.875.676.981.575.574.2样品891011121314平均值72.380.479.871.472.473.977.1样品15161718192021平均值78.467.380.376.776.476.679.2样品22232425262728平均值79.477.476.179.574.37779.6根据不同组评酒员针对不同品种和样本葡萄酒的打分情况，可以将这两组的打分情况看作两个独立的样本。

这样就将问题转化为求两独立样本的参数检验问题。

利用T检验方法可以得到两个总体是否存在显著性差异，但T检验方法要求两个独立样本来自的总体服从正态分布，甚至对两个总体的方差也要求相等或者已知。

所以我们利用两独立样本的非参数检验过程对两个总体的分布是否存在显著性差异进行检验。

由于非参数检验的方法比较多，这里主要运用Mann-WhitneyU检验和Kolmogorov-Smirnov检验两种方法，并给出不同检验的相关结果。

1.Mann-WhitneyU检验Mann-WhitneyU检验可用于检验两独立样本是否来自于同一总体，它是最常用的两独立的非参数检验方法，该检验方法的零假设是这种检验方法是利用两独立样本的秩的比较得到的。

它的检验步骤为：

（1）提出假设:

两样本来自于无显著差异的总体两样本来自于有显著差异的总体

（2）计算相应检验统计量值或值（3）作出判断若,接受，认为两个样本无显著性差异；否则，拒绝，认为两个样本有显著性差异（值为双侧显著性水平，）。

分别将表1.1.1和表1.1.3、表1.1.2和表1.1.4的数据导入SPSS软件运用Mann-WhitneyU检验得到红葡萄酒和白葡萄酒的秩和检验统计量，如表1.1.5和表1.1.6所示：

表1.1.5：

红葡萄酒检验的秩和检验统计量秩gN秩均值秩和sur1.002732.69882.502.002722.31602.50总数54检验统计量bsurMann-WhitneyU224.500WilcoxonW602.500Z-2.422渐近显著性（双侧）.015MonteCarlo显著性（双侧）显著性.000a95%置信区间下限.000上限.105MonteCarlo显著性（单侧）显著性.000a95%置信区间下限.000上限.105表1.1.6：

白葡萄酒检验的秩和检验统计量秩gN秩均值秩和sur1.002823.79666.002.002833.21930.00总数56检验统计量asurMann-WhitneyU260.000WilcoxonW666.000Z-2.163渐近显著性（双侧）.031a.分组变量:

g从表1.1.5和表1.1.6可以看出，两种葡萄酒的值均小于0.05，所以拒绝，认为两个样本即两组评价结果有显著性差异。

2.Kolmogorov-Smirnov（K-S）检验Kolmogorov-Smirnov检验用于检验一组样本观测结果的经验分布同某一指定的理论分布之间是否一致。

K-S检验的基本思路为：

将顺序分类数据的理论积累频率分布同观测的经验累积频率分布加以比较，求出它们最大的偏离值，然后再给定的显著性水平上检验这种偏离值是否是偶然出现的。

设理论葡萄酒累积频数分布为，次观测的随机样本的经验分布函数，K-S检验的步骤如下：

（1）零假设：

经验分布与理论分布没有显著差别。

（2）把样本观测值从小到大排列为：

，计算经验累积分布函数：

和理论累积分布函数。

记检验统计量，K-S检验将计算值以及相应的概率值。

在给定显著性水平的条件下，如果概率值小于显著性水平，则拒绝零假设，认为两样本有显著性差异，反之，则没有显著性差异。

分别将表1.1.1和表1.1.3、表1.1.2和表1.1.4的数据导入SPSS软件运用Kolmogorov-Smirnov检验得到红葡萄酒和白葡萄酒的频率（频数）和检验统计量，如表1.2.1和表1.2.2所示：

表1.2.1：

红葡萄酒检验的频率和检验统计量频率gNsur1.00272.0027总数54检验统计量bsur最极端差别绝对值.407正.111负-.407Kolmogorov-SmirnovZ1.497渐近显著性（双侧）.023MonteCarlo显著性（双侧）显著性.000a95%置信区间下限.000上限.105a.基于27个具有起始种子334431365的采样表。

b.分组变量:

g表1.2.2：

白葡萄酒检验的频率和检验统计量频率gNsur1.00282.0028总数56检验统计量asur最极端差别绝对值.357正.357负-.071Kolmogorov-SmirnovZ1.336渐近显著性（双侧）0.056a.分组变量:

g这里给出显著性水平=0.06，从上面的表格可以看出，概率值均小于显著性水平，所以拒绝零假设，认为两组结果有显著性差异。

通过上面两种检验方法，可以得出结论：

两组评酒员的评价结果均有显著性差异。

3.可信度的评判对于可信度，我们用标准差进行评判。

因为标准差是反应一组数据离散程度最常用的一种量化形式，是表示精确度的重要指标，可以反映组内个体间的离散程度，即标准差小的表示数据的波动小，离散程度低，稳定性高，可信度高。

反之，则离散程度高，稳定性低，可信度小。

结合表1.1.1、表1.1.2、表1.1.3和表1.1.4的数据进行计算，得出两组评酒员对葡萄酒的评价结果的标准差，见表1.3.1。

表1.3.1两种葡萄酒评价的标准差红葡萄酒白葡萄酒第一组第二组第一组第二组标准差7.383.984.803.17由表1.3.1的数据中可以看出，第二组评价结果的标准差均小于第一组，所以认为第二组的可信度高。

5.2问题二的求解在处理此问题前，首先要对问题所给的数据（附件1，附件2）进行分析处理。

通过对葡萄理化指标资料的查找知道白藜芦醇由反式白藜芦醇，顺式白藜芦醇，反式白藜芦醇苷和顺式白藜芦醇苷等物质组成；黄醇酮由杨梅黄铜，槲皮素，山奈酚和异鼠李素组成；氨基酸由苏氨酸，丝氨酸等氨基酸组成；还原糖由葡萄糖和果糖组成，同时又因为我们通过对题目所给的二级指标数据求和后，与一级指标数据进行比较发现其值相同，故最终认为建模中我们只需考虑一级指标的理化性质即可。

接着根据附件2给出的色泽中的数据，结合查找出的公式：

色泽饱和度，色调角，葡萄和葡萄酒的颜色指标为，可以求出酿酒葡萄所对应的颜色指标，如下表2.1.1，表2.1.2所示。

表2.1.1：

红葡萄的颜色指标样品123456789颜色指标7.086.556.798.356.786.046.736.547.18样品101112131415161718颜色指标6.154.337.496.116.825.536.916.544.75样品192021222324252627颜色指标6.526.656.477.416.596.836.286.176.01表2.1.2：

白葡萄的颜色指标样品1234567颜色指标3.753.493.552.892.923.353.18样品891011121314颜色指标4.163.493.423.183.663.633.12样品15161718192021颜色指标3.744.193.083.404.463.263.06样品22232425262728颜色指标3.783.053.473.873.233.192.81又因为葡萄酒质量包括理化指标和感官指标，其中芳香物质属于感官指标，所以需要根据附件3对葡萄酒的芳香物质数据进行处理，如表2.1.3，表2.1.4所示：

表2.1.3：

红葡萄酒样品芳香物质的平均摩尔数样品123456789摩尔数4.914563.823.553.894.633.243.943.55样品101112131415161718摩尔数2.872.514.413.572.054.423.374.533.73样品192021222324252627摩尔数3.563.273.695.163.834.652.963.24.51表2.1.4：

白葡萄酒样品芳香物质的平均摩尔数样品1234567摩尔数4.393.197.434.423.754.732.37样品891011121314摩尔数4.188.0943.22.462.297.18样品15161718192021摩尔数3.781.345.412.524.466.574.82样品22232425262728摩尔数5.695.536.355.252.765.944.77在问题二中葡萄酒的质量可选用评酒员对每种样品酒打分的分数平均值作为标准，由于问题一分析的第二组数据的可信度较高，所以分别选用红白葡萄酒评价的第二组数据进行分析，即表1.1.2，表1.1.4。

最后，根据对数据的处理，综合表1.1.2，表1.1.4，表2.1.1，表2.1.2，表2.1.3，表2.1.4，附件2，可以得到关于酿酒葡萄理化指标与葡萄酒质量的综合数据表，见附录1，附录2。

对于问题二，需要对酿酒葡萄进行分级。

考虑到影响酿酒葡萄的因素包括葡萄自身多种的理化性质，还有所酿成葡萄酒的标准对葡萄的要求等，为了分析各种因素之间的关系并对其进行分类，本文我们分别选用聚类分析法和主成分分析法处理此问题。

1.聚类分析法聚类分析法是理想的多变量统计技术，主要有分层聚类和迭代聚类法。

聚类分析也称群分析、点群分析，是研究分类的一种多元统计方法。

根据附录1，附录2，分别将数据导入软件，运用分层聚类法分别得到红白葡萄理化性质和与其对应的葡萄酒质量的群集成员表（见表2.2.1，表2.2.2）和树状图（见图2.2.1，图2.2.2）：

表2.2.1：

红葡萄群集成员表案例1:

12:

23:

34:

45:

56:

67:

78:

89:

94群集112333311案例10:

1011:

1112:

1213:

1314:

1415:

1516:

1617:

1718:

184群集343313333案例19:

1920:

2021:

2122:

2223:

2324:

2425:

2526:

2627:

274群集332313333表2.2.2：

白葡萄群集成员表案例1:

12:

23:

34:

45:

56:

67:

74群集1222222案例8:

89:

910:

1011:

1112:

1213:

1314:

144群集3223222案例15:

1516:

1617:

1718:

1819:

1920:

2021:

214群集2322322案例22:

2223:

2324:

2425:

2526:

2627:

2728:

284群集2222242图2.2.1：

红葡萄的聚类分析树状图图2.2.2：

白葡萄的聚类分析树状图结果评价与分析根据表2.2.1和图2.2.1可将红葡萄分为四类：

第一类：

样品1,2,8,9,14,23;第二类：

样品3,21;第三类：

样品4,5,6,7,12,13,15,16,17,18,19,20,22,24,25,26,27;第四类：

样品11。

根据表2.2.2和图2.2.2可将白葡萄分为四类：

第一类：

样品1；第二类：

样品2,3,4,5,6,7,9,10,12,13,14,15,17,18,20,21,22,23,24,25,26,28；第三类：

样品8，11,16,19；第四类：

样品27。

2.主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

为了使这些综合所含的信息互不重叠，应要求他们互不相关。

主成分分析的数学模型：

其中为的协方差阵的特征值对应的特征向量，为主成分，是原始变量经过标准化处理的值，因为在实际应用中，往往存在指标的量纲不同，所以在计算之前须先消除量纲的影响，而将原始数据标准化。

特征向量，为相关系数矩阵,是相应的特征值和单位特征向量,其中。

首先我们通过分别将红白两色葡萄的理化指标及葡萄酒的质量（第二组评酒员评价结果的平均值）的原始数据（见附录1,附录2）导入软件进行主成分分析处理，得到红白两色葡萄各种样品的主成分荷载矩阵（见表2.3.1，表2.3.3）及方差分析主成分分析（见表2.3.2，表2.3.4）。

表2.3.1：

红葡萄的主成分荷载矩阵成份矩阵a成份12345678氨基酸.287.584.293-.374-.264.280-.051.077蛋白质.686-.427.070-.253.150.176.139.020VC含量-.110-.407-.170-.054-.520-.031-.073.085花色苷.824.036-.159.372.078-.176-.011-.028酒石酸.402.112.099-.554.303.204.250-.386苹果酸.301.371-.581.388.142-.332-.020-.066柠檬酸.283.242-.472-.103.430.253.280-.408多酚氧化酶活力.244.229-.328.492.288.267.061.279褐变度.610.071-.55

展开阅读全文