葡萄酒评价数学模型研究数学建模A题.docx-资源下载

葡萄酒评价数学模型研究数学建模A题.docx

1、葡萄酒评价数学模型研究数学建模A题2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形

2、式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。我们参赛选择的题号是（从A/B/C/D中选择一项填写）：我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：参赛队员 (打印并签名) ：1. 2. 3. 指导教师或指导教师组负责人 (打印并签名)：日期：年月日赛区评阅编号（由赛区组委会评阅前进行编号）：2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：赛区评阅记录（可供赛区评阅时使用）：评阅人评分备注全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前

3、进行编号）葡萄酒评价模型研究摘要本文运用统计学方法利用题中所给样本数据对葡萄酒质量与酿酒葡萄和葡萄酒理化关系进行详细分析,建立模型解决葡萄酒质量评价的问题,确定酿酒葡萄的好坏与所酿葡萄酒有直接的关系,判定葡萄酒和酿酒葡萄的理化指标会在一定程度上反映葡萄酒的质量. 问题一，利用附件一中的两组评酒员的打分数据借助于Excel和SPSS软件采用配对样本的均值检验方法,分别对红,白葡萄酒的评酒员评分进行假设检验，得出红葡萄酒:n=27t=白萄酒n=28t= ，因此两组评酒员的评分存在显著性差异。其变异系数cv2明显小于cv1，故第二组评酒员的评分更可靠。问题二，通过主成分分析法将酿酒葡萄的一级理

4、化指标由m级缩减为n级，利用缩减后的主成分和问题一中得到的评分进行聚类分析，将酿酒葡萄分为j类，然后根据每一类酿酒葡萄的对应于第二组评分的平均值进行比较，划分出酿酒葡萄的等级都为四个等级。问题三，运用双变量分析法，分别将红，白酿酒葡萄的等级和葡萄酒的理化指标进行双变量分析，求出酿酒葡萄等级与葡萄酒每一个理化指标的sig值来判断酿酒葡萄等级与葡萄酒的显著相关性。得出如下结论： 1,红葡萄酒理化指标中花色苷、总酚、酒总黄酮、DPPH半抑制体积、L*(D与红酿酒葡萄有显著性相关。 2,白葡萄酒理化指标中L*、b*与白酿酒葡萄有显著性相关。问题四，利用逐步线性回归法和进步线性回归法，将葡萄酒的每一

5、个指标和对应的酿酒葡萄等级作为自变量，将第二组评酒员对葡萄酒的评分作为因变量，进行线性回归运算。判断因变量与自变量的显著相关性，来判别哪几个自变量对因变量有影响，即判断葡萄酒质量受哪些因素影响。其中红葡萄酒：回归平方和= 残差平方和= 总计平方和= F值为 sig值小于，所以线性回归方程Z=+有效。白葡萄酒：回归平方和= 残差平方和= 总计平方和= F值= sig值小于0、05，所以线性回归方程Z=有效。红酿酒葡萄和白酿酒葡萄的显著性相关的解释率分别为%和%。结论：分析出无论是白葡萄酒还是红葡萄酒，葡萄酒的质量都与酿酒葡萄的指标等级有显著性相关，并且红葡萄酒除了用红酿酒葡萄指标等级来评

6、价，其次也可以用红葡萄酒的理化指标来评价红葡萄酒的质量。关键词主成分分析聚类分析多元线性回归质量评价理化指标显著性相关一，问题的提出葡萄酒作为体现时尚品味的元素,同雪茄,咖啡,名茶一样备受追捧.确定葡萄酒质量是由一批有资质的评酒师进行品评,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到总分,从而确定葡萄酒的质量. 酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量.附件一中给出了某一年份一些葡萄酒样本的评价结果,附件二和三分别给出了该年份这些葡萄酒和酿酒葡萄的理化指标与成分数据.尝试建立数学模型讨论如下

7、问题: 1分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级. 3分析酿酒葡萄和葡萄酒理化指标之间的联系 4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二，问题的分析 21第一个问题属于显著性差异分析的数学问题，要解决这个问题，我么用配对样品T检验分析，因为t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。通过计算出变异性系数（cv）判断这两组那组更合理。附件1 分别给出了两组的10位品酒员对27个酒样的各项进行打分，我们先每个品酒员对

8、每个指标打分求和再求每组是个品酒员打分求平均值。为了检测两组是否有显著性差异我们建立了配对样品T检验的数学模型 2-2.第二个题目中通过对酿酒葡萄的分级我们能选择不同等级的葡萄去酿葡萄酒，这样保证我们酿出的酒的品质大致相同。这属于数据分类方面的数学问题，我们采用主成分分析法和聚类分析法解决这个问题。 2-3我们认为基于实际作用，问题三应该是酿酒葡萄的等级与葡萄酒理化指标的关系。所以我们认为这是一个双变量相关性问题。一个变量为第二题的数据结果分析出来的等级，另一个变量为葡萄酒的一级指标。 2-4我们将第四个问题理解为：酿酒葡萄等级和葡萄酒的理化指标对葡萄酒质量的影响。我们利用线性回归处理该问题。

9、三，模型的假设1假设所有样本发酵条件相同2假设所有品酒师的味觉分析能力正常四，模型的建立与求解4-1问题一属于显著性差异分析的数学问题，要解决这个问题，我们用配对样品T检验分析。因为t检验是用t分布理论来推论差异发生的概率，从而利用配对T检验比较两个平均数的差异是否显著。通过计算出每组评分的变异性系数（cv）判断这两组中哪组更合理。显著性差异是一种有量度的或然性评价，比如我们说A、B两数据在水平上具备显著性差异，这是说两组数据具备显著性差异的可能性为95%。两个数据所代表的样本还有5%的可能性是没有差异的。这5%的差异是由于随机误差造成的。通常情况下，实验结果达到水平或水平，才可以说数据

10、之间具备了差异显著或是极显著。在作结论时，应确实描述方向性（例如显著大于或显著小于）。sig值通常用 P 表示差异性不显著；P 表示差异性显著；P表示差异性极显著。建立模型：附件1 分别给出了两组的10位品酒员对27个红酒样的各项的评分，这里规定附件1中第M位品酒员对第N个酒品中的第K个指标分数为X(M N K)，以此，先将每个品酒员对酒样品的各个指标打分求和，比如第一位品酒员对酒样品2的每个指标求和的计算公式为Y (1 2)=X(1 2 1)+X(1 2 2)+X(1 2 10),其中Y(1 2)表示第一位品酒员对酒样品2的总评分，再求每组中每一个酒品关于该组所有品酒员评分的平均值，所得结

11、果即为该组品酒员对某一样品的综合评分，如某组对酒样品2的综合评分即为Z(2)=(Y(1 2)+Y(2 2)+Y(3 2)+.Y(10 2)/10。利用用EXCEL将数据整理好（详图见目录），然后用spss软件分别将两组对红葡萄酒样品和白葡萄酒样品的综合评分进行处理，具体步骤为：分析比较均值配对样本T检验。T检验的数学公式如下：其中，注：式中：Sd为d的标准差；n为配对的对子数，即试验的重复数， d为两样本各对数据之差，为差异标准误。我们先来对红葡萄酒的显著性进行分析表1-1是第一组品酒师和第二组品酒师对红葡萄酒的打分数据.表1-1第一组和第二组品酒师对红葡萄酒的打分第一组第二组74第一组

12、第二组66第一组73第二组第一组78第二组第一组73第二组72 接着将这些打分数据输入到SPSS软件中进行配对样本T检验，得到表1-2-1、表1-2-2、表1-2-3：表1-2-1成对样本统计量均值N标准差均值的标准误对 1VAR0000627VAR0000727.76556(1hong)= (2hong)= 表1-2-2成对样本相关系数N相关系数Sig.对 1VAR00006 & VAR0000727.702.000表1-2-3成对样本检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的 95% 置信区间下限上限对 1VAR00006 - VAR00007.4490226.019结

13、果分析：N=27，t=，P=小于显著性水平，即俩组对红葡萄酒的评价存在显著性差异。因为第二组品酒师对红葡萄酒评分的变异性系数(2hong)= 小于第一组品酒师对红葡萄酒评分的变异性系数(1hong)= ，所以我们认为第二组的评分更加稳定，也就是说第二组的评分更可靠。（为我们自行计算数值，非SPSS数据结果）用同样方法对第一组和第二组对白葡萄酒的评分进行分析时，我们发现了一个问题，在附件一中，第一组白葡萄酒品尝评分表格中，J233数据为77，明显异常，我们按照该异常数据对未修正的白葡萄酒进行配对样品T检验得到表1-3-1、1-3-2:表1-3-1 成对样本相关系数N相关系数Sig.对 1VAR0

14、0003 & VAR0000428.207.291表1-3-2成对样本检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的 95% 置信区间下限上限对 1VAR00003 - VAR0000427.038结果分析：P=小于显著性水平，存在显著性差异。（为我们自行计算数值，非SPSS数据结果）注：（我们将该异常数据取同一指标下，其他品酒员评分的平均值。）对修正后的白葡萄酒进行配对样品T检验得到表1-4-1、1-4-2、1-4-3：表1-4-1均值N标准差均值的标准误对 1VAR0000428.90726VAR0000528.59925第一组品酒师对白葡萄酒评分的变异系数(1bai)=

15、第二组品酒师对白葡萄酒评分的变异系数(2bai)= 表1-4-2成对样本相关系数N相关系数Sig.对 1VAR00004 & VAR0000528.240.219表1-4-3 成对样本检验成对差分tdfSig.(双侧)均值标准差均值的标准误差分的 95% 置信区间下限上限对 1VAR00004 - VAR00005.9598527.014结果分析：P=小于显著性水平，两组对白葡萄酒评分存在显著性差异。因为第二组的(2bai)= 小于第一组的(1bai)= ，所以我们认为第二组对白葡萄酒的评分更加稳定，也就是说结果更加可靠。（为我们自行计算数值，非SPSS数据结果）4-2 该问题属于聚类分析对变

16、量分级，首先，我们认为葡萄酒质量可以根据第一题分析结果，采取第二组对葡萄酒的评分为葡萄酒质量的分级标准。附录2中所给酿酒葡萄的指标数据分为一级指标和二级指标，对于多次测量的指标我们选择其多次测量的平均值，针对不同等级的指标，我们选择运用主成分分析法，对酿酒葡萄的理化指标进行分析，然后对主成份分析结果与标准化后的第二组对葡萄酒评分数据进行聚类分析。最后将酿酒葡萄的理化指标分类，把每一类酿酒葡萄的对应与第二组评分的平均值进行比较，完成对酿酒葡萄的分级。主成分分析：是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析，是考察多个变量间相关性

17、一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov(F1, F

18、2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，第P个主成分。主成份分析数学模型：Fp=a1iZX1+a2iZX2+apiZXp 其中a1i, a2i, ,api(i=1,m)为X的协方差阵的特征值所对应的特征向量，ZX1, ZX2, , ZXp是原始变量经过标准化处理的值，因为在实际应用中，往往存在指标的量纲不同，所以在计算之前须先消除量纲的影响，而将原始数据标准化，本文所采用的数据就存在量纲影响注：本文指的数据标准化是指Z标准化。 A=(aij)pm=(a1,a2,am,)，Rai=iai，R为相关系数矩阵，i、ai是相应的特征值和单位特征向量,12p0 。进行主成分分析

19、主要步骤如下： 1. 指标数据标准化（SPSS软件自动执行）； 2. 指标之间的相关性判定； 3. 确定主成分个数m； 4. 主成分Fi表达式； 5. 主成分Fi命名；聚类分析：我们所研究的样品（网点）或指标（变量）之间存在程度不同的相似性（亲疏关系以样品间距离衡量）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。常见聚类分析有： Euclidean dista

20、nce 平方欧式距离:2. Euclidean distance 欧式距离:3. Cosine夹角余弦（R型） 4. Pearson correlation皮尔逊相关系数（R型）5. Chebychev切比雪夫距离：首先将所给红酿酒葡萄的一级指标筛选出来并整理，然后将数据直接导入SPSS软件中进行因子分析，方法采用主成份分析法，得到数据，表2-1、表2-2为所得数据的主要部分。表2-1解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %123456789.91310.65711.55312.43813.33814.27915.260.96216.169.624

21、17.144.53418.101.37319.074.27520.054.20121.033.12322.020.07423.009.03324.002.00725.001.00626.00027提取方法：主成份分析。表2-2成份矩阵a成份12345678总酚(mmol/kg).789.361.004.224.048花色苷mg/100g鲜重.787.358.340.022.165.146葡萄总黄酮（mmol/kg）.743.204.191单宁(mmol/kg).698.363.044.303.243葡萄总黄酮（mmol/kg）.695.000.161.202DPPH自由基1/IC50（g/L）

22、.667.452.274.206.208百粒质量/g.455.205.183.207.271果梗比(%).600.120.143.069.273果皮颜色.456.275.182蛋白质mg/100g.557.375.474.182.066氨基酸总量.528.010.141.193出汁率(%).468.426.461b*（+黄;-蓝） 1.238.252.215.485.116.130a*(+红；-绿) 1.450.118.325.156.089果皮质量（g）.539.014.305.049.469.176可滴定酸（g/l）.276.179白藜芦醇(mg/kg).120.672.021.227.3

23、16.071干物质含量g/100g.447.041.279.077.139固酸比.398.517.134.383.384苹果酸（g/L）.385.786.220.207褐变度.544.245.059.678.063.081PH值.281.138.440.085.018.266多酚氧化酶活力.264.243.547.156.131.133柠檬酸（g/L）.354.176.438.414.303VC含量（mg/L).167.198.168.167.081果穗质量/g.474.184.495.108.277.196酒石酸（g/L）.449.256.488.135提取方法 :主成份。a. 已提取了 8

24、个成份。对所得结果进行分析：分析结果一共有8个主成份，但根据上表中的成分矩阵将每一列各指标的R值取大概在以上，所以选择累积贡献率达到77%的前6个主成份。然后每个主成份所对应的指标名称列表为表2-3：表2-3主成份一主成份二主成份三主成份四主成份五主成份六总酚(mmol/kg)b*（+黄;-蓝） 1可滴定酸（g/l）苹果酸（g/L）VC含量（mg/L)酒石酸（g/L）花色苷mg/100g鲜重a*(+红；-绿) 1白藜芦醇(mg/kg)褐变度果穗质量/g葡萄总黄酮（mmol/kg）果皮质量（g）干物质含量g/100gPH值单宁(mmol/kg)固酸比多酚氧化酶活力葡萄总黄酮（mmol/kg）柠

25、檬酸（g/L）DPPH自由基1/IC50（g/L）百粒质量/g果梗比(%)果皮颜色蛋白质mg/100g氨基酸总量出汁率(%)以下是对红酿酒葡萄主成份分类的名词解释第一主成分主要是酚类物质第二主成份主要是色素第三主成分主要是酸第四主成分主要是酸第五主成份主要是矿物质第六主成分主要是酸对一级指标主成份分析后所得变量和第二组评分标准化后的变量采用SPSS聚类分析的系统聚类，聚类方法为WORD法，主要数据结果如下：图2-4（红酿酒葡萄与红葡萄酒质量聚类）我们组根据该数据结果将红葡萄酒分为4类，根据第一题算得第二组在白葡萄酒和红葡萄酒的变异性系数较第一组小，可靠性更高，所以我们认为应该将第二组对每个酒样

26、品的评分作为葡萄酒质量的评判标准。于是我们将红葡萄酒的4类酒样品中的每个酒样品一一对应第二组对红葡萄酒的评分，然后将每一类酒样品的平均评分求出，然后将每一类酒样品的评分按照升序排列，从而得到每一类酒样品等级的升序排列。最后结果为：第一等级为红葡萄酒（20、26、17、24、5、23、2、9、1）第二等级为红葡萄酒（3、21）第三等级为红葡萄酒（12、18、6、7、15、14、27、13、19、25、4、22、16、10、8）第四等级为红葡萄酒（11）（等级越高说明酒的评分越高，即品质越高）下面对白酿酒葡萄的分级同红酿酒葡萄的原理相同，我们对白酿酒葡萄的一级指标筛选出来用SPSS进行主成份分析，得到表2-5：表2-5成份矩阵成份1234

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？