高教社杯全国大学生数学建模竞赛a.docx
《高教社杯全国大学生数学建模竞赛a.docx》由会员分享,可在线阅读,更多相关《高教社杯全国大学生数学建模竞赛a.docx(19页珍藏版)》请在冰豆网上搜索。
高教社杯全国大学生数学建模竞赛a
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
哈尔滨商业大学
参赛队员(打印并签名):
1.王羽
2.刘恺利
3.王俊杰
指导教师或指导教师组负责人(打印并签名):
日期:
2012年9月10日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价
摘要
随着生活水平的提高,葡萄酒已经走进了千家万户,葡萄酒的优劣已成为一个热点问题。
本文通过对已给附件1-2的葡萄酒品尝评分,葡萄和葡萄酒的理化指标,在基于一些合理简化假设的基础上,建立模型计算分析,并充分利用Excel、Spss软件简化计算,对相关问题进行了有针对性的解。
进而对酿酒葡萄,葡萄酒的质理化指标和葡萄酒的质量相关问题求解。
针对问题一,首先,我们对所给数据进行深入分析,借助Excel做出了两组评酒员对红葡萄酒和白葡萄酒评分的平均值,进而利用Spss分别对红葡萄酒和白葡萄酒的评分进行独立T检验,得出红葡萄酒两组的评分没有显著性差异,白葡萄酒两组的评价有显著差异,并且第二组更可信。
针对问题二,先用相关分析筛选出对葡萄酒质量起主要作用的酿酒葡萄的理化指标;再根据k均值聚类对这些酿酒葡萄进行分级(选四个级分别优、中上、中等、中下):
红葡萄酒等级:
优等(葡萄样品2、9),中上等(葡萄样品3、8、14、23),中等(葡萄样品4、5、6、7、10、11、12、13、15、16、17、18、19、21、22、24、25、26、27)中下等(葡萄样品1)
白葡萄酒等级:
优等(葡萄样品4、5、9、10、14、17、19、21、22、23、25、26),中上等(葡萄样品15),中等(葡萄样品2、24、27、28),中下等(葡萄样品1、6、7、11、12、13、16、18、20)。
针对问题三,根据已筛选出来的酿酒葡萄的主要指标分别对葡萄酒的理化指标借助Spss进行多元逐步回归分析,进而得到他们的关系:
酒石酸:
甘氨酸:
果穗质量:
针对问题四,先用相关分析筛选出对葡萄酒质量起主要作用的葡萄酒的理化指标;借助Spss将葡萄酒的主要理化指标,酿酒葡萄的主要理化指标和葡萄酒的质量进行多元回归分析,得出顺式白藜芦醇苷、甘氨酸、酒石酸、果穗质量对葡萄酒的质量是有影响的。
根据拟合的线性关系可以说明用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是合理的。
关键字:
Excel软件Spss软件K均值聚类独立T检验多元逐步回归分析相关性分析
§1问题重述
1、背景知识:
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
2、相关数据:
附件1:
葡萄酒品尝评分表(含4个表格)
附件2:
葡萄和葡萄酒的理化指标(含2个表格)
附件3:
葡萄和葡萄酒的芳香物质(含4个表格)
3、要解决的问题:
1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
§2问题的分析
问题一:
首先,我们对所给数据进行深入分析,借助Excel做出了两组评酒员对红葡萄酒和白葡萄酒评分的平均值,为了说明两组是否显著性,进而利用SPSS分别对红葡萄酒和白葡萄酒的评分进行独立T检验,这样便能得出它们是否显著。
问题二:
要将酿酒葡萄进行分级,首先筛选出主要影响葡萄酒质量的酿酒葡萄指标,这样我们用相关分析筛选出对葡萄酒质量起主要作用的酿酒葡萄的理化指标;再根据k均值聚类对这些酿酒葡萄进行分级(选四个级分别优、中上、中等、中下)。
问题三:
根据上一问我们筛选到了酿酒葡萄的主要指标:
酒石酸、甘氨酸,果穗质量。
把酿酒葡萄的主要指标分别与葡萄酒的理化指标做多元逐步回归,将一部分不重要的指标提出,可以得到较好拟合较好的回归线。
问题四:
首先我们要对葡萄酒的理化指标和葡萄酒的质量进行相关性分析,剔除影响不大的指标,然后将已筛选好的酿酒葡萄指标、葡萄酒的理化指标和葡萄酒的质量进行多元逐步回归,会得到较好的拟合效果。
然后我们根据所得到线性公式可以看出葡萄酒的质量可以用葡萄和葡萄酒的理化指标来评价。
§3模型的假设
1.假设在简化问题的过程中酿酒工艺等环节对葡萄酒的质量毫无影响
2.假设一位评酒员给出一个样品的总分为他对该样品所有方面评分的总和该样品的最终得分为10位评酒员打分的均值
3.假设评酒员不受外界因素干扰,所给评分独立。
4.假设酿酒葡萄在生长过程中不会发生个别基因突变。
5.假设这些品酒员是从众多评酒员中挑选出来的。
§4模型的符号说明
t:
样本平均数数与总体平均数的利差统计量
:
样本平均数
n:
样本总量
:
白藜芦醇
:
色泽A
:
单宁
:
色泽H
:
色泽C
:
酒石酸
:
果穗质量
:
甘氨酸
§5模型的建立与求解
§5.1问题一的模型建立、求解
§5.1.1两组评酒员的评价结果的差异性:
根据附表1-葡萄酒品尝评分表,利用Excel软件求出红葡萄酒、白葡萄酒个各样品的平均得分(分别剔除红葡萄酒样品20数据缺失,白葡萄酒样品3、8数据异常)如下表所示:
红酒样品
一组给分
二组给分
红酒样品
一组给分
二组给分
红酒样品
一组给分
二组给分
1
62.7
68.1
10
74.2
68.8
19
78.6
72.6
2
80.3
74.0
11
70.1
61.6
21
77.1
72.2
3
80.4
74.6
12
53.9
68.3
22
77.2
71.6
4
68.6
71.2
13
74.6
68.8
23
85.6
77.1
5
73.3
72.1
14
73.0
72.6
24
78.0
71.5
6
72.2
66.3
15
58.7
65.7
25
69.2
68.2
7
71.5
65.3
16
74.9
69.9
26
73.8
72.0
8
72.3
57.6
17
79.4
74.5
27
73.0
71.5
9
81.5
78.2
18
59.9
65.4
白酒样品
一组给分
二组给分
白酒样品
一组给分
二组给分
白酒样品
一组给分
二组给分
1
82
77.9
12
63.3
72.4
21
76.4
79.2
2
74.2
75.8
13
65.9
73.9
22
71.0
79.4
4
79.4
75.6
14
72.0
77.1
23
75.9
77.4
5
71.0
81.5
15
72.4
78.4
24
73.3
76.1
6
68.4
75.5
16
74.0
67.3
25
77.1
79.5
7
77.5
74.2
17
78.8
80.3
26
81.3
74.3
9
72.9
80.4
18
73.1
76.7
27
64.8
77.0
10
74.3
79.8
19
72.2
76.4
28
81.3
79.6
11
72.3
71.4
20
77.8
76.6
5.1.2模型建立:
独立样本t检验统计量为:
S1和S2为两样本方差;n1和n2为两样本容量。
运用SPSS进行两独立样本T检验得出(程序见附录1):
红葡萄酒:
白葡萄酒:
对红葡萄酒分析:
F值为4.016,相伴概率0.051>显著水平0.05,不能继续方差相等的假设,然后看方差相等时T检验结果,T统计量的相伴概率为0.130>显著水平0.05,不能拒绝T检验的零假设,也就是说两组评酒员的评价没有显著性差异。
对白葡萄酒分析:
F值为3.666,Sig=0.061>显著水平0.05,认为方差是齐性的。
由于两个总体方差无显著差异,顾推断结果从假设方差相等行中得到:
P=0.021<0.05拒绝假设,即两组评酒员的评价有显著性差异。
由于第二组的标准差相比较小,所以第二组更可信。
§5.2.1问题二的模型建立、求解
根据附件-2指标总表,运用SPSS相关分析筛选出主要影响葡萄酒质量的酿酒葡萄指标,红葡萄酒筛选结果如图(程序见附录二):
如图得到主要影响红葡萄酒质量的酿酒葡萄指标有蛋白质、花色苷、酒石酸、DPPH自由基1IC50、总酚、单宁、葡萄总黄酮、黄酮醇、PH值、果皮颜色A。
这样我们用相关分析筛选出对葡萄酒质量起主要作用的酿酒葡萄的理化指标;再根据k均值聚类对这些酿酒葡萄进行分级(选四个级分别优、中上、中等、中下)。
得到结果如下图:
这样根据葡萄酒的质量将红葡萄酒分为:
优等(葡萄样品2、9),中上等(葡萄样品3、8、14、23),中等(葡萄样品4、5、6、7、10、11、12、13、15、16、17、18、19、21、22、24、25、26、27)中下等(葡萄样品1)。
白葡萄酒筛选结果如图:
如图得到主要影响白葡萄酒质量的酿酒葡萄指标有:
甘氨酸、酒石酸、果穗质量。
再根据k均值聚类对这些酿酒葡萄进行分级(选四个级分别优、中上、中等、中下)。
得到结果如下图:
根据葡萄酒的质量将白葡萄酒分为:
优等(葡萄样品4、5、9、10、14、17、19、21、22、23、25、26),中上等(葡萄样品15),中等(葡萄样品2、24、27、28),中下等(葡萄样品1、6、7、11、12、13、16、18、20)。
§5.3.1问题三的模型建立、求解
这一问中选择白葡萄来分析,因为白葡萄的主要指标较少,引起的回归分析误差较小。
根据上一问我们筛选到了酿酒白葡萄的主要指标:
酒石酸、甘氨酸,果穗质量。
运用SPSS分别进行多元逐步回归,酒石酸如图(程序见附录三):
得:
甘氨酸如下图:
得:
果穗质量:
得:
§5.4.1问题四的模型建立、求解
分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,要将附件-2中葡萄酒的理化指标进行筛选,根据第一问里我们选白葡萄酒的评分为标准,将白葡萄酒的理化指标和白葡萄酒的质量建立多元逐步回归模型(程序见附录四):
如图得出白葡萄酒中的顺式白藜芦醇苷对葡萄酒的质量其主要影响,这样以酒石酸、甘氨酸,果穗质量、顺式白藜芦醇苷和葡萄酒的质量建立SPSS多元逐步回归分析模型如图:
可以看出顺式白藜芦醇苷、甘氨酸、酒石酸对葡萄酒的质量都是正相关的,说明它们对葡萄酒的质量是起作用的。
。
§6模型的评价
一、模型的优点:
1、在对于第一题的解答中我们成功的运用了T检验,使之解题方法简单可行,第二问中,聚类分析可以很快地剔除不主要因素,筛选主要因素,使结果更加直观,在对于三,四问的多元线性回归中,我们建立一个自变量少的多元线性回归方程,进行因素筛选有助于从大量因素中筛选出对该现象有关的因素或因素组。
2、利用EXCEL软件对数据进行处理,简便,快捷;
3、运用多种数学软件进行计算,取长补短,使计算结果更加准确;。
二、模型的缺点:
较多的条件都是我们假设的,有很多的影响因素没有完全考虑进去,只是我们给理想化了,所以在数据量大的情况下,我们筛选了部分数据进行研究,误差过大,可能会导致结果的不准确.并且由于有限的时间,我们只能将最关键的情况考虑进去.
§7参考文献
【1]】张文彤,SPSS统计分析高级教程,北京:
高等教育出版社,2004年版
【2】]寿纪麟,数学建模--方法与范例,西安:
西安交通大学出版社,1993年版
【3】阮桂海,蔡建琼,朱志海,统计分析应用教程——SPSS、LISREL&SAS实例分析,北京:
清华大学出版社,2003年版
【4】廖芹,郝志峰,陈志宏;数据挖掘与数学建模;国防工业出版社;2010
【5】何宁,吴黎兵,滕冲;统计分析系统SAS与SPSS;机械工业出版社;2008
附录一:
1.1评酒员对白葡萄酒的打分均值的T检验SPSS程序:
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\白酒一问结果!
!
.sav'.
DATASETNAME数据集2WINDOW=FRONT.
T-TESTGROUPS=组别(12)
/MISSING=ANALYSIS
/VARIABLES=评价
/CRITERIA=CI(.95).
1.2评酒员对白葡萄酒的打分均值的T检验SPSS程序:
DATASETACTIVATE数据集1.
DATASETCLOSE数据集2.
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\红酒1问结果.sav'.
DATASETNAME数据集3WINDOW=FRONT.
T-TESTGROUPS=组别(12)
/MISSING=ANALYSIS
/VARIABLES=评价
/CRITERIA=CI(.95).
附录二:
2.1对红葡萄相关性分析的SPSS程序:
DATASETACTIVATE数据集1.
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\聚类.sav'.
DATASETNAME数据集4WINDOW=FRONT.
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\2问结果!
!
!
!
111.sav'.
DATASETNAME数据集5WINDOW=FRONT.
NONPARCORR
/VARIABLES=氨基酸总量蛋白质mg100gVC含量(mgL花色苷mg100g鲜重酒石酸(gL)苹果酸(gL)柠檬酸(gL)多酚氧化酶活力褐变度DPPH自由基1IC50(gL)总酚mmolkg单宁mmolkg
葡萄总黄酮(mmolkg)白藜芦醇mgkg黄酮醇mgkg总糖gL还原糖gL可溶性固形物glPH值可滴定酸(gl)固酸比干物质含量g100g果穗质量g百粒质量g果梗比出汁率果皮质量(g)乙酸乙酯乙醇天门冬氨酸苏氨酸
丝氨酸谷氨酸脯氨酸甘氨酸丙氨酸胱氨酸缬氨酸蛋氨酸异亮氨酸亮氨酸酪氨酸苯丙氨酸赖氨酸组氨酸精氨酸评分
/PRINT=KENDALLTWOTAILNOSIG
/MISSING=PAIRWISE.
2.2对白葡萄相关性分析的SPSS程序:
DATASETACTIVATE数据集3.
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\2问白葡萄数据1.sav'.
DATASETNAME数据集6WINDOW=FRONT.
NONPARCORR
/VARIABLES=氨基酸总量天门冬氨酸苏氨酸丝氨酸谷氨酸脯氨酸甘氨酸丙氨酸胱氨酸缬氨酸蛋氨酸异亮氨酸亮氨酸酪氨酸苯丙氨酸赖氨酸组氨酸精氨酸蛋白质mg100gVC含量(mgL花色苷mgl00g酒石酸苹果酸
柠檬酸多酚氧化酶活力褐变度DPPH自由基1IC50(gL)总酚mmolkg单宁mmolkg葡萄总黄酮(mmolkg)白藜芦醇mgkg黄酮醇mgkg总糖gL还原糖gL可溶性固形物glPH值可滴定酸(gl)固酸比
干物质含量g100g果穗质量g百粒质量g果梗比出汁率果皮质量(g)乙酸乙酯乙醇乙酸辛酯苯乙醇评分反式白藜芦醇苷顺式白藜芦醇苷反式白藜芦醇顺式白藜芦醇杨梅黄酮槲皮素山萘酚异鼠李素果糖葡萄糖果皮颜色L果皮颜色A
果皮颜色BH1H2H3C1C2C3
/PRINT=KENDALLTWOTAILNOSIG
/MISSING=PAIRWISE.
2.3对白葡萄聚类分析的SPSS程序:
DATASETACTIVATE数据集4.
QUICKCLUSTER甘氨酸酒石酸果穗质量评分
/MISSING=LISTWISE
/CRITERIA=CLUSTER(4)MXITER(10)CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVECLUSTERDISTANCE
/PRINTID(样品编号)INITIALCLUSTERDISTAN.
2.4对红葡萄聚类分析的SPSS程序:
DATASETACTIVATE数据集3.
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\红酒问题.sav'.
DATASETNAME数据集7WINDOW=FRONT.
DATASETACTIVATE数据集1.
DATASETCLOSE数据集7.
DATASETACTIVATE数据集4.
GET
FILE='C:
\Users\lenovo\Desktop\数据结果\红酒问题.sav'.
DATASETNAME数据集8WINDOW=FRONT.
QUICKCLUSTER蛋白质mg100g花色苷mg100g鲜重酒石酸(gL)DPPH自由基1IC50(gL)总酚mmolkg单宁mmolkg葡萄总黄酮(mmolkg)黄酮醇mgkgPH值果皮颜色A评分
/MISSING=LISTWISE
/CRITERIA=CLUSTER(4)MXITER(10)CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVECLUSTERDISTANCE
/PRINTID(样品编号)INITIALCLUSTERDISTAN.
附录三:
3.1对白葡萄的指标与果穗质量进行多元线性分析的SPSS程序:
DATASETACTIVATE数据集1.
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSRANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT果穗质量
/METHOD=STEPWISE总酚酒总黄酮白藜芦醇反式白藜芦醇苷顺式白藜芦醇苷色泽A色泽B色泽C.
3.2对白葡萄的指标与酒石酸进行多元线性分析的SPSS程序:
DATASETACTIVATE数据集1.
DATASETCLOSE数据集4.
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSRANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT酒石酸
/METHOD=STEPWISE单宁总酚酒总黄酮白藜芦醇反式白藜芦醇苷顺式白藜芦醇苷反式白藜芦醇顺式白藜芦醇DPPH半抑制体积色泽L色泽A色泽B色泽H色泽C.
3.3对白葡萄的指标与甘氨酸进行多元线性分析的SPSS程序:
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSRANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT甘氨酸
/METHOD=STEPWISE单宁总酚酒总黄酮白藜芦醇反式白藜芦醇苷顺式白藜芦醇苷反式白藜芦醇顺式白藜芦醇DPPH半抑制体积色泽L色泽A色泽B色泽H色泽C.
附录四:
对葡萄酒的理化指标与葡萄的质量相关性分析的SPSS程序:
DATASETACTIVATE数据集3.
GETDATA/TYPE=XLSX
/FILE='C:
\Users\lenovo\Desktop\数学建模\4问白葡萄酒.xlsx'
/SHEET=name'Sheet1'
/CELLRANGE=full
/READNAMES=on
/ASSUMEDSTRWIDTH=32767.
EXECUTE.
DATASETNAME数据集11WINDOW=FRONT.
NONPARCORR
/VARIABLES=评分单宁总酚酒总黄酮白藜芦醇反式白藜芦醇苷顺式白藜4问(白酒)芦醇苷反式白藜芦醇顺式白藜芦醇DPPH半抑制体积色泽L色泽A色泽B色泽H色泽C
/PRINT=KENDALLTWOTAILNOSIG
/MISSING=PAIRWISE.
REGRESSION
/MISSINGLISTWISE
/STATISTICSCOEFFOUTSRANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT评分
/METHOD=ENTER果穗质量酒石酸甘氨酸顺式白藜芦醇苷.