数学建模.docx
《数学建模.docx》由会员分享,可在线阅读,更多相关《数学建模.docx(20页珍藏版)》请在冰豆网上搜索。
数学建模
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
A
我们的参赛报名号为(如果赛区设置报名号的话):
S34027
所属学校(请填写完整的全名):
平顶山学院
参赛队员(打印并签名):
1.尚展
2.王亚伟
3.刘蒙蒙
指导教师或指导教师组负责人(打印并签名):
朱维钧
日期:
2012年9月10日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价
摘要
随着人们生活水平的提高,葡萄酒已经成为人们生活中不可缺少的一种营养饮品。
对于问题一,分析的是两组评酒员的评价结果有无显著性差异,我们对每组的二十七个样本分别求评酒员评分的平均值,然后对两组数据进行T检验,对于红葡萄酒,结果P=0.756>0.05,所以两组评酒员评价结果有显著差异,对于白葡萄酒,P=0.023<0.05,说明两组评酒员的评价结果没有显著性差异。
从表中可得无论是红葡萄酒还是白葡萄酒都是第二组标准误小,所以第二组评酒员更可信。
对于问题二,采用主成分分析法和系统聚类法进行比对分析。
主成分分析法用MATLAB算出相关因子,再对其划分范围为一级:
0.8~1.5、二级:
-0.1~0.8、三级:
-0.5~-0.1或1.5以上,然后对酿酒葡萄进行级别的划分(结果见表7)。
系统聚类用SPSS软件对附件2中一级指标因子系统聚类,得到树图,可将样品葡萄分为五类(结果见表8)。
针对第二组评酒员的综合评分的均值按从高到低对这五类进行划分为五个等级(结果见表9)。
对于问题三,采用MATLAB对葡萄酒与酿酒葡萄指标进行多项式拟合。
先对数据进行标准化处理。
然后采用主成分分析法,将葡萄酒与酿酒葡萄指标参数单因子化,拟合结果
,两者之间存在着二次函数关系。
对于问题四,采用典型相关性分析。
结合处理前面问题得到的数据,对葡萄和葡萄酒的理化指标及葡萄酒的质量进行相关性分析。
通过检验显著性水平
下的相关系数
和
,比较它的似然比估计量
,
,则认为两对典型相关变量都是不显著相关的,即不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
限于时间和数据量的因素,问题二、三、四我们只对红葡萄酒进行分析。
关键词:
主成分分析;系统分类;数据拟合;典型相关性分析
一问题重述
葡萄酒是具有多种营养成分的高级饮料。
适度饮用葡萄酒能直接对人体的神经系统产生作用,提高肌肉的张度。
除此之外,葡萄酒中含有的多种氨基酸、矿物质和维生素等,能直接被人体吸收。
因此葡萄酒能对维持和调节人体的生理机能起到良好的作用。
尤其对身体虚弱、患有睡眠障碍者及老年人的效果更好。
可以说葡萄酒是一个良好的滋补品。
酿酒行业很多人把葡萄园作为葡萄酒厂的第一车间,这个比喻充分说明了原料质量对成品质量的重要性,可以说,大家手中掌握着葡萄酒质量的先天。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
要求尝试建立数学模型讨论下列问题:
1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、模型假设
1、各个评论员本着公正的原则给出了自己觉得较准确的评价,他们的评分可近似看成正态分布。
2、忽略生产过程中元素的流失
3、各样本葡萄和葡萄酒中理化指标的含量能较好的反映出葡萄和酒的质量。
三、符号说明
:
红葡萄理化指标主成分向量
:
红葡萄酒理化主成分向量
:
红葡萄酒香气质量向量
:
红葡萄酒口感质量向量
:
相关矩阵
:
相关性系数
:
卡方分布
:
似然比计量
四、模型的建立与求解
4.1显著性检验检验分析
此问要求我们判断两组评酒员的评价结果是否有显著性差异,首先我们对每组的二十七个样本分别求评酒员打分的平均值,然后用SPSS软件对其做T检验分析。
1、先对红酒进行T检验结果如下:
表1组统计量
Zb
N
均值
标准差
均值的标准误
两组红酒
1
27
8.8037
.59710
.11491
2
27
8.7630
.32003
.06159
表2独立样本T检验
方差方程的LEVENE检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
两组红酒
假设方差相等
8.222
.006
.312
52
.756
.04074
假设方差不相等
.312
39.800
.756
.04074
均值方程的t检验
差分的95%置信区间
标准误差值
下限
上限
两组红酒
假设方差相等
.13038
-.22088
.30236
假设方差不相等
.13038
-.22280
.30428
从上图,可以看出P值>0.05 方差相等的假设成立,不能够拒绝原假设,即两组方差不相等,说明两组评酒员的评价结果有显著性差异。
从组统计量中均值的标准误可以看出第二组的标误差小于第一组,所以对红酒的评价来说第二组更可信。
2、再对白酒进行T检验结果如下:
表3组统计量
VAR00012
N
均值
标准差
均值的标准误
1.00
28
8.9643
.40571
.07667
2.00
28
9.2464
.28993
.05479
表4独立样本检验
方差方程的LEVENE检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
两组白酒
假设方差相等
5.479
.023
-2.994
54
.004
假设方差不相等
-2.994
48.873
.004
均值方程的t检验
差分的95%置信区间
均值差值
标准误差值
下限
上限
两组白酒
假设方差相等
-.28214
.09424
-.47108
-.09321
假设方差不相等
-.28214
.09424
-.47153
-.09275
从上图,可以看出P值<0.05 方差相等的假设不成立,所以看第二行,方差不相等的情况,P值=0.004<0.05即说明P值小于显著性水平,应该拒绝原假设,即显著性不明显。
从组统计量中均值的标准误可以看出第二组的标误差小于第一组,所以对白酒的评价来说第二组更可信。
综上所述两组对红酒的评价有显著性差异,对白酒的评价无显著性差异,对红酒和白酒的评价都是第二组更可信。
4.2-1主成分分析
通过用SPSS软件对附录二中各个因子进行主成分分析法得出红酒采用花色苷、单宁、总酚、酒总黄酮、白藜芦醇这五个一级指标作为红酒的评价参数。
白酒采用单宁、总酚、酒总黄酮、白藜芦醇。
这四个一级指标作为白酒的评价参数。
用SPSS软件对两组的白酒与红酒进行求出相关系数矩阵。
通过分析红酒与白酒的相关系数矩阵,从下表中相关系数矩阵可以看出红酒与白酒满足主成分分析的前提条件。
表5相关性
花色苷
单宁
总酚
酒总黄酮
白藜芦醇
花色苷
Pearson相关性
1
.744**
.765**
.664**
.124
显著性(双侧)
.000
.000
.000
.538
N
27
27
27
27
27
单宁
Pearson相关性
.744**
1
.921**
.837**
.331
显著性(双侧)
.000
.000
.000
.091
N
27
27
27
27
27
总酚
Pearson相关性
.765**
.921**
1
.904**
.486*
显著性(双侧)
.000
.000
.000
.010
N
27
27
27
27
27
酒总黄酮
Pearson相关性
.664**
.837**
.904**
1
.399*
显著性(双侧)
.000
.000
.000
.039
N
27
27
27
27
27
白藜芦醇
Pearson相关性
.124
.331
.486*
.399*
1
显著性(双侧)
.538
.091
.010
.039
N
27
27
27
27
27
**.在.01水平(双侧)上显著相关。
*.在0.05水平(双侧)上显著相关。
对第二组评酒员评判出来的结果进行分析可以将红酒大致分为三个等级吗,平均分在九分以上的为一级,平均分在8.5分以上的为二级,平均分在8.5以下的为三级。
并通过spss单因子分析得出下表:
表6成份矩阵
成份
1
花色苷
.816
单宁
.940
总酚
.983
酒总黄酮
.925
白藜芦醇
.484
通过MATLAB程序(见附录1)将各个数据加上权重计算出一个准确的评判因子,并将这些评判因子标准化(程序见附录3),从而得出各个样本评价因子的具体含量(见附录2),对应以上三级红酒将各个级别的评价因子进行范围的划分,可得到等级范围:
一级:
0.8~1.5、二级:
-0.1~0.8、三级:
-0.5~-0.1或1.5以上。
将酿酒红葡萄的评判因子数据根据以上三级进行划分可得到下表:
表7各样本酿酒红葡萄的级别表
级别
样本名称
一级
1289
二级
314192324
三级
45671011121315161718202122252627
4.2-2系统聚类
由于主成分分析法只是考虑少数因子对葡萄酒质量的影响,结论过于片面,所以我们又用系统分析法对其作出求解。
首先对红酒进行分析:
选取氨基酸蛋白质VC含量花色苷酒石酸苹果酸柠檬酸多酚氧化酶褐变度自由基总酚单宁葡萄总黄酮白藜芦醇黄酮醇总糖还原糖可溶性固形物PH值可滴定酸固酸比干物质果穗质量百粒质量果硬比出汁率果皮质量作为酿酒红酒的数据和红酒的花色苷酒单宁酒总酚酒酒总黄酮白藜芦醇酒半抑制体积的数据组合成矩阵R
并对R矩阵进行数据标准化处理取出单位差异影响(程序见附录4)
用spss对标准化过的数据进行相关系数矩阵S的求解。
由于图表较大不在此处展示。
从下图中可以看出类数随着类间距离的增大而减小。
可以看出5类是最佳分类标准。
图1类数与类间距离的碎石图
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
样品4 4 -+---+
样品27 27 -+ +---+
样品22 22 -----+ +-+
样品19 19 ---------+ |
样品12 12 -+-+ +-+
样品18 18 -+ +---+ | |
样品6 6 ---+ +---+ +-+
样品7 7 -------+ | |
样品15 15 -------------+ +---+
样品5 5 ---+---+ | |
样品24 24 ---+ +-------+ +-+
样品17 17 -------+ | |
样品13 13 -------------+-----+ +-+
样品14 14 -------------+ | |
样品20 20 -----------+-----+ | +-----------+
样品26 26 -----------+ +---+ | |
样品25 25 -----------------+ | +-------------+
样品11 11 -------------+---------+ | |
样品16 16 -------------+ | |
样品10 10 -----------------------------------+ |
样品1 1 ---------------------+---------------------+ |
样品8 8 ---------------------+ +-----+
样品3 3 -------------------+---------------+ |
样品21 21 -------------------+ +-------+
样品2 2 ---------+-------------+ |
样品9 9 ---------+ +-----------+
样品23 23 -----------------------+
图2树状图
从类与类间距离的碎石图可以看出,分五类,见下表:
表8
类别
样本名称
一类
1821
二类
2923
三类
320
四类
4567111213141516171819202224252627
五类
10
对每类中的样本求其评酒员评价的平均值:
第一类:
8.57
第二类:
9.13
第三类:
9.10
第四类:
8.74
第五类:
8.40
所以可以将这五类分成五个级别见下表:
表9
级别
样本名称
级别一
2923
级别二
320
级别三
1821
级别四
4567111213141516171819202224252627
级别五
10
4.3数据拟合
我们运用数据拟合对红酒进行分析。
白酒的分析方法同。
选取氨基酸蛋白质VC含量花色苷酒石酸苹果酸柠檬酸多酚氧化酶褐变度自由基总酚单宁葡萄总黄酮白藜芦醇黄酮醇总糖还原糖可溶性固形物PH值可滴定酸固酸比干物质果穗质量百粒质量果硬比出汁率果皮质量作为酿酒红酒的数据和红酒的花色苷酒单宁酒总酚酒酒总黄酮白藜芦醇酒半抑制体积的数据组合成矩阵R
则称为p次多项式回归模型,这里(x,y)是第次观测值,0,1,…,p为未知参数。
多项式回归问题很容易化为多元线性回归问题,只要令X1=X,X2=x2,…,xp=xp
则模型就化为
这样便可以利用第三章所述的方法求出各系数的最小二乘估计,并对方程和系数作显著性检验。
将数据进行标准化处理。
采用MATLAB对数据进行2次拟合
结果见下图:
图3拟合图
y表示葡萄酒的理化指标x表示酿酒葡萄
通过数据拟合得出a=0.0060、b=0.9696、c=-0.0052。
即
通过图可以看出葡萄酒的理化指标参数随着酿酒葡萄的增大而增大。
二者存在相关关系。
4.4典型相关性分析
我们可以从日常得到影响葡萄酒的各类因素,主要有白藜芦醇,是葡萄酒(尤尤其是红葡萄酒)中最重要的功效成分。
单宁,它是葡萄酒中的一种物质,有益心脏血管疾病的预防。
总酚的含量直接决定了葡萄酒的气味色泽则直接影响葡萄酒的颜色。
DPPH常用于抗氧化成分的体外抗氧化性评价,也是葡萄酒的一个较为重要的指标。
花色苷是类黄酮——以黄酮核为基础的一类物质中能呈现红色的一族化合物有毒性。
为了论证用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量,我们基于对酿酒葡萄和葡萄酒的理化指标进行主成分分析,取酿酒葡萄的理化指标综合评价因子记为
葡萄酒的理化指标综合评价因子
,葡萄酒的质量选取香气质量指标
和口感质量指标
1.对矩阵
用SPSS进行相关系数R求解,计算的四个变量之间的相关矩阵如下:
表7
相关性
葡萄酒
酿酒葡萄
香气质量
口感质量
葡萄酒
Pearson相关性
1
.811**
.427*
.302
显著性(双侧)
.000
.026
.125
N
27
27
27
27
酿酒葡萄
Pearson相关性
.811**
1
.400*
.351
显著性(双侧)
.000
.039
.073
N
27
27
27
27
香气质量
Pearson相关性
.427*
.400*
1
.540**
显著性(双侧)
.026
.039
.004
N
27
27
27
27
口感质量
Pearson相关性
.302
.351
.540**
1
显著性(双侧)
.125
.073
.004
N
27
27
27
27
**.在.01水平(双侧)上显著相关。
*.在0.05水平(双侧)上显著相关。
即相关矩阵R为
并将R剖分为
,其中
,
分别为四个变量之间的相关系数矩阵,
=
为四个变量之间的相关系数。
2.于是特征方程
用Matlab求得矩阵
的特征值分别为0.2055和0.1070,于是
=0.2055,
=0.1070
2.下面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系数,欲检验:
:
:
它的似然比统计量为
=0.7810
=5.8079
对于给定的显著性水平
,查
分布表得,
=9.488>
所以无法否定原假设,即认为第一对典型相关变量不是显著相关的。
然后检验第二对典型变量的相关系数,即进一步检验:
:
=0,
:
它的似然比估计量
=0.8930
=0.1925
查
分布表得,
=3.841>
所以无法否定原假设,即认为第二对典型相关变量不是显著相关的。
3综上所述,由于两对典型相关变量都不是显著相关的,所以不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
五、模型的评价与不足
模型的优点:
我们的模型从实际出发,对第二问采用双模型对比分析法,对问题进行了合理的解决,准确的刻画出葡萄的理化指标对葡萄酒质量的影响。
模型的不足之处:
对数据的处理相对简单,忽略了对评定影响的一些数据。
可改进的方向:
尝试采用一些线性模型进行拟合葡萄与葡萄酒理化指标之间的关系,对数据降维时,提高主成分的积累贡献率。
六、模型的应用与推广
本文对葡萄和葡萄酒质量评定的研究成果,完全可以应用于葡萄酒生产中的质量监控,酒品的评价等方面。
对于葡萄种植和培育有指导意义。
通过本文所采用的主成分分析法对数据进行降维,是数据处理常用的方法。
用于从大量数据提取出可以反映原始数据主要信息的少量主要数据,以减少课题的复杂性。
此外,本文提出的对数据进行相关性分析和拟合的方法,对于其他涉及多元分析的问题也有一定的借鉴价值,可以广泛应用于其他食品的质量评估。
参考文献
[1]韩中庚,数学建模方法及其应用(第二版),北京:
高等教育出版社,2009。
[2]张磊,毕靖,郭莲英,MATLAB实用教程,北京:
人民邮电出版社,2008。
[3]姜启源,数学模型(第三版),北京:
高等教育出版社,1999。
[4]何晓群,多元统计分析,北京:
中国人民大学出版社,2004。