数学建模葡萄酒的分级文档格式.docx
《数学建模葡萄酒的分级文档格式.docx》由会员分享,可在线阅读,更多相关《数学建模葡萄酒的分级文档格式.docx(26页珍藏版)》请在冰豆网上搜索。
按得分对葡萄酒进行分级。
然后,用标准化处理后的酿酒葡萄的理化指标对葡萄进行主成分分析。
最后,结合葡萄酒的分级对酿酒葡萄进行分级。
问题三
首先,用处理酿酒葡萄的理化指标的方法对葡萄酒的理化指标做同样的处理,得到葡萄酒理化指标的主成分。
然后,分别根据主成分获得红葡萄和红葡萄酒的的得分。
通过曲线拟合,分别建立红葡萄得分和专家的评分之间的关系;
红葡萄酒得分和专家评分之间的关系。
最后,根据两种理化指标和专家的评分之间的关系,建立两种理化指标之间的关系。
问题四
运用灰色关联度分析的方法,定量描述酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,以此为基准来论证酿酒葡萄和葡萄酒的理化指标能否用来评价葡萄酒的质量。
三、问题假设
1.同种葡萄酒在同一组评酒员的得分下成正态分布。
2.一种葡萄对应酿制一种葡萄酒。
3.葡萄的成分充分转化为葡萄酒里的成分,不存在意外的浪费和挥发。
四、符号说明
这里只列出主模型的全局参数,其他局部参数见具体模型。
:
第i个红葡萄酒样品
第i个红葡萄酒样品的得分
T1:
第一组评酒员全体
T2:
第二组评酒员全体
五、模型的建立与求解
模型一:
基于t检验建立差异评估模型
我们采用假设性检验验证是否能接受两组评酒员的评价结果存在显著性差异的假设。
然后用方差分析两组评酒员评价数据的波动,认为较平稳的一组比较可靠。
、数据预处理
我们在分析数据是发现了几个显著性的异常数据:
第一组红酒数据——样品20——色调——评酒员4号数据缺失
第一组白酒数据——样品3——持久性——评酒员7号怀疑多了一个7
第一组白酒数据——样品8——口感分析——评酒员2号数据明显异常
因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小。
t检验模型的建立
分别代表第一,第二组整体,分别对红葡萄酒
(i=1,2,…,27)和白葡萄酒
(i=1,2,…,27)进行感官评价,
的评价结果通过组内的每一评酒员的评分的均值来表示。
同样的,T2的评价结果通过组内的每一评酒员的评分的均值来表示。
从而得到两组评论员分别对红葡萄酒的评价结果见表一:
表1红葡萄酒的评价结果
表中对于同一酒样品的两个评价差异是由两个评酒员引起的,为鉴定他们的评价结果有无显著性差异,可对两组数据对同一样品的差值进行分析,既表中的D。
以红葡萄酒为例:
有27对相互独立的评价结果(X1,Y1)(X2,Y2)…(X27,Y27),D1=X1-Y1,D2=X2-Y2,…,D27=X27-Y27,由于Di(i=1,2,…,27)是由同一因素造成的,可认为它们服从同一分布。
现假设Di~N(
,
),i=1,2…,27,且
未知,基于这一样本检验假设:
(1)
分别记
的样本均值和样本方差的观测值为
。
对
进行单个均值的t检验,检验问题的拒绝域为(显著水平为
):
.
(2)
当
的值不落在拒绝域内时,接受
,既认为两组评价无显著性差异。
否则,两组评价有显著性差异。
对白葡萄酒的处理同红葡萄酒。
2)模型的求解
现以红葡萄酒为例求解,首先,作出同一酒样品
分别由两组品酒员
、
得到的评价结果之差,列于表一的第三行,根据建立的模型检验假设:
.(3)
取α=,运用spss软件求解得到表二:
表二t检验求解结果
根据上表得到的Sig=<
所以拒绝
接受
,即认为两组品酒员的评价结果有显著性差异。
可信度定量分析
记第一组10位品酒员对红葡萄酒样品
的评分为
(4)
其中,
表示第一组品酒员对红葡萄酒样品
的评分均值,
表示
的评分方差;
同样,第二组对红葡萄酒样品
的评分均值和方差分别为
(5)
从而对每一组品酒员得到一个评分方差向量
同理可求得白葡萄酒的
再对
和
中的元素分别求和得到总方差,对于同一批红葡萄酒用总方差来代表两组不同的评价水平。
总方差小的稳定性好,评价结果是更可信的。
运用excel软件可以求解得到
,
得到
=,
=,
=。
不管是红葡萄酒还是白葡萄酒,第一组的总方差总是远远大于第二组。
说明第二组的评价结果更为可信。
5.2模型二:
对于问题二,是要基于酿酒葡萄的理化性质和葡萄酒的质量对酿酒葡萄进行分级,因此,对于模型二可分为三步进行,即:
1)根据酿酒葡萄的理化指标对酿酒葡萄进行分级;
2)根据评酒师的评分对葡萄酒的质量进行分级;
3)综合两种因素,对酿酒葡萄进行分级。
根据酿酒葡萄的理化指标对酿酒葡萄进行分级
根据附录给出的酿酒葡萄的理化指标,可以看出,有些理化指标含量很低,有些理化指标含量很高。
所以对于此种情况,我们采用主成分分析法对附录中的理化指标进行处理,将理化指标分为几种主成分,然后根据主成分对酿酒葡萄进行打分,通过得分对酿酒葡萄进行分级。
对于不同的理化指标可能存在着不同的量纲,因此在进行主成分分析之前应对酿酒葡萄的理化指标进行标准化处理。
处理方法如下:
将原始数据标准化,即做如下数据变换:
(6)
其中,,j=1,2,…,p。
标准化后的数
据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。
标准化后变量的协方差矩阵(CovarianceMatrix)Σ=(sij)p⨯p,即原变量的相关系数矩阵(CorrelationMatrix)R=(rij)p⨯p:
i,j=1,2,…,p(7)
此时n个样品在m个主成分上的得分应为:
Fj=a1jX1*+a2jX2*+...+apjXp*j=1,2,…,m(8)
主成分分析法的步骤如下:
步骤一:
计算协方差矩阵
计算样品数据的协方差矩阵:
Σ=(sij)p⨯p,其中
i,j=1,2,…,p(9)
步骤二:
求出Σ的特征值及相应的特征向量
求出协方差矩阵Σ的特征值λ1≥λ2≥…λp>
0及相应的正交化单位特征向量:
则X的第i个主成分为Fi=ai'
Xi=1,2,…,p。
步骤三:
选择主成分
在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。
一般用方差贡献率
(10)
解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率
(11)
达到足够大(一般在85%以上)为原则。
步骤四:
计算主成分得分
计算n个样品在m个主成分上的得分:
i=1,2,3,……,m(12)
模型的求解
利用MATLAB软件编程,对酿酒葡萄的理化指标进行主成分分析(以红葡萄的指标为例),根据累计贡献度大于85%的原则筛选,得到的前12个特征值及其贡献度率如表所示:
表三酿酒红葡萄理化指标的主成分分析结果
序号
特征值
贡献度
1
2
3
4
5
6
7
8
9
10
11
12
得分表达式为:
(13)
得分如下所示:
表四酿酒葡萄的得分
根据得分的大小对酿酒葡萄进行分级
中上级酿酒葡萄:
4,12,22,20
中级酿酒葡萄:
19,7,27,3,25,26,23,16,5,13,17,24,14
中下级酿酒葡萄:
6,21,2,9,10,15,18
下级酿酒葡萄:
11,8,1
根据评酒师的评分对葡萄酒的质量进行分级
对于“根据评酒师的评分对葡萄酒的质量进行分级”这一问题,我们认为品质优良的葡萄酿出来的葡萄酒的品质也应是优良的。
它们之间存在着一一对应关系。
所以可以通过专家评委们的打分对葡萄酒进行分级。
根据我们对问题一模型的求解,得知第二组评委的评分更可信,所以针对于第二组评委对每种葡萄酒的综合得分的平均值进行排序,如下所示:
品种
23
20
17
14
19
21
26
22
24
得分
74
72
27
16
13
25
15
18
66
表五葡萄酒的评分
葡萄酒样品的分级标准:
80~85分:
高级葡萄酒
75~80分:
中上级葡萄酒
70~75分:
中级葡萄酒
65~70分:
中下级葡萄酒
60~65分:
下级葡萄酒
所以采用上面的分级标准,可将27中葡萄酒分为如下级别:
中上级葡萄酒:
9,23,20
中级葡萄酒:
3,17,2,14,19,21,5,26,22,24,27,4
中下级葡萄酒:
16,10,13,12,25,1,6,8,15,18,7
下级葡萄酒:
综合两种因素,对酿酒葡萄进行分级
综合两种因素分级的结果,对酿酒葡萄进行综合评价,并得到酿酒葡萄的分级。
具体步骤如下:
1.分别对两种分级结果进行编号:
1)中上级葡萄酒编号为0
2)中级葡萄酒编号为1
3)中下级葡萄酒编号为2
4)下级葡萄酒编号为3
对酿酒葡萄的分级结果编号同上。
2.计算同一样品在两种不同情况下的编号与编号0的差值,分别记为
,并计算总差值
=
+
3.根据总差值的大小对酿酒葡萄进行分级。
酿酒葡萄的分级标准:
0~1:
中上级酿酒葡萄
2:
中级酿酒葡萄
3~5:
中下级酿酒葡萄
6:
下级酿酒葡萄
分级结果为:
20,23,22,4
12,9,3,19,17,27,24,26,5,14,
中下级酿酒葡萄:
7,25,16,13,6,21,2,10,15,1811,8
模型三
对于问题三,我们同样采用主成分分析法,得到葡萄酒的主成分记为Gi
i=1,2,n,n为主成分的个数。
应用Matlab软件编程,对葡萄酒的主成分进行求解(以红葡萄酒为例)
根据累计贡献度大于85%的原则筛选,得到的前5个特征值及其贡献度率如表所示:
表六红葡萄酒理化指标的主成分分析结果
得分表达式:
表七葡萄酒的得分
经分析直接求解葡萄酒理化指标与酿酒葡萄理化指标之间的联系难度较大,但我们发现它们都可与葡萄酒质量建立数学关系,将葡萄酒质量作为因变量,葡萄酒理化指标与酿酒葡萄理化指标的主成分分别作为自变量,采用曲线拟合,即可分别得到两理化指标与葡萄酒质量间的数学关系,再反解出两指标间的数学关系,这样不但简化了求解过程而且可减小误差。
根据曲线拟合的方法对酿酒葡萄理化指标的主成分和评委的得分之间建立函数关系为
y=^8+^^^5-^4+^3+^+
图一酿酒葡萄理化指标的主成分与评委得分的关系图
根据曲线拟合的方法对葡萄酒理化指标的主成分和评委的得分之间建立函数关系为
y=^^^5+^4+^3+^+
图二葡萄酒理化指标的主成分和评委的得分的关系图
图三酿酒葡萄理化指标的主成分和葡萄酒理化指标的主成分的关系图
模型四:
运用灰色关联度求解相互联系
5.4.1问题分析
该问题需要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,为方便运算,我们分别考虑酿酒葡萄的理化指标对葡萄酒质量的影响与葡萄酒的理化指标对酿酒葡萄的影响,为此我们引入灰色关联度的概念。
灰色关联度能够定量描述事物或因素相互变化的情况,即变化的大小,方向和速度方面的关系。
关联度越大,代表相互间联系越紧密,变化态势越一致,反之,若变化态势越不一致,则关联度越小。
5.4.2模型的建立与求解
灰色关联度方法的计算介绍:
1)原始数据的标准化
由于原始数据存在数量级和量纲的差异性,所以先进行标准化而方便进行计算。
k=1,2,3……n
2)关联度的计算
经数据处理后的参考数列为:
比较数列为;
i=1,2,3……m
从几何角度看,关联程度实质是参考数列与比较数列曲线形状的相似程度,参考数列与比较数列曲线形状接近,则两者关联度较大;
反之参考数列与比较数列曲线形状相差较大,则两者间的关联度较小。
因此,可用曲线间的差值大小作为关联度的衡量指标。
则:
k=1,2,3,……,n
两极最大值和最小值:
关联系数:
,k=1,2,…,n,i=1,2,…,m
式中为分辨系数,用来削弱过大而使关联系数失真的影响。
人为引入这个系数是为了提高关联系数之间的差异显著性。
3)关联度的计算与比较
由于每个比较数列与参数数列的关联程度是通过n个关联系数来反映的,关联系数分散,不便于从整体上进行比较。
因此,有必要对关联信息做集中处理,求平均值则是一种比较好的信息集中的方式。
即用比较数列与参数数列各个时期的关联系数的平均值来定量反映两个数列的关联程度,其计算公式为:
接下来用灰色关联度进行分析求解:
(1)对数据进行标准化处理
表八标准化处理数据
(2)计算参考数列与比较数列在同一时期的绝对差,得到下表:
花色苷单宁总酚酒总黄酮白藜芦醇DPPHL*(D65)a*(D65)b*(D65)H(D65)C(D65)
表九参考数列与比较数列的绝对差
(3)通过上表可以计算出两极最大差与最小差,从而计算出关联系数,通过查阅文献得到得到关联系数表如下:
葡萄酒样品花色苷单宁总酚酒总黄酮白藜芦醇DPPHL*(D65)a*(D65)b*(D65)H(D65)C(D65)
1
葡萄酒样品花色苷单宁总酚酒总黄酮白藜芦醇DPPHL*(D65)a*(D65)b*(D65)H(D65)C(D65)
2
2
3
4
5
6
6
7
8
8
9
10
10
11
12
13
14
15
15
16
17
17
18
18
19
19
20
20
21
22
22
23
24
25
26
26
27
表十关联系数计算表
(4)计算关联度并对关联度进行分析
由表十得到了关联系数表,对各个时期的关联系数求平均值即得到了各个因素与葡萄酒的关联度如下表:
表十一关联度表
由上表可以得到,单宁,总酚,a*(D65),b*(D65),C(D65)对葡萄酒的质量有较大的影响,而H(D65),酒总黄酮等对葡萄酒质量的影响则次之。
用同样的方法可以得到葡萄的理化指标与葡萄酒质量的关联度:
表十二酿酒葡萄的理化指标与葡萄酒质量的关联度
由上表可以看出乙醇,乙酸乙酯,单宁,总酚,a*(D65),b*(D65),C(D65)对葡萄酒质量的影响较大,而苯乙醇和酒总黄酮对葡萄酒质量的影响次之。
综上所述,虽然酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有影响,但是关联度都在—之间,所以不能用单独用理化指标对葡萄酒的质量进行评价,还要结合其他指标对葡萄酒的质量进行分析。
六、模型的评价
6.1模型的优点
1)主成分分析法可以很好的解决决定因素多但是又无法全部考虑的问题,很大程度降低了计算量与计算难度。
2)灰色关联度分析法能够把两个变量之间的关联程度量化,可以很好的解决决定因素和事物之间相互联系的问题。
6.2模型的缺点
1)本模型没有把葡萄酒具体的质量指标如:
香气,气味等进行对应理化指标的分析。
七、参考文献
(1)田民,刘思峰,朴志坤,灰色关联度算法模型的关联综述,《统计与决策》,卷期号:
25—27,2008
(2)杨小平,刘刚,赵晋,《统计分析方法与SPSS应用程序》,北京:
清华大学出版社,2008
(3)刘伟江,杨友社,寇光兴,《概率论与数理统计》,北京:
清华大学出版社,2004
(4)曾建军,李世行,王永国,叶仁玉,夏惠异,《MATAB语言与数学建模》,安徽:
安徽大学出版社
八、附录
模型二:
A=xlsread('
c:
\matlab\work\工作表'
);
%导入数据
cwsum=sum(A,1);
%对列求和
[a,b]=size(A);
%矩阵大小,a为行数,b为列数
fori=1:
a
forj=1:
b
B(i,j)=A(i,j)/cwsum(j);
end
end
fprintf('
相关系数矩阵:
\n'
)
std=CORRCOEF(B)%计算相关系数矩阵
特征向量(vec)及特征值(val):
[vec,val]=eig(std)%求特征值(val)及特征向量(vec)
newval=diag(val);
[y,i]=sort(newval);
%对特征根进行排序,y为排序结果,i为索引
特征根排序:
forz=1:
length(y)
newy(z)=y(length(y)+1-z);
%g\n'
newy)
rate=y/sum(y);
\n贡献率:
newrate=newy/sum(newy)
sumrate=0;
newi=[];
fork=length(y):
-1:
sumrate=sumrate+rate(k);
newi(length(y)+1-k)=i(k);
ifsumrate>
break;
end
end%记下累积贡献率大85%的特征值的序号放入newi中
主成分数:
%g\n\n'
length(newi));
主成分载荷:
forp=1:
length(newi)
forq=1:
result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p));
end%计算载荷
disp(result)
sco=B*result;
csum=sum(sco,2);
[newcsum,i]=sort(-1*csum);
[newi,j]=sort(i);
计算得分:
score=[sco,csum,j]
%得分矩阵:
sco为各主成分得分;
csum为综合得分;
j为排序结果
模型四:
A=X;
%X为标准化后的数据
B=[;
;