数学建模葡萄酒评价.docx

上传人:b****5 文档编号:4376043 上传时间:2022-12-01 格式:DOCX 页数:42 大小:85.46KB
下载 相关 举报
数学建模葡萄酒评价.docx_第1页
第1页 / 共42页
数学建模葡萄酒评价.docx_第2页
第2页 / 共42页
数学建模葡萄酒评价.docx_第3页
第3页 / 共42页
数学建模葡萄酒评价.docx_第4页
第4页 / 共42页
数学建模葡萄酒评价.docx_第5页
第5页 / 共42页
点击查看更多>>
下载资源
资源描述

数学建模葡萄酒评价.docx

《数学建模葡萄酒评价.docx》由会员分享,可在线阅读,更多相关《数学建模葡萄酒评价.docx(42页珍藏版)》请在冰豆网上搜索。

数学建模葡萄酒评价.docx

数学建模葡萄酒评价

2012高教社杯全国大学生数学建模竞赛

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上査到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。

如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):

我们的参赛报名号为(如果赛区设置报名号的话):

所属学校(请填写完整的全名):

参赛队员(打印并签名):

1-

2.

3.

指导教师或指导教师组负责人(打印并签名):

日期:

年月

赛区评阅编号(由赛区组委会评阅前进行编号):

2012高教社杯全国大学生数学建模竞赛

编号专用页

赛区评阅编号(由赛区组委会评阅前进行编号):

赛区评阅记录(可供赛区评阅时便用):

评阅人

评分

n

n

n

n

n

n

n

n

n

n

备注

o

o

o

o

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

基于统计分析的葡萄酒评价

摘要

本文旨在对评酒员葡萄酒品尝评分的基础上,通过对酿酒葡萄以与葡萄酒一些指标间的关系,做出对葡萄酒合理评价。

主要进行了4个方面的研究:

问题一,在确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评,但是评酒员之间存在评价尺度、标准的差异,导致对酒质量评分存在差异。

运用非参数检验模型,对两组评酒员的评价结果做Wilcoxon符号平均秩检验。

求得P=.0011<0.05,两组评酒员的评价结果存在显著差异。

通过构造标准参考

数据组,做出标准差,通过判断两组评分偏离参考标准数据值的程度,以与利用SPSS软件进行可靠性分析,得出信度a.=0.894

说明第二组评酒员对葡萄酒的评价更具有可信度。

问题二,为了对酿酒葡萄进行分级,本文建立考虑权重的聚类分析,对传统聚类分析进行改进。

基于指标过多,建立单因子方差分析模型,筛选出在聚类分析中发挥显著作用的m个指标,通过聚类模型得到对酿酒葡萄的五级划分。

问题三,酿酒葡萄与葡萄酒的理化指标关系,是研究两组变量之间的相关性。

通过建立典型相关分析模型,将两组变量分别作为一个整体进行分析。

通过数据分析,得出相关表达式,得到酿酒葡萄与葡萄酒的理化指标之间存在重要的相关关系。

问题四,为论证葡萄与葡萄酒的理化指标能否评价葡萄酒的质量,本文运用前14个指标建立综合评价模型,运用主成分分析法分3个成分,经过成分重要性计算和相关性确定正负值对标准化后的样本数据加权计算评价得分。

最后得出11号样品酒的质量最差,23号样品酒的质量最好,与评酒员的评分相近。

故认为葡萄与葡萄酒的理化指标能在一定程度上评价葡萄酒的质量,部分误差是因为芳香物质等感官指标的影响。

关键字:

综合评价模型信度分析聚类分析典型相关分析主成分分析

1间题重述

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。

请尝试建立数学模型讨论下列问题:

1)分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?

2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

2问题的分析

2.1问题一

由于两组评酒员品尝评分样本属于同一样本,在对同一研究对象进行不同评判标准时,视为对两配对样本的检验,且数据处理之前总体分布情况未知,可建立非参数检验模型进行显著性差异评价,本文采用Wilcoxon符号平均秩检验。

在可信度分析上,可通过建立标准参考数据组,两组评酒员评分分别与其进行标准差比较,判断离散程度。

或者采用SPSS对两组数据进行可靠性分析处理。

利用最终求得的信度系数评判两组评酒员评价结果的可靠性。

2.2问题二

将酿酒葡萄理化指标进行单因子方差分析,选取出在聚类分析中发挥明显作用的m个指标。

根据酿酒葡萄的好坏与所酿葡萄酒的质量关系有直接关系,把对葡萄酒质量的评分当做特殊的第m+1个指标。

由于各指标的对酿酒葡萄分级所发挥作用的效果不同,而传统聚类分析把各指标放在了等同的地位。

基于这点,本文提出了考虑权重的聚类分析方法。

通过网络査阅资料,对各指标在分级中所起的重要性进行评分。

最后对赋权的指标进行聚类分析,对所分类样品数据加权求平均分来分级。

2.3问题三

由于葡萄和葡萄酒理化指标之间联系为多对多联系,研究两组变量之间的相关关系,可以通过典型相关分析模型,得到典型相关系数。

对数据进行分析,判断两组变量之间关系。

2.4问题四

根据对酿酒葡萄与葡萄酒的理化指标大量数据的统计分析,本文选择了四个统计量来分析理化指标对葡萄酒质量的影响。

以相关性和P值来初步分析与葡萄酒的质量有显著相关的指标。

以通径分析解释指标变量与葡萄酒质量是否为直接作用。

以变异系数的大小反映该指标在总体理化指标中的稳定性,变异系数越小,越稳定,就越具有代表性。

在四个统计分析中,能总体把握酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。

3模型的假设和符号说明

3.1模型假设:

1)评酒师所评的分数具有客观可信度。

2)所有样品的酿酒工艺一致。

3.2符号说明:

%:

信度系数

J:

观测矩阵

忌:

复相关系数

X:

变异系数

X=(旺,尤2,…,耳):

随机变量y=($1*2,…,儿):

随机变量x:

总体协方差阵

p:

相关系数

cov(x,r):

协方差

4模型建立与求解

4.1问题一

4.1.1模型建立

1、Wilcoxon符号平均秩检验

根据附件1中的数据,分别求得2组红葡萄酒以与2组白葡萄酒评酒员品尝各样品总分的平均分。

首先分析红葡萄酒两组评分数据,由于两组样品为同一对象。

可将其两组对应数据视为两配对样本。

因其总体分布无法确定,可用非参数检验中的两配对样本非参数Wilcoxon符号平均秩检验方法,确定其是否具有显著差异性⑴。

(1)假设酒样品来自两配对样本总体的分布无显著差异,将第二组红样本的各个观察值减去第一组红样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号。

同时保存差值的绝对值数据。

(2)然后将绝对差值数据按升序排序,并求出相应的秩.

(3)最后分别计算正号秩总合W+、负号秩总合W-以与正号平均秩和负号平均秩。

如果正号平均秩和负号平均秩大致相当,则可以认为两配对样本数据正负变化程度基本相当,分布差距较小。

(4)计算Z统计量,并计算P值

VV-/^+l)/4

(1)

Jn(n+1X"+2)/24

n为总个数,W=min(W+,W-)o

2、可信度分析

(1)样本标准差判别离散程度

评判两组评酒员评价结果的可信度,求得每组评酒员分别对葡萄酒样品的评分平均分。

再通过构造比较标准参考评分数据组,通过标准差比较两组数据的离散程度,最终判断其评酒的可信度。

a.分别求出第一组评酒员对27组红葡萄酒样品的平均分*左=1,2,....,27)与第二组评酒员对27组红葡萄酒样品的平均分乙(山1,2,.…,27),以与第一组评酒员对28组白葡萄酒样品的平均分X=,28)与第二组评酒员对28组白葡萄酒样品的平均分0=1,2,28)

b.分别对原始数据中,20各评酒员对每个样品评价总分数据中,去掉两个最大值与两个最小值,样本中数据剔除掉部分奇异数据组后将变得更加平稳可靠,求出该葡萄酒样品的平均分乙(山1,2,....,27)与Z&=1,2,....,28),所得Z值数据组即为构造的标准参考组数据。

C.将X数据组与Z数据组以与Y数据组与Z数据组分别求出标准差

d.分别比较旳与er—%与%大小。

即两组评酒员分别对红葡萄酒与白葡萄酒的品尝评分标准差。

6值越小,说明其对于标准参考分值离散程度较小,该组评酒员的品尝评分较为可信。

(2)运用SPSS实现信度分析

信度⑵又叫可靠性,是指测验的可信程度。

它主要表现测验结果的一贯性、一致性、再现性和稳定性。

在测量学中,信度被定义为一组测量分数的真变异数功总变异数(实得变异数)的比率,信度系数=真变异数/总变异数,即:

内在信度也称为内部一致性,用以衡量组成量表题项的内在一致性程度如何。

运用Cronbach,sa系数法检测模型,求得两组评酒员品尝评分的信度。

其统计原理为

k

4.1.2模型求解

1、将附件1中的数据求出每个样品品尝评分均值后,按照样品顺序排列。

处理后数据如下表:

表1每组的均值得分

编号

第一

第二

组红

组红

样品1

62.7

68.1

样品2

80.3

74

样品3

80.4

74.6

第一

组白

第二组白

编号

82

77.9

样品

15

74.2

75.8

样品

16

7&3

75.6

样品

第一

第二

第一

第二

组红

组红

组白

组白

58.7

65.7

72.4

78.4

74.9

69.9

74

67.3

79.3

74.5

78.8

80.3

样品4

68.6

71.2

79.4

76.9

17样品

59.9

65.4

73.1

76.7

18

样品5

73.3

72.1

71

81.5

样品

19

78.6

72.6

72.2

76.4

样品6

72.2

66.3

68.4

75.5

样品

20

78.6

75.8

77.8

76.6

样品7

71.5

65.3

77.5

74.2

样品

21

77.1

72.2

76.4

79.2

样品8

72.3

66

71.4

72.3

样品

22

77.2

71.6

71

79.4

样品9

81.5

78.2

72.9

80.4

样品

23

85.6

77.1

75.9

77.4

样品

10

74.2

68.8

74.3

79.8

样品

24

78

71.5

73.3

76.1

样甜

11

70.1

61.6

72.3

71.4

样品

25

69.2

68.2

77.1

79.5

样品

12

53.9

68.3

63.3

72.4

样品

26

73.8

72

81.3

74.3

样品

13

74.6

68.8

65.9

73.9

样品

27

73

71.5

64.8

77

样品

14

73

72.6

72

77.1

样品

28

81.3

79.6

建立假设:

%=第一组红葡萄酒品尝评分

%=第二组红葡萄酒品尝评分

施。

=%

Hw=第一组白葡萄酒品尝评分

Hu=第二组白葡萄酒品尝评分

检验标准:

a=0.05

运用SPSS软件,运行结果为:

Wilcoxon带符号秩检验:

表2秩

N秩均值

第一绢红

-第一

负秩

22a

13.39

294.50

组红

正秩

5b

16.70

83.50

0c

总数

27

第一组白

-第一

负秩

9d

11.06

99.50

组白

正秩

19e

16.13

306.50

0f

总数

28

表3检验统计・c

第二组红-第一组红第二组白-第一组白

Z-2.535a-2.357b

渐近显著性(双侧)0.0110.018

结果分析:

由运行结果可以看出,对于红葡萄酒,正秩与负秩均值分别为13.39与16.70,大致相当。

因此,Wilcoxon符号平均秩检验是可行的。

由于P=.0011<0.05(67=0.05),拒绝原假设仏。

与卷无显著差异,即两组评酒员的对

红葡萄酒的评价结果有显著性差异。

同理,正秩与负秩均值分别为11.06与16.13,大致相当。

因此,Wilcoxon符号平均秩检验是可行的。

由于P=.0018<0.05(a=0.05),拒绝原假设与日口无显著差异,即两组评酒员的对白葡萄酒的评价结果有显著性差异。

由于两组品酒员对红葡萄酒与白葡萄酒的品尝评分均存在显著差异,因此,可认为两组评酒员的评价结果由显著差异。

2、

(1)由EXCEL中的SUM函数,求得各评酒员对各葡萄酒样品的评分分值;用AVERAGE函数求得每组评酒员对每个葡萄酒样品的平均分。

再运用(SUM(A2:

J2)-LARGE(A2:

J2,1)-SMALL(A2:

J2,1)-LARGE(A2:

J2,2)-SMALL(A2:

J2⑵)/(COUNT(A2:

J2)-4)函数,求得标准参考值,所得数据如下表:

表4每组均值得分与标准參考值

样品

第一组红

第一纟日红

红标准参考值

第一组白

第一组白

白参考值

1

62.7

68.1

65.6875

82

77.9

80.062

5

2

80.3

74

76.6875

74.2

75.8

76.375

3

80.4

74.6

77.5

78.3

75.6

78.062

5

4

68.6

71.2

70.1875

79.4

76.9

78.437

5

5

73.3

72.1

72.5625

71

81.5

77.5

6

72.2

66.3

68.75

68.4

75.5

73

7

71.5

65.3

68.5

77.5

74.2

76.25

8

72.3

66

69.375

71.4

72.3

72.875

9

81.5

78.2

79.5625

72.9

80.4

77.687

5

10

74.2

68.8

71.25

74.3

79.8

78.625

11

70.1

61.6

65.8125

72.3

71.4

72.312

5

12

53.9

68.3

62

63.3

72.4

69.125

13

74.6

68.8

71.75

65.9

73.9

71.375

14

73

72.6

73.3125

72

77.1

75.75

15

58.7

65.7

62.1875

72.4

78.4

76.812

5

16

74.9

69.9

72.4375

74

67.3

70.875

17

79.3

74.5

75.875

78.8

80.3

80.312

5

18

59.9

65.4

62.375

73.1

76.7

76.187

5

19

78.6

72.6

76

72.2

76.4

74.562

5

20

78.6

75.8

77.5

77.8

76.6

78

21

77.1

72.2

74.0625

76.4

79.2

79.687

5

22

77.2

71.6

73.875

71

79.4

76.187

5

23

85.6

77.1

81.375

75.9

77.4

76.75

24

78

71.5

74.0625

73.3

76.1

75.5

25

69.2

68.2

68.0625

77.1

79.5

79.562

5

26

73.8

72

73.1875

81.3

74.3

78.562

27

73

71.5

71.9375

64.8

77

72.25

80.937

28

81.3

79.6

5

3.1509

2.75011

3.56250

2.26366

2

2

2

6

结果分析:

由最终数据可得6严3.15092>%=2.750112,即第一组评酒员比第二组评酒员对红葡萄酒的品尝评分与标准比较值偏差较大,可认为第二组评酒员的品尝评分较贴近标准比较值,即第二组评酒员对红葡萄酒的评价结果更可信。

又b2i=3.562502>62=2.263666,同理可得第二组评酒员对白葡萄酒的品尝

评分更具可信力。

综上,第二组评酒员对葡萄酒的评价结果更可信。

(2)将每个评酒员对每个葡萄酒样本的总体评分按要求输入SPSS数据处理界面,通过可靠性分析处理,结果如下:

表5第一组评酒员可靠性

Cronbach,sAlpha

项数

.894

28

 

表6第二组评酒员可靠性

Cronbach,sAlpha

项数

.923

28

结果分析:

由运算结果可得匕=0.894<«2=0.923,说明第二组评酒员对葡萄酒评分信度较大,即第二组评酒员对葡萄酒的评价更具有可信度。

4.2问题二

4.2.1模型建立

1、单因素方差分析选取理化指标:

方差分析就是采用数理统计的方法对所得结果进行分析以鉴别各种因素对研究对象的某些特性值影响大小的一种有效方法⑶。

对酿酒葡萄的理化指标进行单因素方差分析,分析F统计量与其相伴概率,选取出在快速聚类中发挥明显作用的m个指标。

单因子方差分析基本原理见附录A:

2、酒质量的分数选取

将问题一中更可信的那组评分结果去除最低最高分取均值作为样品酒质量的标准评分值,并将此作为对酿酒葡萄分级的第m+1个重要指标。

3、考虑权重的K-means聚类分析

聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

考虑到聚类分析没有考虑指标权重的问题,即将所有的指标的权重视为等同⑷。

所以本文以对标准化后的指标赋权重来改进传统的聚类分析法。

首先对原始数据进行标准化处理,消除量纲的影响。

ZScores:

标准化

变换公式为:

Vij®

V;j=5o-若5H0(j=12.・・‘)

-0⑸

对指标重要性进行分级赋权:

根据查阅书籍与网上资料将m+1个指标分成三个等级,分别给予1-3的分数。

如表7:

 

表7指标重要性尊级得分

等级

一级重要

二级重要

三级重要

得分W(分)

3

2

1

赋权后的数据:

处理后的数据再次进行单因素方差分析,

*W

选取最合适的

⑺n个指标。

4、K-means算法:

将巳经测定n个采样点的m种指标数据列成一个二维矩阵,亦称作观测矩阵:

(••、

vu・••%

V*=[V|,v*,--v*]=:

:

(8)

♦♦

VV

\nlrun/

把(21,2,…〃)分成c个组,求出每组的聚类重心,使得组内的方差和达到最小,

八仏$)=工》小;話|

JIr-1

其中

工二除i,叫已{°,1}迭代过程:

⑴给出初始聚类中心,严={严,習,…曙)}

(2)用下列公式更新

(10)

(/+”_fl若心argmin{vk-s;bI

其中1为迭代次数。

⑶更新护“

如果max月s严-s;hk£或者/>T则停止;否则/=/+!

转至⑵。

4.2.2模型求解

运用spss对酿酒葡萄的理化指标做单因子方差分析,结果见表8.

表8ANOVA表

聚类

误差

F

Sig.

均方

df

均方

df

氨基酸总

.897

4

1.019

22

.880

.492

蛋白质

2.566

4

.715

22

3.588

.021

VC含量

1.110

4

.980

22

1.132

.367

花色昔

2.603

4

.709

22

3.673

.019

酒石酸

1.725

4

.868

22

1.987

.132

苹果酸

3.772

4

.496

22

7.603

.001

柠檬酸

2.217

4

.779

22

2.847

.048

多酚氧化酶

3.090

4

.620

22

4.983

.005

褐变度

5.154

4

.245

22

21.060

.000

DPPH自由基

4.137

4

.430

22

9.632

.000

总酚

4.664

4

.334

22

13.974

.000

单宁

3.323

4

.578

22

5.754

.003

葡萄总黄

4.887

4

.293

22

16.662

.000

白藜芦醇

4.797

4

.310

22

15.496

.000

黄酮醇

1.615

4

.888

22

1.819

.161

总糖

2.670

4

.696

22

3.834

.016

还原糖

2.052

4

.809

22

2.538

.069

可溶性固

1.844

4

.846

22

2.179

.105

形物

PH值

1.832

4

.849

22

2.159

.107

可滴定酸

2.068

4

.806

22

2.567

.067

固酸比

1.083

4

.985

22

1.100

.381

干物质含

3.487

4

.548

22

6.366

.001

果穂质量

.908

4

1.017

22

.894

.484

百粒质量

1.821

4

.851

22

2.140

.110

果梗比

1.343

4

.938

22

1.432

.257

出汁率

2.048

4

.809

22

2.530

.070

果皮质量

.800

4

1.036

22

.772

.555

果皮颜色

L*

1.962

4

.825

22

2.379

.083

果皮颜色

O

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1