现代葡萄酒业中统计方法的应用大学生数学建模竞赛论文.docx

资源描述

现代葡萄酒业中统计方法的应用大学生数学建模竞赛论文.docx

《现代葡萄酒业中统计方法的应用大学生数学建模竞赛论文.docx》由会员分享，可在线阅读，更多相关《现代葡萄酒业中统计方法的应用大学生数学建模竞赛论文.docx（32页珍藏版）》请在冰豆网上搜索。

现代葡萄酒业中统计方法的应用大学生数学建模竞赛论文.docx

现代葡萄酒业中统计方法的应用大学生数学建模竞赛论文

现代葡萄酒业中统计方法的应用

摘要：

“现代葡萄酒业中统计方法的应用”数学模型运用了一些经典的统计原理和统计方法，探讨在已知葡萄及葡萄酒的理化指标数据的情况下，如何有效地利用来对葡萄酒进行一个简明初步的分级，并对葡萄与葡萄酒的理化指标之间的联系和两组不同品酒师对相同葡萄酒评价的差异性和可信度进行分析，再通过以葡萄及葡萄酒的理化指标对葡萄酒的分级与品酒师对葡萄酒的评定比较，最终得出对葡萄酒鉴定的合理方案。

该数学模型借助SPSS软件运用T检验对两组品酒师对酒的评价的差异性进行了分析，又通过主成分分析对葡萄和葡萄酒的理化指标进行了归类和简化，进而对葡萄和葡萄酒的理化指标对葡萄酒品质的贡献做了综合性的分析；肯德尔和谐系数、方差分析的运用和数据相关性系数的计算又为评价品酒师对酒品打分的客观性和数据的关联性提供了有力的依据。

通过模型我们可以得出结论：

两组品酒员评价结果无显著性差异，第二组品酒师的结果更可信；仅靠葡萄和葡萄酒的理化指标不能准确评价葡萄酒的质量。

关键词：

理化指标统计方法T检验主成分分析肯德尔和谐系数相关系数

一、问题重述与分析

1.1问题的重述

葡萄酒是酒中的精魂，飘渺于生命的内在，又令心灵交融；她是有生命的，来自于天地恩赐，日月光泽；她恍如披着柔幔的处女，娇憨清新，浓淡相宜。

葡萄酒的质量是葡萄酒的一种特性，它是表示葡萄酒优秀的程度。

复杂性和协调性构成了葡萄酒质量的主要属性。

复杂性意味着葡萄酒有浓郁的令人愉快的香气与滋味，及它的潜力与精巧性。

协调性是指各种感官成分的结合是平衡的，每一种成分与其它成分相比，它的存在及其含量是非常适宜的，而且它的复杂性、颜色强度、香气、滋味、后味是稳定一致的。

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

在拥有附件1（某一年份一些葡萄酒的评价结果）、附件2（该年份这些葡萄酒的成分数据）和附件3（酿酒葡萄的成分数据）的情况下，我们需要尝试建立数学模型讨论下列问题：

1．两组评酒员的评价结果有无显著性差异，哪一组结果更可信？

2．根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3．酿酒葡萄与葡萄酒的理化指标之间有什么样的理化的联系。

4．酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响以及能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？

1.2问题的分析

由题意可知，目的就是为了建立数学模型，探讨在已知葡萄及葡萄酒的理化指标数据的情况下，如何有效地利用来对葡萄酒进行一个简明初步的分级，并对葡萄与葡萄酒的理化指标之间的联系和两组不同品酒师对相同葡萄酒评价的差异性和可信度进行分析，再通过以葡萄及葡萄酒的理化指标对葡萄酒的分级与品酒师对葡萄酒的评定比较，最终得出对葡萄酒鉴定的合理方案。

问题一中，首先可以用SPSS软件对两组品酒师评价进行T检验以确定两组品酒师评价的差异性，然后再利用SPSS求出两组品酒师评价结果的肯德尔和谐系数和方差以评定两组品酒师评价的可信度。

而问题二，可以用主成分分析的方法对葡萄的理化指标和葡萄酒的质量做综合性的分析，以完成对酿酒葡萄的分级。

由题意可知葡萄酒的质量由品酒师的打分确定，故需要对两组品酒师的打分结果进行综合评定。

问题三，采用求相关系数的方法，求解出两种葡萄与对应的两种葡萄酒的理化指标之间的相关系数以确定酿酒葡萄与葡萄酒的理化指标之间有什么样的理化的联系。

问题四中，首先对葡萄和葡萄酒的理化指标进行综合的分级，然后求综合分级与品酒员对酒品评价高低的相关性，可知若相关性较高，则说明用葡萄和葡萄酒的理化指标来评价葡萄酒的质量具有一定的可行性，反之则说明不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

二、建模的过程

1）问题一

1、模型假设：

1、两组品酒员无信息交流，彼此之间打分无影响。

2、样本足够大。

3、假设葡萄酒的酿造时期和被品尝时期相同。

2、定义符号说明：

R—相关性系数

3、模型的建立与求解

差异性：

如下图，对于红白葡萄酒质量评分，两组20名品酒员给出的结果如下：

1.红葡萄

样品

62.7

80.3

80.4

68.6

73.3

72.2

71.5

72.3

81.5

68.1

74.6

71.2

72.1

66.3

65.3

78.2

样品

74.2

70.1

53.9

74.6

58.7

74.9

79.3

59.9

68.8

61.6

68.3

68.8

72.6

65.7

69.9

74.5

65.4

样品

78.6

77.1

77.2

85.6

69.2

73.8

72.6

75.8

72.2

71.6

77.1

71.5

68.2

71.5

2.白葡萄

样品

74.2

85.3

79.4

68.4

77.5

71.4

72.9

74.3

77.9

75.8

75.6

76.9

81.5

75.5

74.2

72.3

80.4

79.8

样品

72.3

63.3

65.9

72.4

78.8

73.1

72.2

77.8

71.4

72.4

73.9

77.1

78.4

67.3

80.3

76.7

76.4

76.6

样品

76.4

75.9

73.3

77.1

81.3

64.8

81.3

79.2

79.4

77.4

76.1

79.5

74.3

79.6

对上述两表进行T检验，结果如下：

1.白葡萄：

组统计量

均值

标准差

均值的标准误

VAR00001

1.00

74.2600

8.45874

2.67489

2.00

76.5320

5.16612

1.63367

独立样本检验

方差方程的Levene检验

均值方程的t检验

Sig.

Sig.（双侧）

均值差值

标准误差值

差分的95%置信区间

下限

上限

VAR00001

假设方差相等

2.808

.111

-.725

.478

-2.27200

3.13431

-8.85694

4.31294

假设方差不相等

-.725

14.894

.480

-2.27200

3.13431

-8.95676

4.41276

对于白葡萄酒来说，F值为2.808，相伴概率为0.111，大于显著性水平0.05，不能拒绝方差相等的假设，可以认为第一组和第二组品酒员的评价结果无明显差异。

然后看方差相等时的T检验结果，T统计量的相伴概率为0.478，大于显著性水平0.05，不能拒绝T检验的零假设。

也就是说，品酒员对白葡萄酒的评价结果不存在明显差异。

另外从样本的均值差的95%置信区间看，区间跨0，这也说明两组品酒员对白葡萄酒的评价无显著性差异。

2.红葡萄：

组统计量

均值

标准差

均值的标准误

VAR00001

1.00

73.6680

5.09807

1.61215

2.00

73.5780

3.06119

.96803

独立样本检验

方差方程的Levene检验

均值方程的t检验

Sig.

Sig.（双侧）

均值差值

标准误差值

差分的95%置信区间

下限

上限

VAR00001

假设方差相等

2.426

.137

.048

.962

.09000

1.88046

-3.86070

4.04070

假设方差不相等

.048

14.743

.962

.09000

1.88046

-3.92419

4.10419

对于红葡萄酒来说，F值为2.426，相伴概率为0.137，大于显著性水平0.05，不能拒绝方差相等的假设，可以认为第一组和第二组品酒员的评价结果无明显差异。

然后看方差相等时的T检验结果，T统计量的相伴概率为0.962，大于显著性水平0.05，不能拒绝T检验的零假设。

也就是说，品酒员对红葡萄酒的评价结果不存在明显差异。

另外从样本的均值差的95%置信区间看，区间跨0，这也说明两组品酒员对红葡萄酒的评价无显著性差异。

相关性

VAR00001

VAR00002

VAR00001

Pearson相关性

.454**

显著性（双侧）

.001

VAR00002

Pearson相关性

.454**

显著性（双侧）

.001

**.在.01水平（双侧）上显著相关。

R=0.454>0.4有一定的相关性

总评：

统计量

均值

标准差

均值的标准误

73.67

5.098

1.612

73.58

3.061

.968

独立样本检验

方差方程的Levene检验

均值方程的t检验

Sig.

Sig.（双侧）

均值差值

标准误差值

差分的95%置信区间

下限

上限

假设方差相等

2.426

.137

.048

.962

.090

1.880

-3.861

4.041

假设方差不相等

.048

14.743

.962

.090

1.880

-3.924

4.104

对于葡萄酒来说，F值为，相伴概率为2.426，大于显著性水平0.05，不能拒绝方差相等的假设，可以认为第一组和第二组品酒员的评价结果无明显差异。

然后看方差相等时的T检验结果，T统计量的相伴概率为0.962，远大于显著性水平0.05，不能拒绝T检验的零假设。

也就是说，品酒员对葡萄酒的评价结果不存在明显差异。

另外从样本的均值差的95%置信区间看，区间跨0，这也说明两组品酒员对葡萄酒的评价无显著性差异。

可信度:

1.对于同一种酒的同一指标的评价，在两组无显著性差异的情况下，一组10人的评价分数相差越小则可信度越高，评价分数的散聚程度由标准差的大小来评价。

共27（28）组，标准差大小如下:

x=[12345678910111213141516171819202122232425262728];

y1=[28.9218.9220.3131.1823.6223.1930.5419.9017.2216.5425.2426.7720.1118.0027.7512.7628.1420.6120.6515.3132.3221.3417.1025.9624.1216.7821.170];

y2=[28.8142.5457.3220.0633.7338.2718.7740.6528.8943.7539.9332.2839.2032.0634.4240.0236.0237.5420.4424.0739.4335.3319.8231.6217.4625.6136.0526.91];

y3=[27.1512.0816.6319.2811.0913.7923.7524.2115.2218.0418.5015.0411.7314.4419.2913.459.0821.2722.2818.7517.8814.7814.939.8219.8419.3413.580];

y4=[15.2621.0135.8119.4715.3814.3019.4816.7430.9325.1728.1135.5020.5211.9522.0527.2018.6016.5015.3121.2224.0721.9610.2218.6330.9630.4317.8915.11];

比较直观的从下图来分析：

上图中四条曲线分别表示A,B两组对红白葡萄酒的总体评价的标准差的大小，由蓝色和红色的两条曲线可以看出A组对红葡萄酒的评价差较B组来说更大，同样有棕色和浅蓝色的两条曲线得出白葡萄酒仍然是A族的标准差大。

2.做两组品酒员所得结果的Alpha系数

A组的Alpha系数：

案例处理汇总

案例

有效

100.0

已排除a

总计

100.0

可靠性统计量

Cronbach'sAlpha

项数

0.825

B组的Alpha系数：

案例处理汇总

案例

有效

100.0

已排除a

总计

100.0

可靠性统计量

Cronbach'sAlpha

项数

0.834

由上图可以看出两组的Alpha系数均大于0.8，及说明数据的可靠性都较强，但第二组的Alpha系数略好于第一组，所以第二组的可靠性略好于第一组。

所以综合以上两个方面，第二组的可靠性更高。

2）问题二

1、模型假设：

1、假设品酒师对葡萄酒的打分作为酿酒葡萄质量的指标之一。

2、假设酿酒葡萄理化指标中的数据不受单位的影响。

4、假设样本的量足够大且具有代表性。

2、定义符号说明：

Xi----------第i个理化指标

ZXi---------原始变量经过标准化处理之后的数据

Hi---------红葡萄样品i

Bi---------白葡萄样品i

3、模型建立与求解：

对于酿酒葡萄的分级问题，先通过因子分析对葡萄的众多指标进行提炼，用少数几个变量来替代酿酒葡萄的变量。

表2.1

将表2.1中的数据运用SPSS软件处理，对酿酒葡萄的26项指标进行因子分析。

KMO值大于0.5，根据Kaiser给出的KMO度量标准可知原有的26个变量适合做因子分析。

现得到“解释的总方差”结果：

表2.2

分析结果可得

表2.3

由表2.3可知

因子变量1替代了总酚、葡萄酒黄酮、花色苷、单宁、蛋白质、DPPH自由基、黄酮醇，因子变量2替代了可溶性固形物、总糖、氨基酸总量，因子变量3替代了可滴定酸、固酸比、PH值三种指标，因子变量4替代了果皮质量、果穗质量、百粒质量三种指标，因子变量5替代了总分、酒石酸、果梗比三种指标，因子变量6替代了多酚氧化酶活力、褐变度两种指标，因子变量7替代了柠檬酸，因子变量8出汁率、白藜芦醇两种指标。

所以决定用这八个新变量来替代原有的26个变量。

最后通过主成分分析模型来解决问题

运用SPSS将红葡萄的各项指标进行标准化,得到如图2.4

表2.4

记表2.4中的数据为一矩阵HZ（27乘26）

运用SPSS软件得到特征向量Ai（26乘8）

将得到的特征向量与标准化后的数据相乘然后可以得出主成分表达式

Fi=HZ*Ai

其中Fi为一27乘8的矩阵，第i列表示27种酿酒葡萄（红）在第i个因子下的排名，其结果如表2.5所示

表2.5

之后以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型。

结果如图2.5所示。

同理，对白葡萄样品数据做同样的处理，所得结果如图2.6所示。

图2.6

2）问题三

1、模型假设：

1、测理化性质所用的葡萄的其他条件相同。

2、所给数据真实可靠。

2、定义符号说明：

R-相关性系数

3、模型的建立与求解：

下列表格列举出了在葡萄酒与葡萄中都有的物质，

白藜芦醇

单宁

花色苷

葡萄总黄酮与酒总黄酮

总酚

取其中有相关性的作图

1红葡萄酒单宁

2红葡萄酒花色苷

3红葡萄酒总酚

4红葡萄酒黄酮

5白葡萄酒总黄酮

从以上图中，我们可以看出，红葡萄酒单宁，红葡萄酒花色苷，红葡萄酒总酚，红葡萄酒总黄酮，白葡萄酒总黄酮，均有很大的相关性。

相同物质具有相关性必然具有一定的因果性质，

所以以上指标在葡萄酒与酿酒葡萄之间有较强的联系，即酿酒葡萄中的量影响着葡萄酒中的量。

同一类的物质可以由作图得出但是不同的物质不能一一作图，所以由程序（代码见附录）得出相关性系数表（表1）。

从表中提炼信息得出

红葡萄

花色苷

单宁

总酚

酒总黄酮

DPPH半抑制体积

色泽l

花色苷

0.92

0.72

0.77

0.71

0.67

-0.83

褐变度

0.77

0.45

0.46

0.44

0.38

-0.56

DPPH自由基

0.57

0.75

0.81

0.76

0.78

-0.71

总酚

0.61

0.82

0.88

0.87

-0.75

单宁

0.66

0.72

0.74

0.7

-0.68

葡萄总黄酮

0.44

0.68

0.82

0.81

-0.61

白葡萄

酒总黄酮

色泽l

色泽b

葡萄总黄酮

0.7

0.1

-0.2

干物质含量

0.11

-0.72

0.68

出汁率

-0.05

0.69

-0.76

即上述涂有黄格的数据皆有相关性（R>=0.7）。

4）问题四

1、模型假设：

1.葡萄酒的质量只由品酒师的打分确定。

2.葡萄的理化指标和葡萄酒的理化指标对葡萄酒的质量的贡献是一样大的。

2、模型的建立与求解

利用SPSS求出葡萄和葡萄酒的理化指标与葡萄酒质量的相关系数，如下结果：

红葡萄

0.263

0.065

0.327

0.205

113

0.095

141

0.121

0.278

-0.195

0.192

-0.072

114

-0.072

142

-0.003

0.19

-0.164

-0.182

-0.245

115

0.077

143

0.06

-0.28

0.197

-0.123

-0.049

116

0.017

144

-0.076

0.392

-0.17

-0.079

0.287

117

-0.011

145

0.166

0.214

-0.135

0.26

-0.247

118

0.038

146

0.015

0.113

0.175

-0.132

0.151

119

-0.167

147

0.08

-0.235

-0.194

-0.188

0.071

120

0.264

148

0.03

0.138

-0.003

-0.078

0.002

121

-0.096

149

0.039

0.294

-0.147

0.036

-0.017

122

-0.009

150

0.07

-0.069

-0.205

0.153

-0.175

123

0.12

151

0.135

0.171

-0.016

0.093

-0.196

124

-0.031

152

-0.045

-0.226

0.122

0.365

-0.028

125

0.104

153

0.152

0.038

-0.192

0.065

0.063

126

-0.06

154

0.07

0.03

-0.055

0.279

展开阅读全文