实验二 判别聚类分析文档格式.docx

上传人:b****1 文档编号:15325840 上传时间:2022-10-29 格式:DOCX 页数:13 大小:126.35KB
下载 相关 举报
实验二 判别聚类分析文档格式.docx_第1页
第1页 / 共13页
实验二 判别聚类分析文档格式.docx_第2页
第2页 / 共13页
实验二 判别聚类分析文档格式.docx_第3页
第3页 / 共13页
实验二 判别聚类分析文档格式.docx_第4页
第4页 / 共13页
实验二 判别聚类分析文档格式.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

实验二 判别聚类分析文档格式.docx

《实验二 判别聚类分析文档格式.docx》由会员分享,可在线阅读,更多相关《实验二 判别聚类分析文档格式.docx(13页珍藏版)》请在冰豆网上搜索。

实验二 判别聚类分析文档格式.docx

设计性、综合性实验强调学生对所学过的数学知识和方法的综合运用和灵活运用,对于哪些构思巧妙、算法效率高的可适当加分,最高可达12分。

注:

每次实验采用10分制计分,分值在0~12分范围内,某实验若有加分之处,实验中指出并写出加分理由。

数学实验室

实验报告2

判别聚类分析(综合性实验)

日期:

2012年10月11日

一、实验概述:

【实验目的及要求】

(1)配合理论教学,培养学生的动手能力,要求学生掌握距离判别、典型判别、贝叶斯判别、逐步判别几种常用的判别方法。

在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。

(2)配合理论教学,培养学生的动手能力,要求学生会用SPSS软件对实际问题采用聚类分析方法,尤其系统聚类分析和快速聚类。

【基本原理】

1、判别分析:

(1)马氏距离判别:

这里,,。

线性判别函数为

相应的判别规则为如果

(2)Bayes判别:

线性判别函数为:

判别规则:

(3)费歇(Fisher)判别法

线性判别函数,其中U为的最大特征值对应的特征向量。

若则判定来自总体。

【实施环境】

(软件操作)

使用统计软件包SPSS15.0,点击菜单Analyze→Classify→Discriminate…

2、聚类分析:

采用欧式距离法计算对象之间的“距离”,得到对象之间的相似关系。

系统聚类过程:

假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;

第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;

第三步将“距离”最近的两个类进一步聚成一类,共聚成n2类;

……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。

快速聚类过程:

将所有的样品分成K个初始类;

通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;

重复上面步骤,直到所有的样品都不能再分配时为止。

(1)系统聚类:

Analyze→Classify→HierarchicalCluster。

(2)快速聚类:

AnalyzeClassifyK-MeansCluster。

二、实验内容:

【项目内容及要求】

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

附件1给出了某一年份一些葡萄酒的评价结果,附件2给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。

请尝试建立讨论下列问题:

目的:

根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

1.根据第一次实验中所得更可信那一组红、白葡萄酒品尝评分,将酒样品按小到大整理,作为酒样品因素,计算一级指标外观分析、香气分析、口感分析和平衡/整体评价以及二级指标澄清度、色调、纯正度、浓度、质量、纯正度、浓度、持久性和质量的平均评价得分和总得分。

(应该第一次实验中已经整理好)。

根据各样本的总得分给出排名最前面的5个左右的酒样品和最后5个左右的酒样品,以及中间的5左右的个酒样品。

2.将附件2-指标总表.xls中的红、白酿酒葡萄成分数据,进行整理,并将其整理的指标和上题得到的数据合并?

(整理思路提示:

红、白酿酒葡萄成分数据,将其一级指标尽量用均值计算,但是二级指标中数据差异较大的,不得用一级指标替换二级指标,直接用二级指标数据,因为差异大的均值合并后信息损失严重)

3.根据上面两题合并的数据,分别对红、白葡萄酒进行酒样品聚类(Q型聚类),聚类尝试三种:

系统聚类中的类平均法和ward方法,以及K-mean(快速聚类)方法,由于聚类的变量不一样,需要对变量进行标准化处理,每种聚类方法设置聚成3-5类,并合并在一个表格中,同时,给出系统聚类的聚类树状图。

最后,根据题1中红、白葡萄酒的的质量(总得分)作为背景,选择三种方法聚类效果较好的一种,并得出合理的酿酒葡萄的等级。

(当然我们相信质量好的葡萄酒来自好的葡萄酿造,大家做的时候也可以尝试先进行变量正态性检验,仅仅将通过正态性检验的变量放进去聚类,看看效果)

4.将上题得到的红、白酿酒葡萄分级后,将等级作为一个变量放在题1和2的合并数据中,按照85%作为训练样本,15%作为测试样本的原则,将每一类的个数的15%的样本自己设置成待判样本(即将那个样本等级用.表示),分别用bayes判别和fisher判别进行建立酿酒葡萄等级模型(见教材或者【基本原理】),然后根据【基本原理】的给出等级判别规则,并分别得出判别结果,评价那种方法更合适(根据1折交叉验证(crossvalidate)得出每种判别的准确率),得到较好的酿酒葡萄等级模型。

最后,给出你最终的酿酒葡萄的分级。

(大家做的时候也可以尝试先进行变量正态性检验,仅仅将通过正态性检验的变量放进去判别分析,看看效果)

数据见“附件1-葡萄酒品尝评分表.xls和附件2-指标总表.xls”(来自2012年全国大学生数学建模A题)以及第一次实验整理好的数据。

【实验过程和结论】

(给出操作步骤、数据、程序以及菜单路径,还有结果和分析结论)

实验过程和结果分析部分的格式以实验格式要求为准,见“多元统计---实验报告格式要求.doc”,整理后的SPSS数据作为附件也要上交,最后上交的实验报告格式为“学号+姓名+实验名称.rar”即压缩包形式,实验室提交到教师机。

异常值

附件2指标总表中第34行DD列的数据2226.1改为226.1。

1.总得分排名最前、最后以及中间5个的酒样品

本文仅对白葡萄酒进行分析。

根据第一次实验可知第二组数据更可信,所以分析整理第二组数据。

根据第二组白葡萄酒评分的总分得排名如下:

最前面的5个酒样品为10、28、17、9、5,

最后5个酒样品为样品16、11、8、12、13,

中间的5个酒样品为24、19、4、27、18。

2.数据处理

数据整理见附件数据处理.xls

3.1指标的正态性检验

步骤:

分析→描述性统计→探索→绘制→箱图→无→带检验的正态图→确定

输出:

表3.1各个指标的正态性检验S-W概率表

指标

Sig.

澄清度

0.012

丙氨酸

总酚

果穗质量

0.008

色调

0.005

胱氨酸

0.023

单宁

0.004

百粒质量

0.018

纯正度

0.207

缬氨酸

0.856

葡萄总黄酮

0.006

果梗比

0.076

浓度

0.425

蛋氨酸

0.502

反式白藜芦醇苷

出汁率

0.648

质量

0.436

异亮氨酸

0.764

顺式白藜芦醇苷

果皮质量

0.162

0.003

亮氨酸

0.187

反式白藜芦醇

L1

0.346

0.24

酪氨酸

顺式白藜芦醇

L2

0.73

持久性

苯丙氨酸

0.05

杨梅黄酮

0.15

L3

0.082

0.14

赖氨酸

0.001

槲皮素

a1

0.069

外观分析

0.015

组氨酸

0.007

山萘酚

a2

0.278

香气分析

0.239

精氨酸

0.277

异鼠李素

a3

0.002

口感分析

0.352

蛋白质

0.361

总糖

0.211

b1

0.866

平衡/整体评价

0.022

VC含量

还原糖

0.204

b2

0.713

0.161

花色苷

果糖

0.667

b3

0.188

天门冬氨酸

0.039

酒石酸

0.946

葡萄糖

0.046

H1

苏氨酸

苹果酸

0.476

可溶性固形物

0.151

H2

丝氨酸

柠檬酸

PH值

0.212

H3

谷氨酸

多酚氧化酶活力

0.122

可滴定酸

0.184

C1

0.129

脯氨酸

褐变度

固酸比

0.178

C2

0.034

甘氨酸

DPPH自由基

0.078

干物质含量

0.514

C3

0.083

结论:

S-w中Sig.<

0.05则拒绝原假设,证明不服从正态分布,所以剔除sig.<

0.05的数据,得到纯正度、浓度、质量、浓度、质量、香气分析、口感分析、和、苏氨酸、缬氨酸、蛋氨酸、异亮氨酸、亮氨酸、苯丙氨酸、精氨酸、蛋白质、酒石酸、苹果酸、多酚氧化酶活力、DPPH自由基、杨梅黄酮、总糖、还原糖、果糖、可溶性固形物、PH值、可滴定酸、固酸比、干物质含量、果梗比、出汁率、果皮质量、L1、L2、L3、a1、a2、b1、b2、b3、C1、C3这些变量服从正态分布。

根据这些变量进行聚类分析。

3.2聚类分析及对酿酒葡萄分级

系统聚类步骤:

分析→分类→系统聚类→绘制→树状图→冰柱→无→方法→聚类方法Ward法、组内联接(类平均法)→转换值Z得分→确定

K-均值聚类分析(快速聚类法)步骤:

将酒样品编号选入个案标记依据→保存→聚类成员、与聚类中心的距离→选项→初始聚类中心、ANOVA表→聚类数为3、4、5→确定

表3.2.1ward法树状图表3.2.2类平均法树状图

剔除不服从正态分布的指标,留下服从正态分布的指标。

对留下的指标和总平均分用不同的方法做聚类分析。

用系统聚类中的类平均法和ward方法,以及K-均值聚类(快速聚类)方法对红葡萄酒进行酒样品聚类,并分别聚成三类、四类、五类。

整理SPSS聚类的结果得到表3.2.3、表3.2.4、表3.2.5.

表3.2.3三种方法聚成三类时的结果汇总表

Ward法

类平均法

快速聚类

第一类

7,14,21,23,4,28,26,6,20,17,9,10,5

7,14,18,2,15,1,13,8,11,12,19,22

7,10,11,18,24,25,27

第二类

24,27,3,25

24,27,25,9,10,6.20.21,23,4,28,17,5,3,26,16

1,2,5,6,8,13,14,15,16

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 成人教育 > 自考

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1