实验二 判别聚类分析文档格式.docx
《实验二 判别聚类分析文档格式.docx》由会员分享,可在线阅读,更多相关《实验二 判别聚类分析文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
设计性、综合性实验强调学生对所学过的数学知识和方法的综合运用和灵活运用,对于哪些构思巧妙、算法效率高的可适当加分,最高可达12分。
注:
每次实验采用10分制计分,分值在0~12分范围内,某实验若有加分之处,实验中指出并写出加分理由。
数学实验室
实验报告2
判别聚类分析(综合性实验)
日期:
2012年10月11日
一、实验概述:
【实验目的及要求】
(1)配合理论教学,培养学生的动手能力,要求学生掌握距离判别、典型判别、贝叶斯判别、逐步判别几种常用的判别方法。
在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类。
(2)配合理论教学,培养学生的动手能力,要求学生会用SPSS软件对实际问题采用聚类分析方法,尤其系统聚类分析和快速聚类。
【基本原理】
1、判别分析:
(1)马氏距离判别:
这里,,。
线性判别函数为
,
相应的判别规则为如果
(2)Bayes判别:
线性判别函数为:
判别规则:
(3)费歇(Fisher)判别法
线性判别函数,其中U为的最大特征值对应的特征向量。
若则判定来自总体。
【实施环境】
(软件操作)
使用统计软件包SPSS15.0,点击菜单Analyze→Classify→Discriminate…
2、聚类分析:
采用欧式距离法计算对象之间的“距离”,得到对象之间的相似关系。
系统聚类过程:
假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;
第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;
第三步将“距离”最近的两个类进一步聚成一类,共聚成n2类;
……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
快速聚类过程:
将所有的样品分成K个初始类;
通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;
重复上面步骤,直到所有的样品都不能再分配时为止。
(1)系统聚类:
Analyze→Classify→HierarchicalCluster。
。
(2)快速聚类:
AnalyzeClassifyK-MeansCluster。
二、实验内容:
【项目内容及要求】
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立讨论下列问题:
目的:
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
1.根据第一次实验中所得更可信那一组红、白葡萄酒品尝评分,将酒样品按小到大整理,作为酒样品因素,计算一级指标外观分析、香气分析、口感分析和平衡/整体评价以及二级指标澄清度、色调、纯正度、浓度、质量、纯正度、浓度、持久性和质量的平均评价得分和总得分。
(应该第一次实验中已经整理好)。
根据各样本的总得分给出排名最前面的5个左右的酒样品和最后5个左右的酒样品,以及中间的5左右的个酒样品。
2.将附件2-指标总表.xls中的红、白酿酒葡萄成分数据,进行整理,并将其整理的指标和上题得到的数据合并?
(整理思路提示:
红、白酿酒葡萄成分数据,将其一级指标尽量用均值计算,但是二级指标中数据差异较大的,不得用一级指标替换二级指标,直接用二级指标数据,因为差异大的均值合并后信息损失严重)
3.根据上面两题合并的数据,分别对红、白葡萄酒进行酒样品聚类(Q型聚类),聚类尝试三种:
系统聚类中的类平均法和ward方法,以及K-mean(快速聚类)方法,由于聚类的变量不一样,需要对变量进行标准化处理,每种聚类方法设置聚成3-5类,并合并在一个表格中,同时,给出系统聚类的聚类树状图。
最后,根据题1中红、白葡萄酒的的质量(总得分)作为背景,选择三种方法聚类效果较好的一种,并得出合理的酿酒葡萄的等级。
(当然我们相信质量好的葡萄酒来自好的葡萄酿造,大家做的时候也可以尝试先进行变量正态性检验,仅仅将通过正态性检验的变量放进去聚类,看看效果)
4.将上题得到的红、白酿酒葡萄分级后,将等级作为一个变量放在题1和2的合并数据中,按照85%作为训练样本,15%作为测试样本的原则,将每一类的个数的15%的样本自己设置成待判样本(即将那个样本等级用.表示),分别用bayes判别和fisher判别进行建立酿酒葡萄等级模型(见教材或者【基本原理】),然后根据【基本原理】的给出等级判别规则,并分别得出判别结果,评价那种方法更合适(根据1折交叉验证(crossvalidate)得出每种判别的准确率),得到较好的酿酒葡萄等级模型。
最后,给出你最终的酿酒葡萄的分级。
(大家做的时候也可以尝试先进行变量正态性检验,仅仅将通过正态性检验的变量放进去判别分析,看看效果)
数据见“附件1-葡萄酒品尝评分表.xls和附件2-指标总表.xls”(来自2012年全国大学生数学建模A题)以及第一次实验整理好的数据。
【实验过程和结论】
(给出操作步骤、数据、程序以及菜单路径,还有结果和分析结论)
实验过程和结果分析部分的格式以实验格式要求为准,见“多元统计---实验报告格式要求.doc”,整理后的SPSS数据作为附件也要上交,最后上交的实验报告格式为“学号+姓名+实验名称.rar”即压缩包形式,实验室提交到教师机。
异常值
附件2指标总表中第34行DD列的数据2226.1改为226.1。
1.总得分排名最前、最后以及中间5个的酒样品
本文仅对白葡萄酒进行分析。
根据第一次实验可知第二组数据更可信,所以分析整理第二组数据。
根据第二组白葡萄酒评分的总分得排名如下:
最前面的5个酒样品为10、28、17、9、5,
最后5个酒样品为样品16、11、8、12、13,
中间的5个酒样品为24、19、4、27、18。
2.数据处理
数据整理见附件数据处理.xls
3.1指标的正态性检验
步骤:
分析→描述性统计→探索→绘制→箱图→无→带检验的正态图→确定
输出:
表3.1各个指标的正态性检验S-W概率表
指标
Sig.
澄清度
0.012
丙氨酸
总酚
果穗质量
0.008
色调
0.005
胱氨酸
0.023
单宁
0.004
百粒质量
0.018
纯正度
0.207
缬氨酸
0.856
葡萄总黄酮
0.006
果梗比
0.076
浓度
0.425
蛋氨酸
0.502
反式白藜芦醇苷
出汁率
0.648
质量
0.436
异亮氨酸
0.764
顺式白藜芦醇苷
果皮质量
0.162
0.003
亮氨酸
0.187
反式白藜芦醇
L1
0.346
0.24
酪氨酸
顺式白藜芦醇
L2
0.73
持久性
苯丙氨酸
0.05
杨梅黄酮
0.15
L3
0.082
0.14
赖氨酸
0.001
槲皮素
a1
0.069
外观分析
0.015
组氨酸
0.007
山萘酚
a2
0.278
香气分析
0.239
精氨酸
0.277
异鼠李素
a3
0.002
口感分析
0.352
蛋白质
0.361
总糖
0.211
b1
0.866
平衡/整体评价
0.022
VC含量
还原糖
0.204
b2
0.713
和
0.161
花色苷
果糖
0.667
b3
0.188
天门冬氨酸
0.039
酒石酸
0.946
葡萄糖
0.046
H1
苏氨酸
苹果酸
0.476
可溶性固形物
0.151
H2
丝氨酸
柠檬酸
PH值
0.212
H3
谷氨酸
多酚氧化酶活力
0.122
可滴定酸
0.184
C1
0.129
脯氨酸
褐变度
固酸比
0.178
C2
0.034
甘氨酸
DPPH自由基
0.078
干物质含量
0.514
C3
0.083
结论:
S-w中Sig.<
0.05则拒绝原假设,证明不服从正态分布,所以剔除sig.<
0.05的数据,得到纯正度、浓度、质量、浓度、质量、香气分析、口感分析、和、苏氨酸、缬氨酸、蛋氨酸、异亮氨酸、亮氨酸、苯丙氨酸、精氨酸、蛋白质、酒石酸、苹果酸、多酚氧化酶活力、DPPH自由基、杨梅黄酮、总糖、还原糖、果糖、可溶性固形物、PH值、可滴定酸、固酸比、干物质含量、果梗比、出汁率、果皮质量、L1、L2、L3、a1、a2、b1、b2、b3、C1、C3这些变量服从正态分布。
根据这些变量进行聚类分析。
3.2聚类分析及对酿酒葡萄分级
系统聚类步骤:
分析→分类→系统聚类→绘制→树状图→冰柱→无→方法→聚类方法Ward法、组内联接(类平均法)→转换值Z得分→确定
K-均值聚类分析(快速聚类法)步骤:
将酒样品编号选入个案标记依据→保存→聚类成员、与聚类中心的距离→选项→初始聚类中心、ANOVA表→聚类数为3、4、5→确定
表3.2.1ward法树状图表3.2.2类平均法树状图
剔除不服从正态分布的指标,留下服从正态分布的指标。
对留下的指标和总平均分用不同的方法做聚类分析。
用系统聚类中的类平均法和ward方法,以及K-均值聚类(快速聚类)方法对红葡萄酒进行酒样品聚类,并分别聚成三类、四类、五类。
整理SPSS聚类的结果得到表3.2.3、表3.2.4、表3.2.5.
表3.2.3三种方法聚成三类时的结果汇总表
Ward法
类平均法
快速聚类
第一类
7,14,21,23,4,28,26,6,20,17,9,10,5
7,14,18,2,15,1,13,8,11,12,19,22
7,10,11,18,24,25,27
第二类
24,27,3,25
24,27,25,9,10,6.20.21,23,4,28,17,5,3,26,16
1,2,5,6,8,13,14,15,16