环境统计学-第五章系统聚类分析.ppt

上传人:b****3 文档编号:2762403 上传时间:2022-11-12 格式:PPT 页数:68 大小:9.40MB
下载 相关 举报
环境统计学-第五章系统聚类分析.ppt_第1页
第1页 / 共68页
环境统计学-第五章系统聚类分析.ppt_第2页
第2页 / 共68页
环境统计学-第五章系统聚类分析.ppt_第3页
第3页 / 共68页
环境统计学-第五章系统聚类分析.ppt_第4页
第4页 / 共68页
环境统计学-第五章系统聚类分析.ppt_第5页
第5页 / 共68页
点击查看更多>>
下载资源
资源描述

环境统计学-第五章系统聚类分析.ppt

《环境统计学-第五章系统聚类分析.ppt》由会员分享,可在线阅读,更多相关《环境统计学-第五章系统聚类分析.ppt(68页珍藏版)》请在冰豆网上搜索。

环境统计学-第五章系统聚类分析.ppt

环环境境统统计计学学vv授课教师:

林红军授课教师:

林红军授课教师:

林红军授课教师:

林红军vv授课时间:

授课时间:

授课时间:

授课时间:

2010201020102010学年第二学期学年第二学期学年第二学期学年第二学期(EnvironmentalStatistics)环境科学系环境科学系办公地点:

校办公地点:

校8幢幢123室,室,17幢幢616室室E-mail:

Cell:

15958459856,679856绪论绪论多元线性多元线性概率统计概率统计一元线性一元线性环环境境统统计计学学基本概念基本概念基本概念基本概念基本原理基本原理基本原理基本原理常用的统计学术语常用的统计学术语常用的统计学术语常用的统计学术语随机事件随机事件随机事件随机事件概率概率概率概率数学特征数学特征数学特征数学特征概率分布概率分布概率分布概率分布统计推断统计推断统计推断统计推断回归模型回归模型回归模型回归模型最小二乘法最小二乘法最小二乘法最小二乘法显著性检验显著性检验显著性检验显著性检验回归模型回归模型回归模型回归模型最小二乘法最小二乘法最小二乘法最小二乘法SPSSSPSS求解求解求解求解显著性检验显著性检验显著性检验显著性检验环境应用环境应用环境应用环境应用第第5章章环境系统聚类分析环境系统聚类分析聚类分析概述聚类分析概述聚类要素的数据处理聚类要素的数据处理距离的计算距离的计算系统聚类分析的常用方法系统聚类分析的常用方法SPSSSPSS计算方法计算方法环境应用环境应用环境系统聚类分析环境系统聚类分析什么是聚类什么是聚类俗话说:

俗话说:

“物以类聚,人以群分。

物以类聚,人以群分。

”什么是聚类什么是聚类聚类(聚类(Clustering)就是将数据分组成为多个类)就是将数据分组成为多个类(Cluster)。

在同一个类内对象之间具有较高的)。

在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。

相似度,不同类之间的对象差别较大。

什么是聚类什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,男人和女人。

环境中如水质分类,污染类型,处理方法聚类分析无处不在聚类分析无处不在在商业上在商业上在商业上在商业上聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。

在生物上在生物上在生物上在生物上聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识在地理上在地理上在地理上在地理上聚类能够帮助在地球中被观察的数据库商趋于的相似性在保险行业上在保险行业上在保险行业上在保险行业上聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组在电子商务上在电子商务上在电子商务上在电子商务上聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

聚类分析无处不在聚类分析无处不在在环境上在环境上环境问题如何归类和分析已成为环境科学的一项重要课题。

根据确定的标准对环境问题进行分级、分类,需要用到聚类分析。

根据对象间的相关程度进行类别的聚合。

在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。

聚类分析的基本思想聚类分析的基本思想聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个差异很大。

聚类分析的基本思想聚类分析的基本思想样本聚类样本聚类样本聚类样本聚类QQQQ型型型型变量聚类变量聚类变量聚类变量聚类RRRR型型型型儿童生儿童生长发育研究育研究中,形中,形态学学为主指主指标归为一一类,机能,机能为主指主指标归为另一另一类聚类分析又分为样本聚类和变量聚类聚类分析又分为样本聚类和变量聚类解剖学上根据骨骼解剖学上根据骨骼大小形状,以确定大小形状,以确定样本是人是猿,性本是人是猿,性别、年、年龄等等常用的统计量有距离系数和相似系数常用的统计量有距离系数和相似系数常用的统计量有距离系数和相似系数常用的统计量有距离系数和相似系数距离系数距离系数距离系数距离系数相似系数相似系数相似系数相似系数聚类分析原理介绍聚类分析原理介绍相似性Similar的度量(统计学角度)v距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):

明考夫斯基距离明考夫斯基距离明考夫斯基距离明考夫斯基距离(包括:

绝对距离、欧式距离欧式距离欧式距离欧式距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离此不详述,有兴趣可参考应用多元分析(第二版)王学民v相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离这里不详细介绍这种聚类度量方法在在聚聚类类分分析析中中,聚聚类类要要素素的的选选择择是是十十分分重重要的,它直接影响分类结果的准确性和可靠性。

要的,它直接影响分类结果的准确性和可靠性。

因因此此当当分分类类要要素素的的对对象象确确定定之之后后,在在进进行行聚聚类类分分析析之之前前,首首先先要要对对聚聚类类要要素素进进行行数数据据处处理。

理。

二、聚类要素的数据处理二、聚类要素的数据处理CODCODNHNH44+-N-NTPTP色度色度色度色度pHpH金属离子金属离子金属离子金属离子ClCl-1000-10000mg/L1000-10000mg/L1-40mg/L1-40mg/L0-5mg/L0-5mg/L100-500100-500度度度度559910-200mg/L10-200mg/L20-300mg/L20-300mg/L总和标准差总和标准差总和标准差总和标准差标准差标准化标准差标准化标准差标准化标准差标准化极大值标准化极大值标准化极大值标准化极大值标准化极差标准化极差标准化极差标准化极差标准化数据处理数据处理方法方法例例1以长江流域水环境数据为例,以长江流域水环境数据为例,1993年年1月份月份6个站点水环境监测指标实测值如下表所示。

个站点水环境监测指标实测值如下表所示。

表11993年1月份各站点水环境监测指标实测值(单位:

mg/L)各站点各站点各站点各站点指标指标指标指标溶解氧溶解氧溶解氧溶解氧高锰酸钾指高锰酸钾指高锰酸钾指高锰酸钾指数数数数BODBOD55NHNH33-NN挥发酚挥发酚挥发酚挥发酚攀枝花攀枝花攀枝花攀枝花10.010.00.80.82.02.00.100.100.0030.003高场高场高场高场10.510.51.31.31.81.80.160.160.0020.002津市津市津市津市10.410.41.91.91.21.20.160.160.0030.003长沙长沙长沙长沙8.88.82.32.31.11.10.720.720.0020.002中山桥中山桥中山桥中山桥13.013.03.53.52.92.90.300.300.0190.019宣城宣城宣城宣城13.413.42.32.32.42.40.020.020.0050.005聚类要素的数据处理方法聚类要素的数据处理方法总和标准化。

总和标准化。

总和标准化。

总和标准化。

分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即这种标准化方法所得到的新数据满足各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.00.82.00.100.003高场高场10.51.31.80.160.002津市津市10.41.91.20.160.003长沙长沙8.82.31.10.720.002中山桥中山桥13.03.52.90.300.019宣城宣城13.42.32.40.020.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.00.15130.06610.17540.06850.08820.15890.10740.15790.10960.05880.15730.15700.10530.10960.08820.13310.19010.09650.49320.05880.19670.28930.25440.20550.55880.20270.19010.21050.01370.14710.151366.1总总和和标标准准化化标准差标准化标准差标准化标准差标准化标准差标准化,即,即由由这这种种标标准准化化方方法法所所得得到到的的新新数数据据,各各要要素素的平均值为的平均值为0,标准差为,标准差为1,即有,即有各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.00.82.00.100.003高场高场10.51.31.80.160.002津市津市10.41.91.20.160.003长沙长沙8.82.31.10.720.002中山桥中山桥13.03.52.90.300.019宣城宣城13.42.32.40.020.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.0-0.6186-1.42590.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.34870.3320-1.26492.0814-0.60651.20671.73841.58110.24762.20531.45010.33200.7906-0.9750-0.1103-1.0211.02平平均均值值标标准准差差1.644-0.6186=标标准准差差标标准准化化极大值标准化,极大值标准化,极大值标准化,极大值标准化,即即即即经经经经过过过过这这这这种种种种标标标标准准准准化化化化所所所所得得得得的的的的新新新新数数数数据据据据,各各各各要要要要素素素素的的的的极极极极大值为大值为大值为大值为11,其余各数值小于,其余各数值小于,其余各数值小于,其余各数值小于11。

各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.00.82.00.100.003高场高场10.51.31.80.160.002津市津市10.41.91.20.160.003长沙长沙8.82.31.10.720.002中山桥中山桥13.03.52.90.300.019宣城宣城13.42.32.40.020.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.00.74630.22860.68970.13890.15790.78360.37140.62070.22220.10530.77610.54290.41380.22220.15790.65670.65710.37931.00000.10530.97011.00001.00000.41671.00001.00000.65710.82760.02780.26320.746313.4选选出出最最大大值值极极大大值值标标准准化化极差的标准化极差的标准化极差的标准化极差的标准化,即,即,即,即经经经经过过过过这这这这种种种种标标标标准准准准化化化化所所所所得得得得的的的的新新新新数数数数据据据据,各各各

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 财务管理

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1