ImageVerifierCode 换一换
格式:PPT , 页数:68 ,大小:9.40MB ,
资源ID:2762403      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2762403.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(环境统计学-第五章系统聚类分析.ppt)为本站会员(b****3)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

环境统计学-第五章系统聚类分析.ppt

1、环环 境境 统统 计计 学学vv授课教师:林红军授课教师:林红军授课教师:林红军授课教师:林红军vv授课时间:授课时间:授课时间:授课时间:2010201020102010学年第二学期学年第二学期学年第二学期学年第二学期(Environmental Statistics)环境科学系环境科学系办公地点:校办公地点:校8幢幢123室,室,17幢幢616室室E-mail:, Cell:159 5845 9856,679856绪论绪论多元线性多元线性概率统计概率统计一元线性一元线性环环 境境 统统 计计 学学基本概念基本概念基本概念基本概念基本原理基本原理基本原理基本原理常用的统计学术语常用的统计学术

2、语常用的统计学术语常用的统计学术语随机事件随机事件随机事件随机事件概率概率概率概率数学特征数学特征数学特征数学特征概率分布概率分布概率分布概率分布统计推断统计推断统计推断统计推断回归模型回归模型回归模型回归模型最小二乘法最小二乘法最小二乘法最小二乘法显著性检验显著性检验显著性检验显著性检验回归模型回归模型回归模型回归模型最小二乘法最小二乘法最小二乘法最小二乘法SPSSSPSS求解求解求解求解显著性检验显著性检验显著性检验显著性检验环境应用环境应用环境应用环境应用第第5章章 环境系统聚类分析环境系统聚类分析聚类分析概述聚类分析概述聚类要素的数据处理聚类要素的数据处理距离的计算距离的计算系统聚类分

3、析的常用方法系统聚类分析的常用方法SPSSSPSS计算方法计算方法 环境应用环境应用 环境系统聚类分析环境系统聚类分析什么是聚类什么是聚类俗话说:俗话说:“物以类聚,人以群分。物以类聚,人以群分。”什么是聚类什么是聚类聚类(聚类(Clustering)就是将数据分组成为多个类)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。相似度,不同类之间的对象差别较大。什么是聚类什么是聚类早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,男人和女人。环境中如水质分类,污染类型,处理

4、方法聚类分析无处不在聚类分析无处不在在商业上在商业上在商业上在商业上聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。在生物上在生物上在生物上在生物上聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识在地理上在地理上在地理上在地理上聚类能够帮助在地球中被观察的数据库商趋于的相似性在保险行业上在保险行业上在保险行业上在保险行业上聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组在电子商务上在电子商务上在电子商务上在电子商务上聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类

5、出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。聚类分析无处不在聚类分析无处不在在环境上在环境上环境问题如何归类和分析已成为环境科学的一项重要课题。根据确定的标准对环境问题进行分级、分类,需要用到聚类分析。根据对象间的相关程度进行类别的聚合。在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。聚类分析的基本思想聚类分析的基本思想聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个差异很大。聚类分析的基本思想聚类分析的基本思想样本聚类样本聚类样本聚类样本聚类Q Q Q Q型型型型变量聚类变量聚类变量聚类

6、变量聚类R R R R型型型型 儿童生儿童生长发育研究育研究中,形中,形态学学为主指主指标归为一一类,机能,机能为主指主指标归为另一另一类聚类分析又分为样本聚类和变量聚类聚类分析又分为样本聚类和变量聚类解剖学上根据骨骼解剖学上根据骨骼大小形状,以确定大小形状,以确定样本是人是猿,性本是人是猿,性别、年、年龄等等常用的统计量有距离系数和相似系数常用的统计量有距离系数和相似系数常用的统计量有距离系数和相似系数常用的统计量有距离系数和相似系数距离系数距离系数距离系数距离系数相似系数相似系数相似系数相似系数聚类分析原理介绍聚类分析原理介绍相似性Similar的度量(统计学角度)v距离Q型聚类(主要讨论

7、)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):明考夫斯基距离明考夫斯基距离明考夫斯基距离明考夫斯基距离(包括:绝对距离、欧式距离欧式距离欧式距离欧式距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离此不详述,有兴趣可参考应用多元分析(第二版)王学民v相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离这里不详细介绍这种聚类度量方法 在在聚聚类类分分析析中中,聚聚类类要要素素的的选选择择是是十十分分重重要的,它直接影响分类结果的准确性和可靠性。要的,它直接影响分类结果的准确性和可靠性。因因此此当当分分类类要要素素的的对对象象确确定定之之后后,在在进

8、进行行聚聚类类分分析析之之前前,首首先先要要对对聚聚类类要要素素进进行行数数据据处处理。理。二、聚类要素的数据处理二、聚类要素的数据处理CODCODNHNH4 4+-N-NTPTP色度色度色度色度pHpH金属离子金属离子金属离子金属离子ClCl-1000-10000mg/L1000-10000mg/L1-40mg/L1-40mg/L0-5mg/L0-5mg/L100-500100-500度度度度5 59 910-200mg/L10-200mg/L20-300mg/L20-300mg/L总和标准差总和标准差总和标准差总和标准差标准差标准化标准差标准化标准差标准化标准差标准化极大值标准化极大值标准

9、化极大值标准化极大值标准化极差标准化极差标准化极差标准化极差标准化数据处理数据处理方法方法例例1 以长江流域水环境数据为例,以长江流域水环境数据为例,1993年年1月份月份6个站点水环境监测指标实测值如下表所示。个站点水环境监测指标实测值如下表所示。表1 1993年1月份各站点水环境监测指标实测值(单位:mg/L)各站点各站点各站点各站点指标指标指标指标溶解氧溶解氧溶解氧溶解氧高锰酸钾指高锰酸钾指高锰酸钾指高锰酸钾指数数数数BODBOD5 5NHNH3 3-N N挥发酚挥发酚挥发酚挥发酚攀枝花攀枝花攀枝花攀枝花10.0 10.0 0.8 0.8 2.0 2.0 0.10 0.10 0.0030

10、.003高场高场高场高场10.5 10.5 1.3 1.3 1.8 1.8 0.16 0.16 0.0020.002津市津市津市津市10.4 10.4 1.9 1.9 1.2 1.2 0.16 0.16 0.0030.003长沙长沙长沙长沙8.8 8.8 2.3 2.3 1.1 1.1 0.72 0.72 0.0020.002中山桥中山桥中山桥中山桥13.0 13.0 3.5 3.5 2.9 2.9 0.30 0.30 0.0190.019宣城宣城宣城宣城13.4 13.4 2.3 2.3 2.4 2.4 0.02 0.02 0.0050.005聚类要素的数据处理方法聚类要素的数据处理方法 总

11、和标准化。总和标准化。总和标准化。总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站点各站点指标指标溶解氧

12、溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.00.1513 0.0661 0.1754 0.0685 0.0882 0.1589 0.1074 0.1579 0.1096 0.0588 0.1573 0.1570 0.1053 0.1096 0.0882 0.1331 0.1901 0.0965 0.4932 0.0588 0.1967 0.2893 0.2544 0.2055 0.5588 0.2027 0.1901 0.2105 0.0137 0.1471 0.151366.1总总和和标标准准化化 标准差标准化标

13、准差标准化标准差标准化标准差标准化,即,即 由由这这种种标标准准化化方方法法所所得得到到的的新新数数据据,各各要要素素的平均值为的平均值为0,标准差为,标准差为1,即有,即有各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站点各站

14、点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.0-0.6186-1.4259 0.1581-0.6257-0.4411-0.3144-0.8400-0.1581-0.3637-0.6065-0.3752-0.1368-1.1068-0.3637-0.4411-1.3487 0.3320-1.2649 2.0814-0.6065 1.2067 1.7384 1.5811 0.2476 2.2053 1.4501 0.3320 0.7906-0.9750-0.1103-1.0211.02平平均均值值标标准准

15、差差1.644-0.6186=标标准准差差标标准准化化 极大值标准化,极大值标准化,极大值标准化,极大值标准化,即即即即 经经经经过过过过这这这这种种种种标标标标准准准准化化化化所所所所得得得得的的的的新新新新数数数数据据据据,各各各各要要要要素素素素的的的的极极极极大值为大值为大值为大值为1 1,其余各数值小于,其余各数值小于,其余各数值小于,其余各数值小于1 1。各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2

16、 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.00.7463 0.2286 0.6897 0.1389 0.1579 0.7836 0.3714 0.6207 0.2222 0.1053 0.7761 0.5429 0.4138 0.2222 0.1579 0.6567 0.6571 0.3793 1.0000 0.1053 0.9701 1.0000 1.0000 0.4167 1.0000 1.0000 0.6571 0.8276 0.0278 0.2632 0.746313.4选选出出最最大大值值极极大大值值标标准准化化 极差的标准化极差的标准化极差的标准化极差的标准化,即,即,即,即 经经经经过过过过这这这这种种种种标标标标准准准准化化化化所所所所得得得得的的的的新新新新数数数数据据据据,各各各

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1