ImageVerifierCode 换一换
格式:DOCX , 页数:12 ,大小:146.61KB ,
资源ID:20393389      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/20393389.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(判别分析及MATLAB应用.docx)为本站会员(b****2)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

判别分析及MATLAB应用.docx

1、判别分析及MATLAB应用判别分析类型:判断样品属于已知类型中哪一类。判别分析模型:设有 k 个总体 G1,G2,Gk,它们都是p元总体,其数量指标是设总体 Gi 的分布函数是 Fi(x)=Fi(x1,x2,xp),i=1,2,k,通常是连续型总体,即 Gi 具有概率密度 fi(x)=fi(x1,x2,xp)。对于任一新样品数据 x=(x1,x2,xp)T,要判断它来自哪一个总体 Gi。通常各个总体Gi 的分布是未知的,它需要由各总体 Gi 取得的样本数据资料来估计。一般,先要估计各个总体的均值向量与协方差矩阵。从每个总体 Gi 取得的样本叫训练样本。判别分析从各训练样本中的提取各总体的信息,

2、构造一定的判别准则,判断新样品属于哪个总体。从统计学的角度,要求判别准则在某种准则下是最优的,例如错判的概率最小或错判的损失最小等。由于判别准则的不同,有各种不同的判别分析方法:距离判别、Bayes判别和Fisher判别等。一、距离判别1. 两个总体的距离判别1.1 距离定义马氏平方距离:设 x,y是从均值向量为、协方差矩阵为的总体 G 中抽取的两个样品,马氏距离定义为: (1)1.2 双总体的判别规则设 G1,G2为两个不同的 p 元已知总体,Gi的均值向量是Gi的协方差矩阵是。设是一个待判样品,距离判别准则为 (2)即当 x 到 G1的马氏距离不超过到 G2 的马氏距离时,判 x 来自G1

3、;反之,判 x 来自 G2 。1.3 两个矩阵协方差矩阵相等的情况1.3.1 已知 (3)记 其中 ,则 (4)距离判别简化为 (5)1.3.1 未知数据资料来自两个总体的训练样本,每个样品皆是 p 元向量。总体G1的训练样本:,容量:n1;总体G2的训练样本:,容量:n2;要以训练样本估计,其估计量分别为 (6)其中 S1,S2为两个训练样本的协方差矩阵。距离判别规则为: (7)其中 , 1.4 两个总体协方差矩阵不相等的情况1.4.1已知令 (8)距离判别规则如下: (9)1.4.2 未知数据资料来自两个总体的训练样本,每个样品皆是 p 元向量。要以训练样本估计,然后用估计值进行判断。1.

4、5 判别准则的评价当一个判别准则提出以后,还要研究其优良性。考察一个判别准则的优良性,要考察误判概率,即考察 x 属于G1而误判为属于G2,或x属于G2而误判为属于G1的概率。下面介绍一训练样本为基础的用回代方法估计误判率的方法。1.5.1 误差率回代估计法将全体训练样本作为新样品,逐个回代已建立的判别准则中判别归属,这个过程称为回判,回判结果如下: 回判情况实际归类G1G2G1n11n12G2n21n22误判率的回代估计为: (10)它常常比真实误判率小,但可以作为真实误判率的一种估计。1.5.2 误判率的交叉确认估计误判率的交叉确认估计是每次剔出训练样本中的一个样品,利用其余容量为 n1+

5、n2-1的训练样本建立判别准则,再用建立的判别准则对删除的那个样品作判别。对训练样本中的每个样品作上述分析,以其误判的比例作为误判率的估计。具体步骤如下:1)从总体G1的容量为 n1的训练样本开始,剔除其中的一个样品,用剩余的容量为 n1-1的训练样本和总体 G2的训练样本建立判别函数;2)用建立的判别函数对删除的那个样品做判别;3)重复步骤1)、2),直到G1的训练样本中的n1个样品一次被删除,又进行判别。其误判样品个数记为 n12;4)对总体 G2的训练样本重复步骤1)、2)、3),并记其误判样品个数为n21。误判率的交叉确认估计为: (11)1.6 多总体的距离判别设有 k 个总体 G1

6、,G2,Gk,均值向量分别为协方差矩阵分别为,类似两总体的距离判别方法,计算新样品 x 到各总体的马氏距离,比较这 k 个距离,判定 x 属于其马氏距离最短的总体。若最短距离在不只一个总体达到,则可将 x 判归具有最短距离总体的任一个。当总体的均值向量和协方差矩阵未知时,使用训练样本作估计。也可以与两总体相同的方式作误判率的回代估计与交叉确认估计。二、Bayes 判别2.1 Bayes 判别的基本思想Bayes 统计是现代统计学的重要分支,其基本思想是:假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推

7、断均基于后验分布进行。将Bayes统计的思想用于判别分析,就得到Bayes判别。设 G1,G2,Gk为k个p元总体,分别具有概率密度在进行判别分析以前,我们已对各总体有一定的了解。一般说来,一个待判样品应该首先考虑判入有较大可能出现的总体之中。在Bayes判别中,开应该考虑误判引起的损失。2.2 两个总体的Bayes判别2.2.1 一般讨论考虑两个p 元总体 G1和G2,它们分别具有概率密度 f1(x),f2(x),G1和G2出现的先验概率为 p1和p2,且 p1+p2=1。对于p元指标 x=(x1,x2,xp)T来自Rp。一个判别法则实质上是对Rp的一个划分,记为R1和R2,并满足下列条件:

8、 (12)一个划分 R=(R1,R2)相当于一个判别准则 R。在判别准则R下将来自G1的样品误判为G2的概率是 (13)而将来自G2的样品误判为G1的概率为 (14)设将 G1误判为G2造成的损失是 c(2|1),而将G2误判为G1在造成的损失是c(1|2)。Bayes判别即寻求 R=(R1,R2),使平均误判损失达到最小。下面总假定 c(1|1)=c(2|2)=0。情况1:c(1|2)=c(2|1)当得到新样品 x 后,由Bayes公式得总体 G1,G2的后验概率是 (15)两总体Bayes判别的一个最优划分是 (16)此时的Bayes判别法则: (17)最优划分R使得平均误判概率 (18)

9、达到最小。情况2:c(1|2)c(2|1)关于先验分布p1、p2,误判所造成的平均损失为: (19)Bayes判别(即使L达到最小)的最优划分为: (20)此时的Bayes判别法则: (21)2.2.2 两个正态总体的Bayes判别需分 c(1|2)和c(2|1)相等与否,两个总体的协方差矩阵相等与否分别讨论。(详细参见:范金城,梅长林编著. 数据分析:P174-177.北京:科学出版社,2002.)2.2.3 误判率的计算(参见:范金城,梅长林编著. 数据分析:P177-182.北京:科学出版社,2002.)2.3 多个总体的Bayes判别(参见:范金城,梅长林编著. 数据分析:P182-1

10、87.北京:科学出版社,2002.)判别分析课堂例题例题1:某气象站预报某地区有无春旱的观测资料中,x1与x2是与气象有关的综合预报因子。数据包括发生春旱的6个年份的x1,x2观测值和无春旱的8个年份的相应观测值(见下表)。表 某地区有无春旱的观测数据G1:有春旱G2:无春旱序号X1X2序号X1X2124.6-2.0122.1-0.7224.7-2.4221.6-1.4326.6-3.0322.0-0.8423.5-1.9422.8-1.6525.5-2.1522.7-1.5627.4-3.1621.5-1.0722.1-1.2821.4-1.3在假定条件下,建立距离判别函数并估计误判率;解:

11、经过计算判别函数为:利用回代法将总体G1(春旱)的第4号样品误判来自总体G2(无春旱)的样品,误判率为 利用交叉确认法,同样将总体G1(春旱)的第4号样品误判来自总体G2(无春旱)的样品,误判率为 例题2:我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点没种气体实测16次。计算每个取样点没种气体的平均浓度,数据见下表所示。气体数据对应得污染地区分类如表中最后一列所示。现有两个取自该地区的4个气体样本,气体指标如表中后4行所示,试判别这4个样品的污染分类。表 大气样品数据表气体氯硫化氢二氧化硫碳4

12、环氧氯丙烷环己烷污染分类10.0560.0840.0310.0380.00810.022120.0400.0550.1000.1100.02200.0073130.0500.0740.0410.0480.00710.020140.0450.0500.1100.1000.02500.0063150.0380.1300.0790.1700.05800.043260.0300.1100.0700.1600.05000.046270.0340.0950.0580.1600.2000.029180.0300.0900.0680.1800.2200.039190.0840.0660.0290.3200.0

13、120.0412100.0850.0760.0190.3000.0100.0402110.0640.0720.0200.2500.0280.0382120.0540.0650.0220.2800.0210.0402130.0480.0890.0620.2600.0380.0362140.0450.0920.0720.2000.0350.0322150.0690.0870.0270.0500.0890.0211样品10.0520.0840.0210.0370.00710.022样品20.0410.0550.1100.1100.02100.0073样品30.0300.1120.0720.1600.

14、0560.021样品40.0740.0830.1050.1900.0201.000Matlab函数介绍:函数名称:classify调用格式:class,err,=classify(sample,training,group,)说明:sample:待判样品; training:训练样本; group:分类变量。注意:sample与training具有相同的列数;group与training具有相同的行数。返回:class:样品的分类结果;err:误判率的估计。Matlab程序:training=0.056 0.084 0.031 0.038 0.0081 0.022;0.040 0.055 0.

15、100 0.110 0.0220 0.0073;0.050 0.074 0.041 0.048 0.0071 0.020;0.045 0.050 0.110 0.100 0.0250 0.0063;0.038 0.130 0.079 0.170 0.0580 0.043;0.030 0.110 0.070 0.160 0.0500 0.046;0.034 0.095 0.058 0.160 0.200 0.029;0.030 0.090 0.068 0.180 0.220 0.039;0.084 0.066 0.029 0.320 0.012 0.041;0.085 0.076 0.019 0

16、.300 0.010 0.040;0.064 0.072 0.020 0.250 0.028 0.038;0.054 0.065 0.022 0.280 0.021 0.040;0.048 0.089 0.062 0.260 0.038 0.036;0.045 0.092 0.072 0.200 0.035 0.032;0.069 0.087 0.027 0.050 0.089 0.021;group=1 1 1 1 2 2 1 1 2 2 2 2 2 2 1;sample=0.052 0.084 0.021 0.037 0.0071 0.022;0.041 0.055 0.110 0.110 0.0210 0.0073;0.030 0.112 0.072 0.160 0.056 0.021;0.074 0.083 0.105 0.190 0.020 1.000;class,err=classify(sample,training,group)class=1 1 2 2

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1