判别分析及MATLAB应用.docx

上传人:b****2 文档编号:20393389 上传时间:2023-04-25 格式:DOCX 页数:12 大小:146.61KB
下载 相关 举报
判别分析及MATLAB应用.docx_第1页
第1页 / 共12页
判别分析及MATLAB应用.docx_第2页
第2页 / 共12页
判别分析及MATLAB应用.docx_第3页
第3页 / 共12页
判别分析及MATLAB应用.docx_第4页
第4页 / 共12页
判别分析及MATLAB应用.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

判别分析及MATLAB应用.docx

《判别分析及MATLAB应用.docx》由会员分享,可在线阅读,更多相关《判别分析及MATLAB应用.docx(12页珍藏版)》请在冰豆网上搜索。

判别分析及MATLAB应用.docx

判别分析及MATLAB应用

判别分析

类型:

判断样品属于已知类型中哪一类。

判别分析模型:

设有k个总体G1,G2,…,Gk,它们都是p元总体,其数量指标是

设总体Gi的分布函数是Fi(x)=Fi(x1,x2,…,xp),i=1,2,…,k,通常是连续型总体,即Gi具有概率密度fi(x)=fi(x1,x2,…,xp)。

对于任一新样品数据x=(x1,x2,…,xp)T,要判断它来自哪一个总体Gi。

通常各个总体Gi的分布是未知的,它需要由各总体Gi取得的样本数据资料来估计。

一般,先要估计各个总体的均值向量与协方差矩阵。

从每个总体Gi取得的样本叫训练样本。

判别分析从各训练样本中的提取各总体的信息,构造一定的判别准则,判断新样品属于哪个总体。

从统计学的角度,要求判别准则在某种准则下是最优的,例如错判的概率最小或错判的损失最小等。

由于判别准则的不同,有各种不同的判别分析方法:

距离判别、Bayes判别和Fisher判别等。

一、距离判别

1.两个总体的距离判别

1.1距离定义

马氏平方距离:

设x,y是从均值向量为

、协方差矩阵为

的总体G中抽取的两个样品,马氏距离定义为:

(1)

1.2双总体的判别规则

设G1,G2为两个不同的p元已知总体,Gi的均值向量是

Gi的协方差矩阵是

是一个待判样品,距离判别准则为

(2)

即当x到G1的马氏距离不超过到G2的马氏距离时,判x来自G1;反之,判x来自G2。

1.3两个矩阵协方差矩阵相等的情况

1.3.1已知

(3)

其中

,则

(4)

距离判别简化为

(5)

1.3.1未知

数据资料来自两个总体的训练样本,每个样品皆是p元向量。

总体G1的训练样本:

,容量:

n1;

总体G2的训练样本:

,容量:

n2;

要以训练样本估计

,其估计量分别为

(6)

其中S1,S2为两个训练样本的协方差矩阵。

距离判别规则为:

(7)

其中

1.4两个总体协方差矩阵不相等的情况

1.4.1已知

(8)

距离判别规则如下:

(9)

1.4.2未知

数据资料来自两个总体的训练样本,每个样品皆是p元向量。

要以训练样本估计

,然后用估计值进行判断。

1.5判别准则的评价

当一个判别准则提出以后,还要研究其优良性。

考察一个判别准则的优良性,要考察误判概率,即考察x属于G1而误判为属于G2,或x属于G2而误判为属于G1的概率。

下面介绍一训练样本为基础的用回代方法估计误判率的方法。

1.5.1误差率回代估计法

将全体训练样本作为新样品,逐个回代已建立的判别准则中判别归属,这个过程称为回判,回判结果如下:

回判情况

实际归类

G1

G2

G1

n11

n12

G2

n21

n22

误判率的回代估计为:

(10)

它常常比真实误判率小,但可以作为真实误判率的一种估计。

1.5.2误判率的交叉确认估计

误判率的交叉确认估计是每次剔出训练样本中的一个样品,利用其余容量为n1+n2-1的训练样本建立判别准则,再用建立的判别准则对删除的那个样品作判别。

对训练样本中的每个样品作上述分析,以其误判的比例作为误判率的估计。

具体步骤如下:

1)从总体G1的容量为n1的训练样本开始,剔除其中的一个样品,用剩余的容量为n1-1的训练样本和总体G2的训练样本建立判别函数;

2)用建立的判别函数对删除的那个样品做判别;

3)重复步骤1)、2),直到G1的训练样本中的n1个样品一次被删除,又进行判别。

其误判样品个数记为n12;

4)对总体G2的训练样本重复步骤1)、2)、3),并记其误判样品个数为n21。

误判率的交叉确认估计为:

(11)

1.6多总体的距离判别

设有k个总体G1,G2,…,Gk,均值向量分别为

协方差矩阵分别为

,类似两总体的距离判别方法,计算新样品x到各总体的马氏距离,比较这k个距离,判定x属于其马氏距离最短的总体。

若最短距离在不只一个总体达到,则可将x判归具有最短距离总体的任一个。

当总体的均值向量和协方差矩阵未知时,使用训练样本作估计。

也可以与两总体相同的方式作误判率的回代估计与交叉确认估计。

二、Bayes判别

2.1Bayes判别的基本思想

Bayes统计是现代统计学的重要分支,其基本思想是:

假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后给予抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。

将Bayes统计的思想用于判别分析,就得到Bayes判别。

设G1,G2,…,Gk为k个p元总体,分别具有概率密度

在进行判别分析以前,我们已对各总体有一定的了解。

一般说来,一个待判样品应该首先考虑判入有较大可能出现的总体之中。

在Bayes判别中,开应该考虑误判引起的损失。

2.2两个总体的Bayes判别

2.2.1一般讨论

考虑两个p元总体G1和G2,它们分别具有概率密度f1(x),f2(x),G1和G2出现的先验概率为p1和p2,且p1+p2=1。

对于p元指标x=(x1,x2,…,xp)T来自Rp。

一个判别法则实质上是对Rp的一个划分,记为R1和R2,并满足下列条件:

(12)

一个划分R=(R1,R2)相当于一个判别准则R。

在判别准则R下将来自G1的样品误判为G2的概率是

(13)

而将来自G2的样品误判为G1的概率为

(14)

设将G1误判为G2造成的损失是c(2|1),而将G2误判为G1在造成的损失是c(1|2)。

Bayes判别即寻求R=(R1,R2),使平均误判损失达到最小。

下面总假定c(1|1)=c(2|2)=0。

情况1:

c(1|2)=c(2|1)

当得到新样品x后,由Bayes公式得总体G1,G2的后验概率是

(15)

两总体Bayes判别的一个最优划分是

(16)

此时的Bayes判别法则:

(17)

最优划分R使得平均误判概率

(18)

达到最小。

情况2:

c(1|2)≠c(2|1)

关于先验分布p1、p2,误判所造成的平均损失为:

(19)

Bayes判别(即使L达到最小)的最优划分为:

(20)

此时的Bayes判别法则:

(21)

2.2.2两个正态总体的Bayes判别

需分c(1|2)和c(2|1)相等与否,两个总体的协方差矩阵相等与否分别讨论。

(详细参见:

范金城,梅长林编著.数据分析:

P174-177.北京:

科学出版社,2002.)

2.2.3误判率的计算

(参见:

范金城,梅长林编著.数据分析:

P177-182.北京:

科学出版社,2002.)

2.3多个总体的Bayes判别

(参见:

范金城,梅长林编著.数据分析:

P182-187.北京:

科学出版社,2002.)

判别分析课堂例题

例题1:

某气象站预报某地区有无春旱的观测资料中,x1与x2是与气象有关的综合预报因子。

数据包括发生春旱的6个年份的x1,x2观测值和无春旱的8个年份的相应观测值(见下表)。

表某地区有无春旱的观测数据

G1:

有春旱

G2:

无春旱

序号

X1

X2

序号

X1

X2

1

24.6

-2.0

1

22.1

-0.7

2

24.7

-2.4

2

21.6

-1.4

3

26.6

-3.0

3

22.0

-0.8

4

23.5

-1.9

4

22.8

-1.6

5

25.5

-2.1

5

22.7

-1.5

6

27.4

-3.1

6

21.5

-1.0

7

22.1

-1.2

8

21.4

-1.3

在假定

条件下,建立距离判别函数并估计误判率;

解:

经过计算

判别函数为:

利用回代法将总体G1(春旱)的第4号样品误判来自总体G2(无春旱)的样品,误判率为

利用交叉确认法,同样将总体G1(春旱)的第4号样品误判来自总体G2(无春旱)的样品,误判率为

例题2:

我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点没种气体实测16次。

计算每个取样点没种气体的平均浓度,数据见下表所示。

气体数据对应得污染地区分类如表中最后一列所示。

现有两个取自该地区的4个气体样本,气体指标如表中后4行所示,试判别这4个样品的污染分类。

表大气样品数据表

气体

硫化氢

二氧化硫

碳4

环氧氯丙烷

环己烷

污染分类

1

0.056

0.084

0.031

0.038

0.0081

0.022

1

2

0.040

0.055

0.100

0.110

0.0220

0.0073

1

3

0.050

0.074

0.041

0.048

0.0071

0.020

1

4

0.045

0.050

0.110

0.100

0.0250

0.0063

1

5

0.038

0.130

0.079

0.170

0.0580

0.043

2

6

0.030

0.110

0.070

0.160

0.0500

0.046

2

7

0.034

0.095

0.058

0.160

0.200

0.029

1

8

0.030

0.090

0.068

0.180

0.220

0.039

1

9

0.084

0.066

0.029

0.320

0.012

0.041

2

10

0.085

0.076

0.019

0.300

0.010

0.040

2

11

0.064

0.072

0.020

0.250

0.028

0.038

2

12

0.054

0.065

0.022

0.280

0.021

0.040

2

13

0.048

0.089

0.062

0.260

0.038

0.036

2

14

0.045

0.092

0.072

0.200

0.035

0.032

2

15

0.069

0.087

0.027

0.050

0.089

0.021

1

样品1

0.052

0.084

0.021

0.037

0.0071

0.022

样品2

0.041

0.055

0.110

0.110

0.0210

0.0073

样品3

0.030

0.112

0.072

0.160

0.056

0.021

样品4

0.074

0.083

0.105

0.190

0.020

1.000

Matlab函数介绍:

函数名称:

classify

调用格式:

[class,err,…]=classify(sample,training,group,…)

说明:

sample:

待判样品;

training:

训练样本;

group:

分类变量。

注意:

sample与training具有相同的列数;

group与training具有相同的行数。

返回:

class:

样品的分类结果;err:

误判率的估计。

Matlab程序:

training=[0.0560.0840.0310.0380.00810.022;

0.0400.0550.1000.1100.02200.0073;

0.0500.0740.0410.0480.00710.020;

0.0450.0500.1100.1000.02500.0063;

0.0380.1300.0790.1700.05800.043;

0.0300.1100.0700.1600.05000.046;

0.0340.0950.0580.1600.2000.029;

0.0300.0900.0680.1800.2200.039;

0.0840.0660.0290.3200.0120.041;

0.0850.0760.0190.3000.0100.040;

0.0640.0720.0200.2500.0280.038;

0.0540.0650.0220.2800.0210.040;

0.0480.0890.0620.2600.0380.036;

0.0450.0920.0720.2000.0350.032;

0.0690.0870.0270.0500.0890.021];

group=[111122112222221]';

sample=[0.0520.0840.0210.0370.00710.022;

0.0410.0550.1100.1100.02100.0073;

0.0300.1120.0720.1600.0560.021;

0.0740.0830.1050.1900.0201.000];

[class,err]=classify(sample,training,group)

class=[1122]

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1