判别分析 ppt课件.ppt
《判别分析 ppt课件.ppt》由会员分享,可在线阅读,更多相关《判别分析 ppt课件.ppt(170页珍藏版)》请在冰豆网上搜索。
![判别分析 ppt课件.ppt](https://file1.bdocx.com/fileroot1/2022-10/4/17a3155e-285f-464f-bf63-85b6bd242eff/17a3155e-285f-464f-bf63-85b6bd242eff1.gif)
第十一章,判别分析,2022/10/14,2,目录上页下页返回结束,回归模型普及性的基础在于用它去预测和解释度量(metric)变量。
但是对于非度量(nonmetric)变量,多元回归不适合解决此类问题。
本章介绍的判别分析来解决被解释变量是非度量变量的情形。
在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。
判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。
在每种情况下,将对象进行分组,并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。
判别分析的基本思想,判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法分成若干类的情况下,确定样品所属类别的方法。
例如,在医疗诊断中,医生根据体温,脉搏,心率,白血球等多种指标,来判别此人患哪种病。
判别分析的特点,根据已掌握的,历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则,然后,当遇到新样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属类别。
Discriminantanalysis,Fisher判别法距离判别法Bayes判别法逐步判别法,训练样本训练集,检测样本检测集,判别准则,判别效率,学习,检测,评价,判别分析的分类,按判别准则的不同:
距离判别贝叶斯判别费希尔判别,在判别分析中,需要解决的问题,判别准则和判别函数的确立。
判别准则用于衡量样品与各已知组别的接近程度。
常用的有距离准则,费希尔准则,贝叶斯准则。
判别函数是基于一定判别准则计算出的用于衡量样品与各已知组别的接近程度的函数式或描述指标。
判别分析法的基本要求:
分组类型在两组以上第一阶段时每组的元素规模必须在一个以上解释变量必须是可测量的。
判别分析的假设前提:
判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。
即不存在多重共线性问题。
判别分析的假设之二,是各组变量的协方差矩阵相等。
判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。
在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
在这种条件下可以精确计算显著性检验值和分组归属的概率。
当违背该假设时,计算的概率将非常不准确。
第八章,第一节,机动目录上页下页返回结束,距离判别,距离判别的最直观的想法是计算样品到第i类总体的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
马氏距离的定义:
设总体G为m元总体(考察m个指标),均值向量为,协方差阵为,则样品,
(二)两个总体距离判别法,先考虑两个总体的情况,设有两个协差阵相同的m维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来指定判别规则,有:
1、协方差阵相等,则前面的判别法则表示为,当和已知时,是一个已知的m维向量,W(y)是y的线性函数,称为线性判别函数。
称为判别系数。
用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。
例在企业的考核种,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。
考核企业经营状况的指标有:
资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。
现有二个企业,观测值分别为:
(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?
线性判别函数:
2、当总体的协方差已知,且不相等,当总体的方差未知时,应该用样本的协方差矩阵代替。
步骤如下(假如两个总体):
(1)分别计算各组的离差矩阵S1和S2;
(2)计算(3)计算类的均值(4)计算(5)计算(6)生成判别函数,将检验样本代入,得分,判类。
随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为:
设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i=,又设Y是一个待判样品。
则与的距离为(即判别函数),(三)多总体的距离判别法,上式中的第一项Y-1Y与i无关,则舍去,得一个等价的函数,将上式中提-2,得,则距离判别法的判别函数为:
判别规则为,注:
这与前面所提出的距离判别是等价的.,24,距离判别,目录上页下页返回结束,25,目录上页下页返回结束,2.协差阵不相同。
2022/10/14,中国人民大学六西格玛质量管理研究中心,26,目录上页下页返回结束,(四)对判别效果做出检验,由上面的分析可以看出,马氏距离判别法是合理的,但是这并不意谓着不会发生误判。
(四)对判别效果做出检验1、错判概率,1、错判概率,第八章,第二节,机动目录上页下页返回结束,贝叶斯判别法,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。
距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。
贝叶斯判别法正是为了解决这两个问题提出的判别分析方法。
办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。
按人们主观意识,一个人是好人或坏人的概率均为0.5。
坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。
一、标准的Bayes判别,距离判别简单直观,很实用,但是距离判别的方法把总体等同看待,没有考虑到总体会以不同的概率(先验概率)出现,也没有考虑误判之后所造成的损失的差异。
一个好的判别方法,既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。
贝叶斯公式是一个我们熟知的公式,设有总体,具有概率密度函数。
并且根据以往的统计分析,知道出现的概率为。
即当样本发生时,求他属于某类的概率。
由贝叶斯公式计算后验概率,有:
判别规则,则判给。
在正态的假定下,为正态分布的密度函数。
则判给。
上式两边取对数并去掉与i无关的项,则等价的判别函数为:
下面讨论总体服从正态分布的情形,问题转化为若,则判。
则判别函数退化为,令,问题转化为若,则判。
完全成为距离判别法。
令,有,问题转化为若,则判。
当先验概率相等,,二、考虑错判损失的Bayes判别分析,设有总体,具有概率密度函数。
并且根据以往的统计分析,知道出现的概率为。
又D1,D2,Dk是R(p)的一个分划,判别法则为:
当样品X落入Di,时,,这个分划应该使平均损失最小。
【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。
C(j/i)表示相应错判所造成的损失。
则平均错判损失为:
使ECM最小的分划,是Bayes判别分析的解。
若总体G1,G2,Gk的先验概率为且相应的密度函数为,损失为时,则划分的Bayes解为其中它表示把样品X判归的平均损失。
含义是:
当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。
第八章,第三节,机动目录上页下页返回结束,费希尔判别,Discriminantanalysis,Fisher线性判别法,Fisher判别的基本思想将m组n维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。
平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线L),x1,x2,L:
c1x1+c2x2c=0,令:
F(x1,x2)=c1x1+c2x2F(x1,x2):
判别函数c:
判别值,G1,G2,Fisher线性判别法,一、两个总体的费歇(Fisher)判别法,X不能使总体单位尽可能分开的方向,u能使总体单位尽可能分开的方向,旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,Discriminantanalysis,已知:
数据属性有n个,每个数据点为n维向量X:
已知总体数据分为两类:
G1和G2,总体G1有p个样本点,总体G2有q个样本点。
目标:
求解在n维空间中总体G1和总体G2的最优分界平面。
(一)费歇判别的基本思想,从距离判别法,我们已经看到判别规则是一个线性函数,由于线性判别函数使用简便,因此我们希望能在更一般的情况下,建立一种线性判别函数。
Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,Fisher在1936年提出。
该判别方法对总体的分布不做任何要求。
从两个总体中抽取具有P个指标的样品观测数据,借助于方差分析的思想构造一个线性判别函数.,Discriminantanalysis,定义线性判别函数为:
其中Ci(i=1,2,n)为常数(待定系数)。
若判别值为C,对于任何未知数据点X(x1,x2,xn),代入判别函数,依据F(x1,x2,xn)与C值的比较,可以判别点X属于哪一类。
1、确定待定系数Ci(i=1,2,n)2、确定判别值C,Discriminantanalysis,将类G1的p个点、类G2的q个点分别代入判别函数:
其中,,确定待定系数Ci,Discriminantanalysis,令:
A与G1和G2两类点的几何中心的距离相关。
显然,判别函数F(x1,x2,xn)应该使A值越大越好。
令:
B与G1和G2两类点的相对于各自几何中心的离差相关。
显然,判别函数F(x1,x2,xn)应该使B值越小越好。
Discriminantanalysis,构造函数I:
选择合适的待定系数Ci(i=1,2,n),使得函数I(C1,C2,Cn)达到极大值。
Discriminantanalysis,Discriminantanalysis,Discriminantanalysis,消去非零的因子,得到求解待定系数(C1,C2,Cn)的线性方程组:
Discriminantanalysis,确定判别值C,判别函数已知,不妨写成:
将G1的p个点、G2的q个点分别代入判别函数:
对G1、G2的(p+q)个点的判别函数值取总体的平均值:
显然,值是两类点的判别函数值的加权平均,处于两类判别函数平均值之间,也等价于两类点的总体几何中心的判别函数值。
因此,将判别值C取为值:
Discriminantanalysis,Fisher线性判别的基本步骤,问题已知数据样本点分为两类:
G1和G2,G1有p个点,G2有q个点。
求出判别函数F(x1,x2,xn)和判别值C。
对于任何未知数据点X(x1,x2,xn),依据F(x1,x2,xn)与C值的比较,判别点X属于哪一类。
Discriminantanalysis,STEP1,先对样本点数据Xi
(1)(xi1
(1),xi2
(1),xin
(1)(i=1,p)、Xi
(2)(xi1
(2),xi2
(2),xin
(2)(i=1,q)分别计算以下求和以及平均值:
Discriminantanalysis,STEP2,计算di和Sij,注意对称性Sij=Sji:
Discriminantanalysis,STEP3,解线性代数方程组:
若方程有解,得到判别函数F:
Discriminantanalysis,STEP4,将平均值代入判别函数,然后计算判别值C:
Dis