判别分析四种方法.docx-资源下载

判别分析四种方法.docx

1、判别分析四种方法第六章判别分析6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法，其应用之广可与回归分析媲美。在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中，根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型；在市场预测中，根据以往调查所得的种种指标，判别下季度产品是畅销、平常或滞销；在地质勘探中，根据岩石标本的多种特性来判别地层的地质年代，由采样分析出的多种成份来判别此地是有矿或无矿，是铜矿或铁矿等；在油田开发中，根据钻井的电测或化验数据，判别是否遇到油层、水层、干层或油水混合层；在农林害虫

2、预报中，根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常；在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等；在医疗诊断中，根据某人多种体验指标（如体温、血压、白血球等)来判别此人是有病还是无病。总之，在实际问题中需要判别的问题几乎到处可见。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型（或组别）并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类.对于聚类分析来说，一批给定样品要划分的类型事先并不知道，正需要通过聚类分析来给以确定类型的。正因为如此,判别分析和聚类分析往往联合起

3、来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类，当总体分类不清楚时，可先用聚类分析对原来的一批样品进行分类，然后再用判别分析建立判别式以对新样品进行判别。判别分析内容很丰富，方法很多。判别分析按判别的组数来区分，有两组判别分析和多组判别分析；按区分不同总体的所用的数学模型来分，有线性判别和非线性判别；按判别时所处理的变量方法不同，有逐步判别和序贯判别等。判别分析可以从不同角度提出的问题,因此有不同的判别准则，如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍四种常用的判别方法即距

4、离判别法、Fisher判别法、Bayes判别法和逐步判别法。6。2 距离判别法基本思想：首先根据已知分类的数据，分别计算各类的重心即分组（类）的均值，判别准则是对任给的一次观测,若它与第i类的重心距离最近，就认为它来自第i类.距离判别法,对各类（或总体)的分布，并无特定的要求。1 两个总体的距离判别法设有两个总体（或称两类）G1、G2，从第一个总体中抽取n1个样品，从第二个总体中抽取n2个样品，每个样品测量p个指标如下页表。今任取一个样品，实测指标值为，问X应判归为哪一类？首先计算X到G1、G2总体的距离，分别记为和,按距离最近准则判别归类,则可写成：G1总体： G2总体：变量样品变量样品

5、均值均值记如果距离定义采用欧氏距离，则可计算出然后比较和大小，按距离最近准则判别归类。由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。设、，、分别为G1、G2的均值向量和协方差矩阵。如果距离定义采用马氏距离即这时判别准则可分以下两种情况给出：（1）当时考察及的差,就有：令则判别准则可写成：当已知时，令则显然,W（X）是的线性函数，称W(X)为线性判别函数，a为判别系数.当未知时,可通过样本来估计.设来自Gi的样本，i=1，2。其中线性判别函数为：当p=1时，若两个总体的分布分别为和,判别函数,不妨设，这时W(X）的符号取决于或。当时，判；当时，判。我们看到用距

6、离判别所得到的准则是颇为合理的。但从下图又可以看出,用这个判别法有时也会得出错判。如X来自G1，但却落入D2，被判为属G2，错判的概率为图中阴影的面积，记为，类似有,显然=。当两总体靠得很近（即|小），则无论用何种办法，错判概率都很大，这时作判别分析是没有意义的。因此只有当两个总体的均值有显著差异时，作判别分析才有意义。（2）当时按距离最近准则，类似地有：仍然用作为判别函数，它是X的二次函数。2 多个总体的距离判别法类似两个总体的讨论推广到多个总体。设有k个总体G1，， Gk,它们的均值和协方差阵分别为，从每个总体Gi中抽取ni个样品，i=1,k,每个样品测p个指标.今任取一个样品，实测指标

7、值为，问X应判归为哪一类？G1总体: Gk总体：变量样品变量样品均值均值记向量（1）当时此时判别函数为：相应的判别准则为：当，未知时可用其估计量代替，设从Gi中抽取的样本为，则,的估计分别为其中为Gi的样本离差阵。（2）当不相等时此时判别函数为:相应的判别准则为：当未知时,可用的估计量代替,即例1 人文发展指数是联合国开发计划署于1990年5月发表的第一份人类发展报告中公布的。该报告建议，目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示指标分别要用出生时的预期寿命、成人识字率和实际人均GDP，将以上三个指示指标的数值合成为一个复合指数，即为人文发展指数.资料来源：U

8、NDP人类发展报告1995年。今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品，另选四个国家作为待判样品作距离判别分析。数据选自世界经济统计研究1996年第1期类别序号国家名称出生时的予期寿命（岁）x1成人识字率(）1992x2调正后人均GDP1992x3第一类（高发展水平国家）12345美国日本瑞士阿根廷阿联酋7679.57872。173.899999995。977。753745359537252425370第二类（中等发展水平国家)678910保加利亚古巴巴拉圭格鲁吉亚南非71。275。37072。862。99394.991。29980.6

9、42503412339023003799待判样品11121314中国罗马尼亚希腊哥伦比亚68.569.977.669。379。396。993。890.31950284052335158本例中变量个数p=3，两类总体各有5个样品,即，有4个待判样品,假定两总体协差阵相等。两组线性判别的计算过程如下：（2）计算样本协差阵，从而求出类似地经计算（3）求线性判别函数W(X）解线性方程组得（4）对已知类别的样品判别分类对已知类别的样品（通常称为训练样品）用线性判别函数进行判别归类，结果如下,全部判对。样品号判别函数W（X）的值原类号判归类别1234510。545112.697211。83236.81

10、18。815311111111116789102.47167。089810。784218.3788-11。97422222222222（5对判别效果作检验判别分析是假设两组样品取自不同总体，如果两个总体的均值向量在统计上差异不显著，作判别分析意义就不大。所谓判别效果的检验就是检验两个正态总体的均值向量是否相等，根据第三章3.1可知检验的统计量为：其中将上边计算结果代入统计量后可得：故在检验水平下，两总体间差异显著,即判别函数有效。（6)对待判样品判别归类结果如下表：样品号国家判别函数W(X)的值判别类别11121314中国罗马尼亚希腊哥伦比亚24。4789915.5813510。294

11、434。182892211简短分析:回代率为百分之百，这与统计资料的结果相符，而待判的四个样品的判别结果表明：中国、罗马尼亚为中等发展水平国家即第二类，希腊、哥伦比亚为高发展水平国家即第一类,这是符合当时实际的,即与当时世界各国人文发展指数的水平相吻合。例2 对全国30个省市自治区1994年影响各地区经济增长差异的制度变量：x1经济增长率（）、x2非国有化水平（%）、x3开放度（%）、x4市场化程度（）作判别分析。资料来源：经济理论与经济管理1998年第1期类别序号地区x1x2x3x4第一组1辽宁11。257。2513.4773.412河北14。967。197。8973.093天津14。364

12、.7419。4172。334北京13.555.6320。5977.335山东16.275.5111.0672.086上海14.357.6322。5177.357浙江2083。9415。9989.58福建21。868。0339.4271.99广东1978。3183.0380。7510广西1657.1112.5760.9111海南11。949.9730.769。2第二组12黑龙江8.730.7215.4160。2513吉林14.337.6512.9566.4214内蒙古10.134.637。6862.9615山西9。156。3310。366.0116河南13.865.234.6964.2417湖北

13、15.355.626。0654.7418湖南1155.558。0267。4719江西1862.886。458.8320甘肃10.430.014.6160.2621宁夏8。229。286.1150。7122四川11。462.885.3161.4923云南11.628。579.0868。4724贵州8.430.236。0355。5525青海8.215.968.0440.2626新疆10.924.758。3446.0127西藏15.621。4428.6246。01待判样品28江苏16.580.058.8173。0429安徽20.681.245.3760。4330陕西8.642.068。8856.37

14、（1）两类地区各变量的均值（2）计算样本协差阵，从而求出和(3）求线性判别函数解线性方程组得经计算（4)对已知类别的样品回判由于为第一组,为第二组。样品序号W（X) 原类号回归组别10.9801571121。5031031131。8850841141。2728981152。0553511162。6450241176.2970841184。1458541198。4611641110-0。6665912111。05524311122.7251422130。753782214-2。3634622150。8321622160。483752217-2。3095322180。502152219-0。896

15、6322203。1934322215.1050722221。3462722231.379982224-4.187442225-7。423092226-5。6503722273.952322上述回判结果表明，第一组中只有第10个样品判组号为2，与原组号不同，其余样品与原分组号相同;第二组中的各样品回判组号都是2，即与原组号完全相同.我们仔细研究第10号样品广西的指标数据，可以看到它有可能是属于原分组时的错分样品。总的回代判对率达96。3。（5)对待判样品判别归类,结果如下：样品序号W（X）判归类别282.3278251290.4751731303。318292待判样品中江苏和安徽被判属第一组，陕

16、西被判属第二组，这与实际情况较吻合。6.3 费歇（Fisher）判别法Fisher判别法是1936年提出来的，该法对总体的分布并未提出什么特定的要求.1 不等协差阵的两总体Fisher判别法（1）基本思想：从两个总体中抽取具有p个指标的样品观测数据，借助方差分析的思想造一个判别函数或称判别式：，其中系数、确定的原则是使两组间的区别最大,而使每个组内部的离差最小.有了判别式后,对于一个新的样品，将它的p个指标值代入判别式中求出y值,然后与判别临界值（或称分界点后面给出）进行比较，就可以判别它应属于哪一个总体。（2)判别函数的导出假设有两个总体G1、G2，从第一个总体中抽取n1个样品，从第二个总体

17、中抽取n2个样品，每个样品观测p个指标，列表如下:G1总体： G2总体：变量样品变量样品均值均值假设新建立的判别式为，今将属于不同两总体的样品观测值代入判别式中去，则得：对上边两式分别左右相加，再乘以相应的样品个数，则有: 第一组样品的“重心” 第二组样品的“重心”为了使判别函数能够很好地区别来自不同总体的样品，自然希望：i）来自不同总体的两个平均值相差愈大愈好。ii）对于来自第一个总体的要求它们的离差平方和愈小愈好，同样也要求愈小愈好。综合以上两点,就是要求: 愈大愈好.记为两组间离差。为两组内的离差.则利用微积分求极值的必要条件可求出使I达到最大值的.为此将上式两边取对数：令则即

18、而其中而其中从而即令是常数因子,不依赖于k,它对方程组的解只起到共同扩大倍的作用，不影响它的解之间的相对比例关系。对判别结果来说没有影响,所以取=1，于是方程组：即写成矩阵形式为：所以值得说明的是：本书有几处利用极值原理求极值时,只给出必要条件的数学推导，而有关充分条件的论证省略了，因为在通常遇到的实际问题中,根据问题本身的性质就能肯定有最大值（或最小值），如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值（或最小值),为了避免用到较多的数学知识或数学上的推导，这里不追求数学上的完整性。有了判别函数之后，欲建立

19、判别准则还要确定判别临界值（分界点）y0，在两总体先验概率相等的假设下,一般常取y0为与的加权平均值即如果由原始数据求得与满足，则建立判别准则为:对一个新样品代入判别函数中去所得值记为y，若yy0，则判定（见图一)；若yy0，则判定.如果,则建立判别准则为:若yy0，则判定（见图二）；若yy0,则判定（注：为直观起见，给出两个正态总体等方差情况下的图形）。(3）计算步骤i)建立判别函数图一图二求的最大值点，根据极值原理，需解方程组可得到,写出判别函数。ii)计算判别临界值，然后根据判别准则对新样品判别分类.iii)检验判别效果（当两个总体协差阵相同且总体服从正态分布）。检验统计量：其中给定检

20、验水平a，查F分布表,确定临界值，若，则被否定，认为判别有效.否则认为判别无效。值得指出的是：参与构造判别式的样品个数不宜太少，否则会影响判别式的优良性；其次判别式选用的指标不宜过多，指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标，要使两类平均值之间的差异尽量大些。例1 利用距离判别法中例1的人文发展指数的数据作Fisher判别分析.（1）建立判别函数利用前例计算的结果,可得Fisher判别函数的系数、为所以判别函数为（2)计算判别临界值y0由于所以 (3)判别准则判别准则为(4）对已知类别的样品判别归类序号国家判别函数y的值原类号

21、判归类别1美国12.2122112日本12.4812113瑞士12。3731114阿根廷11。7450115阿联酋11.9960116保加利亚10.5851227古巴10。0078228巴拉圭9.5460229格鲁吉亚8.59682210南非9。397322上述回判结果表明：总的回代判对率为100，这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。(5）对判别效果作检验由于所以在检验水平下判别有效。（6）待判样品判别结果如下:序号国家判别函数y的值判属类别11中国7。8342212罗马尼亚8.9464213希腊12.1809114哥伦比亚11.41691判别结果与实

22、际情况吻合。例2 用距离判别法中例2的制度变量对30个省市自治区作Fisher判别分析。（1）建立判别式经计算得：判别式为（2）求判别临界值y0，对所给样品判别分类由于，当样品代入判别工后，若,则判为第一组；若，则判为第二组.回判结果如下：样品序号y值原类号回判组别10.7108141120。7317311130.7470111140.7225231150。7538211160。7774081170.9234911180。8374411191。01005411100.64494412110.71381711120。56260222130.64145622140。57706922150。6383

23、2122160。65225721170。57922622180。65152122190.636574222200.5438722210.46740522220。61775722230.61640822240。5041122250.37468422260.44559322270。51351522等判样品判别结果样品序号y值判属组号280。764721290。6906141300.5388753上述回判结果表明，第一组的第10号仍被回判为第2组，说明第10号样品确为误分。而第二组的第16号被回判为第一组，仔细研究其指标，发现其数据介于第1组和第2组之间，差别不显著造成的.总的回代判对率为25/27

24、=92.59。关于待判的三个样品的判别结果与用距离判别法的相同，说明其判别结果是比较好的。2 多总体Fisher判别法类似两总体Fisher判别法可给出多总体Fisher判别法。设有k个总体G1, ， Gk,抽取样品数分别为，令。为第i个总体的第a个样品的观测向量。假定所建立的判别函数为其中记和分别是总体内x的样本均值向量和样本协差阵,根据求随机变量线性组合的均值和方差的性质可知，在上的样本均值和样本方差为记为总的均值向量，则。在多总体情况下，Fisher准则就是要选取系数向量c,使达到最大，其中是人为的正的加权系数，它可以取为先验概率。如果取，并将代入上式可化为：其中E为组内离差阵，A为总体之间样本协差阵，即为求的最大值，根据极值存在的必要条件，令，利用对向量求导的公式:因此这说明及c恰好是A、E矩阵的广义特征根及其对应的特征向量。由于一般都要求加权协差阵E是正定的，因此由代数知识可知，上式非零特征根个数m不超过min（k1,p），又因为A为非负定的，所以非零特征根必为正根，记为，于是可构造m个判别函数：对于每一个判别函数必须给出一个用以衡量判别能力的指标定义为:m0个判别函数的判别能力定义为：如果m0达到某个人定的值（比如85%）则就认为m0个判别函数就够了。有了判别函数之后，如何对待判的样品进行分类？Fish

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？