1、待判样品X属于哪一类?判别方法是,先由贝叶斯准则计算待判样品来判别方法是,先由贝叶斯准则计算待判样品来自自 个总体的条件概率(也称后验概率)为个总体的条件概率(也称后验概率)为 (4.18)式中,式中,归入第归入第 总体的先验概率,时总体的先验概率,时为。为。未知4.3.1 贝叶斯准则贝叶斯准则问题:对于诸总体,显然分母(全概率)都是相同的,因此只要比较式分子的大小,即可判断条件概率的大小,进而对待判样品作出归类。则X属于第t个总体。4.3.1 贝叶斯准则贝叶斯准则 不妨设不妨设 ,则待判,则待判样品就归入第类总体样品就归入第类总体。因此式(因此式(4.19)称为判别函数,按照条件概率)称为判
2、别函数,按照条件概率最大进行归类的准则,称为最大进行归类的准则,称为贝叶斯判别准则贝叶斯判别准则。在式(在式(4.19)中,为了给出判别函数)中,为了给出判别函数 的具体表达式,下面以服从多元正态分布情的具体表达式,下面以服从多元正态分布情况来讨论。况来讨论。设设 是第类总体第是第类总体第 个样品第个样品第 个变量的个变量的观测值,且各总体样品都是相互独立的正态随观测值,且各总体样品都是相互独立的正态随机向量,即机向量,即4.3.1 判别函数判别函数在该假设条件下,由于均未知,为此在该假设条件下,由于均未知,为此我们可根据第总体的样品数据,计算出总体的我们可根据第总体的样品数据,计算出总体的样
3、本均值及总体样本的协方差矩阵,用样本均值及总体样本的协方差矩阵,用作为总体的估计。由统计理论知,作为总体的估计。由统计理论知,式中,式中,第第 类总体样品均值向量。类总体样品均值向量。总体第总体第 个变量均值个变量均值 ()4.3.1 判别函数判别函数 称为称为 总体组内方差总体组内方差协方差矩阵,式中,协方差矩阵,式中,此时,此时,均为已知,均为已知,总体的密度函数可表总体的密度函数可表为为4.3.1 判别函数判别函数 这里,这里,为矩阵为矩阵 的逆矩阵的行列式。上式表的逆矩阵的行列式。上式表明明 是一个具体已确定的函数。下面的问题是一个具体已确定的函数。下面的问题是要确定式是要确定式(4.
4、19)中的先验概率中的先验概率 ,对于,对于的确定,实际应用中常用其频率来估计,即的确定,实际应用中常用其频率来估计,即 。由此式。由此式(4.19)完全确定,于是完全确定,于是可以进行判别归类,为了计算方便,我们对式可以进行判别归类,为了计算方便,我们对式(4.19)进行化简,即对式进行化简,即对式(4.19)取对数,取对数,4.3.1 判别函数判别函数对式中的同类项合并,去掉与分组无关的项。对式中的同类项合并,去掉与分组无关的项。并令并令故上式可写成故上式可写成 (4.20)令令4.3.1 判别函数判别函数式中,式中,这里这里 为矩阵为矩阵 中的元素。于是最终得化简后中的元素。于是最终得化
5、简后的的 类总体的判别函数为类总体的判别函数为 ()(4.214.21)4.3.1 判别函数判别函数4.3.2 4.3.2 判别效果的检验判别效果的检验 建立建立 个总体的判别函数后,这些判别函数的个总体的判别函数后,这些判别函数的判别效果如何需要检验。在实际应用中,可将已判别效果如何需要检验。在实际应用中,可将已知类别的样品代入判别函数进行回判。如果判对知类别的样品代入判别函数进行回判。如果判对率在率在75以上,则认为判别函数有效,其常用的以上,则认为判别函数有效,其常用的公式为公式为 此外,还可采用统计方法对判别函数效果进行此外,还可采用统计方法对判别函数效果进行检验。检验。对于判别函数的
6、显著检验,我们可用马氏距对于判别函数的显著检验,我们可用马氏距离来检验总体间差异是否显著。若总体间差异不离来检验总体间差异是否显著。若总体间差异不显著,显然建立在各总体基础之上的判别函数用显著,显然建立在各总体基础之上的判别函数用于归类其结果就不可靠。马氏距离的计算公式如于归类其结果就不可靠。马氏距离的计算公式如下:下:(4.22)应用统计量应用统计量 对于给定水平对于给定水平 查查 分布表得其临界值分布表得其临界值 。如果求得的如果求得的 ,则说明,则说明 总体与总体与 总总体间差异显著,两总体的判别函数效果明显,体间差异显著,两总体的判别函数效果明显,否则为不显著。否则为不显著。4.3.3
7、 4.3.3 待判样品的归类待判样品的归类 在建立了总体的判别函数且通过对各总体的在建立了总体的判别函数且通过对各总体的判别函数显著性检验后,若判别函数效果明显,判别函数显著性检验后,若判别函数效果明显,我们就可用其进行归类识别,其方法是将待判我们就可用其进行归类识别,其方法是将待判样品样品 代入判别函数式(代入判别函数式(4.21),),计算它归入每个类的判别函数计算它归入每个类的判别函数 值值(),然后选出),然后选出则将则将 就归入第就归入第 类。类。实际应用中,常常还需要知道待判样品实际应用中,常常还需要知道待判样品 归归入第几类的概率,可以用下式计算:入第几类的概率,可以用下式计算:
8、(4.23)对式(对式(4.23)两边取对数,并注意到:在式)两边取对数,并注意到:在式(4.23)中的分子、分母用它的反对数代替,)中的分子、分母用它的反对数代替,并不影响归类效果,故式(并不影响归类效果,故式(4.23)可表为)可表为 计算时为避免产生计算计算时为避免产生计算“溢出溢出”现象,上式可改现象,上式可改为为 (4.24)用计算出的概率大小判别样品用计算出的概率大小判别样品 的归属,只要的归属,只要选中的最大的那个相应的类即可选中的最大的那个相应的类即可。4.3.4 4.3.4 线性判别分析计算程序线性判别分析计算程序n程序说明程序说明n1ff1dataMatlabdatafil
9、e(Mat文文件件),存存放放原原始始数数据据矩矩阵阵trainingmn、向向量量group1n和和待检测矩阵待检测矩阵sample;n2class=classify(sample,training,group)线性判别分析函数线性判别分析函数 (1)classclassify(sample,training,group)指指 定定 sample数数 据据 的的 每每 的的 每每 一一 行行 到到 训训 练练 集集training指指定定的的一一个个类类中中。sample和和training必必须具有相同的列数。须具有相同的列数。(2)group向量包含从向量包含从1到组数的正整数,它到组数
10、的正整数,它n指指明明训训练练集集中中的的每每一一行行属属于于哪哪一一个个类类。group和和training必须具有相同的行数。必须具有相同的行数。n(3)返返回回class,它它是是一一个个与与sample具具有有相相同同行行数数的的向向量量。class的的每每一一个个元元素素指指定定sample中中对对应应元元素素的的分分类类。通通过过计计算算sample与与training中中每每一一行行的的马马氏氏距距离离,classify函函数数决决定定sample中的每一个行属于哪一个分类。中的每一个行属于哪一个分类。4.3.5 4.3.5 应用综合实例应用综合实例 例例4.14.1 我国山区某大型化工厂,在厂区及邻我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的近地区挑选有代表性的15个大气取样点,每日个大气取样点,每日四次同时抽取大气样品,测定其中含有的四次同时抽取大气样品,测定其中含有的6种气种气体的浓度,前后共体的浓度,前后共4天,每个取样点每种气体实天,每个取样点每种气体实侧侧16次,试计算每个取样点每种气体的平均浓次,试计算每个取样点每种气体的平均浓度。数据如表度。数据如表4.1所示。气体数据对应的污染地所示。气体数据对应的污染地区分类如表中最后一列所示。现有两个取自该地区分类如表中最后一列所示。现有两个取自该
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1