1、蠓虫分类蠓虫分类一、问题重述生物学家试图对两类蠓虫(Af与Apf)进行鉴别,依据的资料是蠓虫的触角和翅膀的长度,已经测得9只Af和6只Apf的数据,(触角长度用x表示,翅膀长度用y表示)具体数据为: Af 类触角和翅膀长度x1.241.361.381.381.381.401.481.541.56y1.271.741.641.821.901.701.821.822.08Apf类触角和翅膀长度x1.141.181.201.261.281.30y1.781.961.862.002.001.96现需要解决三个问题:(1) 根据原始资料15 对数据(被称之为学习样本) ,制定一种方法,区分两类蠓虫;(2
2、) 依据确立的方法,对题目提供的三个样本:(1.24,1.80),(1.28,1.84),(1.40,2.04)加以识别;(3) 设Af是宝贵的传粉益虫,Apf是某种疾病的载体,是否应该修改分类方法。二、问题分析利用两类蠓虫(Af与Apf)触角和翅膀长度数据绘制散点图: 由两类蠓虫触角和翅膀长度关系分布可见,两类蠓虫在触角和翅膀长度关系上有较明显差异。所以,我们可以用马氏距离分类方法对其进行分类。三、模型假设1、样本蠓虫的性别不会对分类造成影响。2、这些数据是从两个不同的双变量正态种群中获取到。3、翅膀长度和触角长度作为分类两个物种的指标,其准确性是等价的。4、翅膀长度和触角长度足以确定蠓虫的
3、分类。5、假定蠓虫只存在Af和Apf两类,不存在第三类。6、用触角长与翼长来判别蠓虫是充分的。7、所给出的样本数据是无误差的,且两种群Af和Apf的触角的及翼长的期望值、标准差、相关系数与数据给出的样本统计量一致。四、假设的合理性1、性别不存在影响由于单个蠓虫个体的性别不是作为数据的一部分,我们必须假设要么蠓虫是没有性别差异的,即同种蠓虫不同性别间不存在巨大差异。2、二元正态的评价有多种不同的方法来评估二元正态种群的样本数据。一种方法是将数据点转换到4维球面;另一种方法,是简单检查边际数据点是否是正态的。我们选择了一种折中的方法即chi-square法,检查概率的水平曲线。对于每个物种,大约一
4、半的数据点列X落在椭圆中,其中u是种群的均值(翅膀和触角长度)的向量,是2 2的种群协方差矩阵。我们使用的样本值估计每个种群蠓虫的参数,由于只有少数几个数据点,我们在两个样本中的每个点的计算,看它是否在相应的椭圆在于左侧。我们发现所有点均落在目标区域内,因此,我们不妨假设每个种群服从二元正态分布。3、翅膀和触角长度指标我们没有得到任何翅膀长度在分类蠓虫中比触角长度好或者差的信息,昆虫学的研究也没有给我们充分的理由认定他们是不均等的指标,所以在作为分类指标时占有相同的比重。4、充足的特征数据我们已知的数据仅仅是蠓虫触角和翅膀的长度,因此必须假设确定物种分类不需要应用他其他数据值。五、模型的建立与
5、求解 我们分别用Af和Apf保存学习样本中两组蠓虫的触角和翅膀长度数据,用表示Af和Apf的期望, 表示Af和Apf的协方差矩阵的逆,根据点与总体的马氏距离及两总体和的情形(是一个样本),有以下情况: 若 , 若 , 若 ,无法确定故可用判别函数判断题目三个样本的蠓虫类型。;记=(1.24,1.80), =(1.28,1.84), =(1.40,2.04),代入上式得:d1 =4.29220d2 =0.60150d3 =-3.75680所以样本一、二属于Apf类,样本三属于Af类。六、模型的建立与求解若Apf为某疾病的载体,Af为传粉益虫,那么在这一新的条件下,很明显,这一新的特征不会影响根据触角长和翼长来区分蠓虫是属于Apf或Af的概率P(x,y),在引入益虫害虫概念后并不会对客观的分类方法产生影响。然而若Apf是害虫,危害极大,为了不让它漏网,宁可把Af误判为Apf,此时可以通过修改来达到调节样本和总体间的马氏距离来达到尽可能减小害虫带来的损害。对于非致命疾病,而传粉又极为重要的情况下,可以取定=0.9,从而可以消灭90.8%的Apf,而消灭的Af不超过1%利用这种思想,在不同的情况下,对于不同的实验目的,可以通过阈值的不同选取来实现。
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1