蠓虫分类.docx
《蠓虫分类.docx》由会员分享,可在线阅读,更多相关《蠓虫分类.docx(6页珍藏版)》请在冰豆网上搜索。
蠓虫分类
蠓虫分类
一、问题重述
生物学家试图对两类蠓虫(Af与Apf)进行鉴别,依据的资料是蠓虫的触角和翅膀的长度,已经测得9只Af和6只Apf的数据,(触角长度用x表示,翅膀长度用y表示)具体数据为:
Af类触角和翅膀长度
x
1.24
1.36
1.38
1.38
1.38
1.40
1.48
1.54
1.56
y
1.27
1.74
1.64
1.82
1.90
1.70
1.82
1.82
2.08
Apf类触角和翅膀长度
x
1.14
1.18
1.20
1.26
1.28
1.30
y
1.78
1.96
1.86
2.00
2.00
1.96
现需要解决三个问题:
(1)根据原始资料15对数据(被称之为学习样本),制定一种方法,区分两类蠓虫;
(2)依据确立的方法,对题目提供的三个样本:
(1.24,1.80),(1.28,1.84),(1.40,2.04)加以识别;
(3)设Af是宝贵的传粉益虫,Apf是某种疾病的载体,是否应该修改分类方法。
二、问题分析
利用两类蠓虫(Af与Apf)触角和翅膀长度数据绘制散点图:
由两类蠓虫触角和翅膀长度关系分布可见,两类蠓虫在触角和翅膀长度关系上有较明显差异。
所以,我们可以用马氏距离分类方法对其进行分类。
三、模型假设
1、样本蠓虫的性别不会对分类造成影响。
2、这些数据是从两个不同的双变量正态种群中获取到。
3、翅膀长度和触角长度作为分类两个物种的指标,其准确性是等价的。
4、翅膀长度和触角长度足以确定蠓虫的分类。
5、假定蠓虫只存在Af和Apf两类,不存在第三类。
6、用触角长与翼长来判别蠓虫是充分的。
7、所给出的样本数据是无误差的,且两种群Af和Apf的触角的及翼长的期望值、标准差、相关系数与数据给出的样本统计量一致。
四、假设的合理性
1、性别不存在影响
由于单个蠓虫个体的性别不是作为数据的一部分,我们必须假设要么蠓虫是没有性别差异的,即同种蠓虫不同性别间不存在巨大差异。
2、二元正态的评价
有多种不同的方法来评估二元正态种群的样本数据。
一种方法是将数据点转换到4维球面;另一种方法,是简单检查边际数据点是否是正态的。
我们选择了一种折中的方法即chi-square法,检查概率的水平曲线。
对于每个物种,大约一半的数据点列X落在椭圆
中,其中u是种群的均值(翅膀和触角长度)的向量,
是2×2的种群协方差矩阵。
我们使用的样本值估计每个种群蠓虫的参数,由于只有少数几个数据点,我们在两个样本中的每个点的计算,看它是否在相应的椭圆在于左侧。
我们发现所有点均落在目标区域内,因此,我们不妨假设每个种群服从二元正态分布。
3、翅膀和触角长度指标
我们没有得到任何翅膀长度在分类蠓虫中比触角长度好或者差的信息,昆虫学的研究也没有给我们充分的理由认定他们是不均等的指标,所以在作为分类指标时占有相同的比重。
4、充足的特征数据
我们已知的数据仅仅是蠓虫触角和翅膀的长度,因此必须假设确定物种分类不需要应用他其他数据值。
五、模型的建立与求解
我们分别用Af和Apf保存学习样本中两组蠓虫的触角和翅膀长度数据,用
表示Af和Apf的期望,
表示Af和Apf的协方差矩阵的逆,根据点
与总体
的马氏距离
及两总体
和
的情形(
是一个样本),有以下情况:
若
,
若
,
若
,无法确定
故可用判别函数
判断题目三个样本的蠓虫类型。
;
;
;
记
=(1.24,1.80),
=(1.28,1.84),
=(1.40,2.04),代入上式得:
d1=4.2922>0
d2=0.6015>0
d3=-3.7568<0
所以样本一、二属于Apf类,样本三属于Af类。
六、模型的建立与求解
若Apf为某疾病的载体,Af为传粉益虫,那么在这一新的条件下,很明显,这一新的特征不会影响根据触角长和翼长来区分蠓虫是属于Apf或Af的概率P(x,y),在引入益虫害虫概念后并不会对客观的分类方法产生影响。
然而若Apf是害虫,危害极大,为了不让它漏网,宁可把Af误判为Apf,此时可以通过修改
来达到调节样本和总体间的马氏距离来达到尽可能减小害虫带来的损害。
对于非致命疾病,而传粉又极为重要的情况下,可以取定
=0.9
,从而可以消灭
90.8%
的
Apf
,而消灭
的
Af
不超过
1%
利用这种思想,在不同的情况下,对于不同的实验目的,可以通过阈值的不同选取来实现。