贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx

上传人:b****6 文档编号:18144481 上传时间:2022-12-13 格式:DOCX 页数:25 大小:523.05KB
下载 相关 举报
贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx_第1页
第1页 / 共25页
贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx_第2页
第2页 / 共25页
贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx_第3页
第3页 / 共25页
贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx_第4页
第4页 / 共25页
贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx

《贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx(25页珍藏版)》请在冰豆网上搜索。

贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx

即:

因此根据最大后验概率准则判断x所属的类别,转变为比较似然比和阈值的大小。

实验中首先求得两类数据的条件概率密度和,关于先验概率,实验进行时,将待分类的两组数据合并放入一个100*4的矩阵中,每次随机选取待分类数据x,因此先验概率

故而,判别式(8)简化为:

因此,根据上式即可对输入向量x进行分类。

如果则判别x为类(第一类)同理

如果则判别x为类(第二类)

3、实验过程

实验中,根据实验原理,首先对两组数据分别进行训练,得到其四维正态分布的密度函数,再根据最大后验概率准则进行分类。

3.1参数估计

已知三组数据均为的四元正态分布,即

其中,为均值向量,B为协方差矩阵,和均为四维列向量。

根据式

(2)和(3)对每组数据的均值向量和协方差矩阵进行估计。

参数估计即选取部分数据进行训练,数据可以采用随机选取的方式,也可以从开始固定的选取若干数据进行训练。

同时,参与训练的数据多少也会影响最后的分类结果。

实验中尝试了不同的选取方法,结果如下:

(1)从前向后依次选取10个数据进行训练:

(2)从前向后依次选取15个数据进行训练:

(3)从前向后依次选取20个数据进行训练:

(4)从前向后依次选取25个数据进行训练:

(5)随机选取15个数据进行训练:

(6)随机选取20个数据进行训练:

3.2贝叶斯分类

学习分类时,本实验中,将待分类的两类数据合并为一个矩阵test,然后每次随机的从test矩阵中抽取一维向量进行分类判别。

因此先验概率满足

所以,实验中只需要根据估计的参数得出两类的概率密度函数

对于输入的列向量x带入上面两个公式中进行计算,则x归入概率大的一类。

下面以第一类和第二类分类为例进行说明:

实验中,

m:

表示参与训练的数据个数,进行分类学习时

t:

表示每次学习的次数,实验置为10000,即每次随机选取10000次x进行分类

test矩阵:

将待分类的两组数据合并为一个矩阵test,之后随机的从test矩阵中选择输入向量,保证先验概率相等

W向量:

表示随机选择的输入向量的位置,若W(i)<

51则说明此时的输入向量来自第一类,W(i)>

50则说明此时的输入向量来自第二类

set向量:

输入的x判别属于第一类,则将set的相应位置1,否则置0

ver向量:

输入的x判别属于第二类,则将ver的相应位置1,否则置0

最后比较W向量和set向量、ver向量,若选择于第一类(W(i)<

51)也判别为第一类(set(i)=1),则说明判别正确。

第二类同理。

部分框图如下所示:

相应部分代码如下:

最后,统计set向量和ver向量中不为0的元素个数即在10000次学习分类时错误的次数。

进行分类实验时,考虑到两方面的影响:

(1)参数估计时训练样本的选取方式不同,分为固定选取样本和随机选取样本

(2)参数估计时选取的样本数目

同时,实验中,每次分类相当于进行10000次判别,由于选择输入矢量时具有随机性,因此针对同一m(m表示参与训练的样本数目),各进行10次实验进行比较。

3.2.1第一类与第二类(即setosa和versicolou)

(1)当训练样本从前向后固定选取时:

次数

1

2

3

4

5

6

7

8

9

10

m=6

错误个数

错误率

m=10

m=15

当训练样本固定选取时,当参与训练的样本个数分别为为6,10,15,均不会产生错误。

(2)当训练样本随机选取时

1824

702

213

109

2027

495

1904

18.24%

7.02%

2.13%

1.09%

20.27%

4.95%

19.04%

当训练样本随机选取时:

m=6时平均错误率为:

7.274%

m=10时平均错误率为:

0.109%

m=15时平均错误率为:

3.2.2第一类与第三类(即setosa和virginica)

3997

1025

720

950

39.97%

10.25%

7.2%

9.5%

6.634%

3.2.3第二类与第三类(即versicolou和virginica)

410

397

413

369

389

409

430

416

387

363

4.1%

3.97%

4.13%

3.69%

3.89%

4.09%

4.3%

4.16%

3.87%

3.63%

626

622

561

613

677

610

605

614

555

6.26%

6.22%

5.61%

6.13%

6.77%

6.1%

6.05%

6.14%

5.55%

399

396

355

434

431

393

406

3.99%

3.96%

3.55%

4.34%

4.31%

3.93%

4.06%

m=50

325

285

323

298

299

302

306

315

288

308

3.25%

2.85%

3.23%

2.98%

2.99%

3.02%

3.06%

3.15%

2.88%

3.08%

当训练样本固定选取时:

3.983%

6.096%

4.038%

m=50时平均错误率为:

3.049%

637

3478

2000

504

1510

891

4250

2046

1000

1185

6.37%

34.78%

20%

5.04%

15.1%

8.91%

42.5%

20.46%

10%

11.85%

901

984

889

1260

382

1136

1130

959

780

920

9.01%

9.84%

8.89%

12.6%

3.82%

11.36%

11.3%

9.59%

7.8%

9.2%

478

328

726

531

100

657

395

286

740

692

4.78%

3.28%

7.26%

5.31%

1%

6.57%

3.95%

2.86%

7.4%

6.92%

408

221

319

374

88

403

444

310

202

4.08%

2.21%

3.19%

3.74%

0.88%

4.03%

4.44%

3.1%

2.02%

17.471%

9.341%

4.933%

2.982%

4、实验分析

实验中,第一部分为参数估计,从实验中可得,以训练样本固定选取,样本个数m=20为例:

从中可以看出,第一类和第二类,第一类和第三类相比较而言,均值向量和协方差矩阵均相差较大,即正态分布的形式差距较大,因此第一类较容易和其余两类分类。

相比较而言,第二类和第三类的均值向量和协方差矩阵相近,因此其对应的正态分布相似,所以第二组数据和第三组会比较难区分,这一点在后面的实验中也有反映。

实验第二部分,在进行分类学习时,得到在样本选取方式不同和样本数目不同的情况下的分类错误率,汇总如下:

(1)

表一第一类与第二类分类结果

第一类与第二类

固定样本参数估计

随机样本参数估计

从中可以看出,当参数估计的样本按照顺序固定选取时,在很小的样本数目下即可得到很好的分类结果。

当样本随机选取时,在样本数目较少时会有一定的错误率,但是随着样本数目的增加,错误率降低。

(2)

表二第一类与第三类分类结果

第一类与第三类

从中可以得到与上面相似的结论,同时,比较表一和表二可以发现,在随机样本参数估计的情况下,表二所展示的错误率更低,说明相较第二类数据而言,第一类与第三类数据的差别更大,更易分类。

(3)

表三第二类与第三类分类结果

第二类与第三类

17.471%

9.341%

4.933%

2.982%

从中可以看出,第二类数据与第三类数据不论在什么情况下,分类错误率都较大。

甚至当用所有的数据进行参数估计时(m=50),分类结果仍然会有错误。

由此可见,这两组数据较为相似,难以分类。

这一点也从上面计算其正态分布的的参数可以想见。

5、实验结果

实验得出,第一组数据与第二组数据较易分类,当训练样本数目在10左右时就能得到较高的正确率,进而当训练样本数目为15时几乎不出错。

第一组数据与第二组数据更容易分类,当训练样本数目为10时几乎就不出错。

但同时,第二组数据由于与第三组数据过于相似,所以很难分类。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1