贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx

资源描述

贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx

《贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx（25页珍藏版）》请在冰豆网上搜索。

贝叶斯最大后验概率准则对iris大数据地分类Word文档下载推荐.docx

即：

因此根据最大后验概率准则判断x所属的类别，转变为比较似然比和阈值的大小。

实验中首先求得两类数据的条件概率密度和，关于先验概率，实验进行时，将待分类的两组数据合并放入一个100*4的矩阵中，每次随机选取待分类数据x，因此先验概率

故而，判别式（8）简化为：

因此，根据上式即可对输入向量x进行分类。

如果则判别x为类（第一类）同理

如果则判别x为类（第二类）

3、实验过程

实验中，根据实验原理，首先对两组数据分别进行训练，得到其四维正态分布的密度函数，再根据最大后验概率准则进行分类。

3.1参数估计

已知三组数据均为的四元正态分布，即

其中，为均值向量，B为协方差矩阵，和均为四维列向量。

根据式

（2）和（3）对每组数据的均值向量和协方差矩阵进行估计。

参数估计即选取部分数据进行训练，数据可以采用随机选取的方式，也可以从开始固定的选取若干数据进行训练。

同时，参与训练的数据多少也会影响最后的分类结果。

实验中尝试了不同的选取方法，结果如下：

（1）从前向后依次选取10个数据进行训练：

（2）从前向后依次选取15个数据进行训练：

（3）从前向后依次选取20个数据进行训练：

（4）从前向后依次选取25个数据进行训练：

（5）随机选取15个数据进行训练：

（6）随机选取20个数据进行训练：

3.2贝叶斯分类

学习分类时，本实验中，将待分类的两类数据合并为一个矩阵test，然后每次随机的从test矩阵中抽取一维向量进行分类判别。

因此先验概率满足

所以，实验中只需要根据估计的参数得出两类的概率密度函数

对于输入的列向量x带入上面两个公式中进行计算，则x归入概率大的一类。

下面以第一类和第二类分类为例进行说明：

实验中，

表示参与训练的数据个数，进行分类学习时

表示每次学习的次数，实验置为10000，即每次随机选取10000次x进行分类

test矩阵:

将待分类的两组数据合并为一个矩阵test，之后随机的从test矩阵中选择输入向量，保证先验概率相等

W向量:

表示随机选择的输入向量的位置，若W（i）<

51则说明此时的输入向量来自第一类，W（i）>

50则说明此时的输入向量来自第二类

set向量:

输入的x判别属于第一类，则将set的相应位置1，否则置0

ver向量:

输入的x判别属于第二类，则将ver的相应位置1，否则置0

最后比较W向量和set向量、ver向量，若选择于第一类（W（i）<

51）也判别为第一类（set（i）=1），则说明判别正确。

第二类同理。

部分框图如下所示：

相应部分代码如下：

最后，统计set向量和ver向量中不为0的元素个数即在10000次学习分类时错误的次数。

进行分类实验时，考虑到两方面的影响：

（1）参数估计时训练样本的选取方式不同，分为固定选取样本和随机选取样本

（2）参数估计时选取的样本数目

同时，实验中，每次分类相当于进行10000次判别，由于选择输入矢量时具有随机性，因此针对同一m（m表示参与训练的样本数目），各进行10次实验进行比较。

3.2.1第一类与第二类（即setosa和versicolou）

（1）当训练样本从前向后固定选取时：

次数

m=6

错误个数

错误率

m=10

m=15

当训练样本固定选取时,当参与训练的样本个数分别为为6，10，15，均不会产生错误。

（2）当训练样本随机选取时

1824

702

213

109

2027

495

1904

18.24%

7.02%

2.13%

1.09%

20.27%

4.95%

19.04%

当训练样本随机选取时：

m=6时平均错误率为：

7.274%

m=10时平均错误率为：

0.109%

m=15时平均错误率为：

3.2.2第一类与第三类（即setosa和virginica）

3997

1025

720

950

39.97%

10.25%

7.2%

9.5%

6.634%

3.2.3第二类与第三类（即versicolou和virginica）

410

397

413

369

389

409

430

416

387

363

4.1%

3.97%

4.13%

3.69%

3.89%

4.09%

4.3%

4.16%

3.87%

3.63%

626

622

561

613

677

610

605

614

555

6.26%

6.22%

5.61%

6.13%

6.77%

6.1%

6.05%

6.14%

5.55%

399

396

355

434

431

393

406

3.99%

3.96%

3.55%

4.34%

4.31%

3.93%

4.06%

m=50

325

285

323

298

299

302

306

315

288

308

3.25%

2.85%

3.23%

2.98%

2.99%

3.02%

3.06%

3.15%

2.88%

3.08%

当训练样本固定选取时：

3.983%

6.096%

4.038%

m=50时平均错误率为：

3.049%

637

3478

2000

504

1510

891

4250

2046

1000

1185

6.37%

34.78%

20%

5.04%

15.1%

8.91%

42.5%

20.46%

10%

11.85%

901

984

889

1260

382

1136

1130

959

780

920

9.01%

9.84%

8.89%

12.6%

3.82%

11.36%

11.3%

9.59%

7.8%

9.2%

478

328

726

531

100

657

395

286

740

692

4.78%

3.28%

7.26%

5.31%

6.57%

3.95%

2.86%

7.4%

6.92%

408

221

319

374

403

444

310

202

4.08%

2.21%

3.19%

3.74%

0.88%

4.03%

4.44%

3.1%

2.02%

17.471%

9.341%

4.933%

2.982%

4、实验分析

实验中，第一部分为参数估计，从实验中可得，以训练样本固定选取，样本个数m=20为例：

从中可以看出，第一类和第二类，第一类和第三类相比较而言，均值向量和协方差矩阵均相差较大，即正态分布的形式差距较大，因此第一类较容易和其余两类分类。

相比较而言，第二类和第三类的均值向量和协方差矩阵相近，因此其对应的正态分布相似，所以第二组数据和第三组会比较难区分，这一点在后面的实验中也有反映。

实验第二部分，在进行分类学习时，得到在样本选取方式不同和样本数目不同的情况下的分类错误率，汇总如下：

（1）

表一第一类与第二类分类结果

第一类与第二类

固定样本参数估计

随机样本参数估计

从中可以看出，当参数估计的样本按照顺序固定选取时，在很小的样本数目下即可得到很好的分类结果。

当样本随机选取时，在样本数目较少时会有一定的错误率，但是随着样本数目的增加，错误率降低。

（2）

表二第一类与第三类分类结果

第一类与第三类

从中可以得到与上面相似的结论，同时，比较表一和表二可以发现，在随机样本参数估计的情况下，表二所展示的错误率更低，说明相较第二类数据而言，第一类与第三类数据的差别更大，更易分类。

（3）

表三第二类与第三类分类结果

第二类与第三类

17.471%

9.341%

4.933%

2.982%

从中可以看出，第二类数据与第三类数据不论在什么情况下，分类错误率都较大。

甚至当用所有的数据进行参数估计时（m=50），分类结果仍然会有错误。

由此可见，这两组数据较为相似，难以分类。

这一点也从上面计算其正态分布的的参数可以想见。

5、实验结果

实验得出，第一组数据与第二组数据较易分类，当训练样本数目在10左右时就能得到较高的正确率，进而当训练样本数目为15时几乎不出错。

第一组数据与第二组数据更容易分类，当训练样本数目为10时几乎就不出错。

但同时，第二组数据由于与第三组数据过于相似，所以很难分类。

展开阅读全文