Itris数据降维分类.docx-资源下载

Itris数据降维分类.docx

1、Itris数据降维分类课程作业课程名称：模式识别作业名称：Itris数据降维分类学生姓名：学号：提交时间：2018年4月12日一、问题重述对Iris数据进行两个特征选取，共6种组合，计算类别可分性准则函数J值，得出最好的分类组合，画出各种组合的分布图；使用前期作业里面的程序、对6种组合分别使用不同方法进行基于120个训练样本30个测试样本的学习误差和测试计算，方法包括：最小距离法（均值为代表点）、最近邻法、k近邻法（k取3、5）等；从错误率角度分析，寻找最优组合，并与基于可分性准则函数J值的判断结果对比。使用PCA方法对4维数据进行压缩至2维，进行2维显示，并进行错

2、误率测试。在进行数据压缩特征选择的时候，对所有150个样本数据进行操作，处理后再划分训练和测试集合。二、方法原理完整的数据分类过程如下图所示：图1 数据分类过程本次作业的重点在于特征选择与提取以及分类器的选择。特征应该根据类别可分性准则函数值J来进行选择，J是类别可分程度的度量，J值越大，数据的可分性越好。特征选取方法有很多，其中PCA算法是一种常用的选取方法。PCA算法可以求出从高维度转换为低维度的最佳变换矩阵，以此实现降维处理。本次作业选择基于类均值的最小距离法和KNN近邻法（k取1、3、5）作为分类算法。1、类别可分性准则函数值J类别可分性准则函数值J的计算公式如下所示其中C为类别

3、数，m为总样本均值，mi为某一类均值，X表示样本数据，对应算法如下所示。%计算类别可分性准则函数J值function J=Category_separability(A1,A2,A3)A=A1;A2;A3;mi=mean(A1);mean(A2);mean(A3);SW=0;n(1)=length(A1);n(2)=length(A2);n(3)=length(A3);for i=1:n(1)+n(2)+n(3) if in(1) & i=n(1)+n(2) a=mi(2,1); b=mi(2,2); else a=mi(3,1); b=mi(3,2); end SW=SW+(A(i,1)-a

4、)2+(A(i,2)-b)2;endSB=0;m=mean(mi);for i=1:3 SB=SB+n(i)*(m(1)-mi(i,1)2+(m(2)-mi(i,2)2);endJ=SB/SW;2、PCA降维算法图2 PCA降维算法流程%A是输入的多维数据组,n_PCA是目标维度function output=PCA_reduction(A,n_PCA)original=A;original_length=size(original,1);mean_original=mean(original);for i=1:original_length original(i,:)=original(i,

5、:)-mean_original;%平移向量endR=original*original/original_length;%自相关矩阵V,D=eig(R);%求特征值和特征向量，lamda=diag(D);%特征值,b=sort(lamda,descend);PCA_train=V(:,b(1:n_PCA);output=original*PCA_train;3、基于类均值的最小距离法基于类均值的最小距离法思想是首先计算每类训练样本的均值点，再分别计算每个均值点到测试样本的距离，测试样本归属于距其最近的均值点所在的数据类型。算法流程如下：图3基于类均值的最小距离法流程图核心程序如下：%基于类均

6、值的最小距离法%A1是第一类样本，A2是第二类样本，A3是第三类样本,B是测试样本，输出output是测试样本的数据类型function output=Min_distance_3(A1,A2,A3,B,C,aType,bType)FirstTrain=A1;SecondTrain=A2;ThirdTrain=A3;Study=B;BType=C;%求训练样本均值Mean=mean(FirstTrain);mean(SecondTrain);mean(ThirdTrain);%基于类均值的最小距离法StudyType=zeros(1,size(Study,1);%判别结果for i=1:siz

7、e(Study,1) ,m=min(pdist2(Study(i,:),Mean);%求最小距离 StudyType(i)=m;end output=StudyType;4、KNN近邻法KNN近邻法源自近邻法。KNN近邻法不再单单寻找距测试样本最近的一个点，而是寻找距其最近的K个点，然后按这K个点类型确定测试样本的类型。判断原则往往是少数服从多数。算法流程如下:图4 KNN近邻法流程图将最近邻法和KNN近邻法写作一个函数，通过参数k的选取进行不同近邻法的切换，核心程序如下：%k近邻法%A1是第一类样本，A2是第二类样本，A3是第二类样本,B是测试样本%k表示选择k近邻法,可取1、3、5.%输出

8、output是测试样本的数据类型function output=NearestNeighbor_kNN_3(A1,A2,A3,B,C,k,aType,bType)FirstTrain=A1;SecondTrain=A2;ThirdTrain=A3;Study=B;BType=C;%编码First=size(FirstTrain,1);Second=First+size(SecondTrain,2);Third=Second+size(ThirdTrain,2);Train=FirstTrain;SecondTrain;ThirdTrain;%判别结果StudyType=zeros(1,size

9、(Study,1);%kNN近邻法mink_point=zeros(size(Study,1),k);label=zeros(1,k);for i=1:size(Study,1) S_distance=pdist2(Study(i,:),Train); ,m=sort(S_distance,ascend); mink_point(i,:)=m(1:k); for j=1:k if mink_point(i,j)First & mink_point(i,j)First+Second & mink_point(i,j)50 %出现次数最多的值的频率,% StudyType(i)=countW(va

10、lue,1); endendoutput=StudyType;特别的k取1即为最近邻法。三、解决结果1、组合分布图Iris数据有四种特征，任取两种特征构成六种组合，现将六种组合以二维图形的形式展现于下方。图5 特征1,2样本分布图图6 特征1,3样本分布图图7 特征1,4样本分布图图8 特征2,3样本分布图图9 特征2,4样本分布图图10 特征3,4样本分布图图11 PCA降维后样本二维分布图表1 不同特征值下类别可分性准则值J特征组合(1,2)(1,3)(1,4)(2,3)(2,4)(3,4)PCAJ1.25997.26272.933210.12363.845815.37797.5344结

11、合以上几张分布图，可以发现对于同样的数据，选取不同特征值，样本的二维分布情况明显不同，相应的可分性准则值J也差别很大。J值越大，不同类样本的区分度越大。PCA降维可以很好的将高维度的数据将为有明显区分度的低维度数据，但是结合表格也可以发现，PCA降维后的J值并不一定小于任选两个特征所组成的二维样本数据。六组特征组合样本数据利用基于类均值的最小距离法、最近邻法、3NN近邻法、5NN近邻法进行分类，得到的分类结果如下所示。2、基于类均值的最小距离法分类结果图12 含特征1、2的样本最小距离法分类结果图13 含特征1、3的样本最小距离法分类结果图14 含特征1、4的样本最小距离法分类结果图15 含特

12、征2、3的样本最小距离法分类结果图16 含特征2、4的样本最小距离法分类结果图17 含特征3、4的样本最小距离法分类结果图18 PCA降维后的最小距离分类结果3、近邻法分类结果图19 含特征1、2的样本近邻法分类结果图20 含特征1、3的样本近邻法分类结果图21 含特征1、4的样本近邻法分类结果图22 含特征2、3的样本近邻法分类结果图23 含特征2、4的样本近邻法分类结果图24 含特征3、4的样本近邻法分类结果图25 PCA降维后的样本近邻法分类结果3、3NN近邻法分类结果图26 含特征1、2的样本3NN近邻法分类结果图27 含特征1、3的样本3NN近邻法分类结果图28 含特征1、4的样本3

13、NN近邻法分类结果图29 含特征2、3的样本3NN近邻法分类结果图30 含特征2、4的样本3NN近邻法分类结果图31 含特征3、4的样本3NN近邻法分类结果图32 PCA降维后样本3NN近邻法分类结果4、5NN近邻法图33 含特征1、2的样本5NN近邻法分类结果图34 含特征1、3的样本5NN近邻法分类结果图35 含特征1、4的样本5NN近邻法分类结果图36 含特征2、3的样本5NN近邻法分类结果图37 含特征2、4的样本5NN近邻法分类结果图38 含特征3、4的样本5NN近邻法分类结果图39 PCA降维后的样本5NN近邻法分类结果表2不同特征值及PCA降维分类结果特征组合J学习错误率（%）测

14、试错误率（%）最小距离最近邻法3NN近邻5NN近邻最小距离1NN近邻3NN近邻5NN近邻(1,2)1.259923.334.1715.8317.513.3336.6736.6730.00(1,3)7.262711.673.333.334.1710.0016.676.673.33(1,4)2.933215.834.174.174.1713.336.676.673.33(2,3)10.12368.332.505.835.833.3316.6710.003.33(2,4)3.84587.505.005.005.0006.673.333.33(3,4)15.37795.003.332.504.1701

15、0.003.333.33PCA7.534410.001.671.671.676.676.676.673.335、错误率随J变化情况图40 学习错误率随类别可分性准则函数值J变化情况图41 测试错误率随类别可分性准则函数值J变化情况结合表2观察上述两张曲线，有以下几点发现：（1）各种分类方法的学习错误率、测试错误率均是随着J值得增长呈整体下降趋势，但是局部位置会出现反弹。这说明适当的增大J可以一定程度上降低错误率，但并不是J取值越大，错误率一定越小。此外，观察曲线可以发现，错误率最低的点并不是J取值最大的点。（2） PCA降维在增大J得同时，会明显的降低分类错误率，这一可以从曲线在J=7.5344（PCA降维后的J值）处骤降可以体现出来。（3） KNN近邻法（K=1,3,5）中，增大K的取值，可以降低学习错误率，但会增大测试错误率。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？