中科大模式识别大作业miniproject文档格式.docx
《中科大模式识别大作业miniproject文档格式.docx》由会员分享,可在线阅读,更多相关《中科大模式识别大作业miniproject文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
根据统计,train数据前466个样本均为1类,而后7819个样本均为-1类,所以该分类器为二分类问题。
MATLAB中用importdata()读取数据,并将样本和其所属类别分开来,样本为trnset,所属类别为trnclass,train数据用于训练分类器。
Test.data是11列2072行,同样也意味着有2072个样本,最后一列为该列所对应样本类别,test数据前117为1类,后1955个数据为-1类。
同样读取数据后,分为tstset和tstclass两个矩阵,前者代表2072个样本,后者代表所对应样本的类别,我们需要将train所训练好的分类器应用在tstset样本上,输出分类结果tstclass1,将其与tstclass相比较,计算每个类别的正确率和总的正确率。
算法介绍
本次实验采用了SVM(supportvectormachines)分类模型,由于数据线性不可分而且在实际问题中数据也大都线性不可分,所以本次试验采取的线性不可分SVM方法,即将数据向高维空间映射,使其变得线性可分。
本实验选取的二分类算法,SVC_C。
下面先以线性分类器为例,来引入SVM算法的一些概念和处理流程,如图1所示,假设C1和C2是需要区分的类别,而在二维平面中它们的样本如图,中间的一条直线就是一个线性分类函数,由图中可以看出,这个线性分类函数可以完全的将两类样本区分开来,我们就称这样的数据是线性可分的,否则则为线性不可分,本实验中所采用的数据在二维空间里分布如图2和图3所示(红色标注分类为1的样本,蓝色标注为分类为-1的样本),明显线性不可分。
图1
图2
图3
设图1中线性函数为g(x)=wx+b(x是样本的向量表示),那么当有一个样本xi需要判别的时候,就可以看g(xi)的值,若g(xi)>
0就判别为C1类,若g(xi)<
0就判别为C2类(等于的时候就拒绝判断)。
此时也等价与给函数g(x)附加一个符号函数sgn(),即f(x)=sgn[g(x)]是我们真正的判别函数,中间那条线的表达式是g(x)=0,即wx+b=0,我们也把这个函数叫做分类面。
在此我们就不对几何间隔、二次规划问题、支持向量等做详细的介绍了。
SVM在线性分类器上做了重大改进,即为——核函数!
线性分类器只能对线性可分的样本进行处理,但是实际中很多样本都是线性不可分的,那么这种线性可分的分类器就不适用了,是否有某种办法,让线性不可分的数据变得线性可分呢?
实际上是有的!
我们可以用一个二维平面中的分类问题作为例子,如图4
图4
横轴短点a和b之间红色的部分里的所有点为正类,两边的黑色点为负类,我们明显找不到符合要求的线性函数将两类数据区分开来,但是可以找到一条曲线例如图5中的曲线来判断所属类别,它的函数表达式可以写为g(x)=c0+c1x+c2x2。
图5
明显它不是一个线性函数,但是我们可以新建一个向量a和y1
=
=
这样g(x)就可以转化为f(y)=<
a,y>
,即:
g(x)=f(y)=a*y
在任意维度的空间中,这种形式的函数都是一个线性函数,因为自变量y的次数不大于1.这样原来在二维空间中线性不可分的问题映射到四维空间中,就变成了线性可分的,这也就形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化,使其变得线性可分。
而转化的最关键部分就是找打x对于y的映射方法,遗憾的是假设x’是由x变换得到的高维变量,在此维度下,问题线性可分,那么只需要计算f(x’)=<
w’,x’>
+b的值来进行分类,即只关心高维空间里内积<
的值。
而从理论上来说x’是由x变换得来的,因此广义上可以吧它叫做x的函数,而w’是常量,它是一个低维空间向量里的常量w经过x与x’之间相同的变换得到的,所以给定了一个w和w’的值,我们就可以有一个确定的f(x’)的值与其对应。
那么是否能有这样一种的函数K(w,x),它接受低维空间的输入值,却能够计算出高维空间的内积<
?
如果真的有这种函数,那么当给定了一个低维空间的输入x之后,使g(x)=K(w,x)+b和f(x’)=<
+b这两个函数的计算结果就完全一样,我们就不用费力的去找映射关系了。
而上述的K(w,x)却是存在,它被称为核函数(核,kernel),而且只要是满足了Mercer条件的函数,就可以作为核函数。
核函数的基本作用就是接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值。
那么就有两个问题:
1.既然有很多核函数,针对具体问题我们应该怎么选择呢?
2.如果使用核函数向高维空间映射后,问题仍然是线性不可分的,那怎么办呢?
对于第一个问题——核函数的选择我不太了解它选择中所需要的指导原则
通常而言,径向基核函数(RBF)是比较合理的选择,本次实验也是采用的径向基核函数,这个核函数将样本非线性地映射到一个更高维的空间,与线性核不同,它能够处理分类标注和属性的非线性关系,并且,线性核是RBF的一个特例,同时,sigmoid核的表现很想一定参数的RBF核。
第二个原因,超参数的数量会影响到模型选择的复杂度,而多项式核比RBF核具有更多的超参数。
最后,RBF核有更少的数值复杂度。
当然也存在一些情形RBF核是不适用的。
特别的,当特征维数非常大的时候,很可能只能适用线性核。
本实验采用RBF作为核函数,并使用了‘boxconstraint’参数,这是SVM的惩罚系数,一般是按[·
·
,0.1,1,10,·
]这样的规律调节尝试。
实验
1.评价标准
当然是使用正确率作为评价标准啦!
我们统计了对于正类即1的误判率和对于负类-1的误判率,因为所给数据中,正类较少,负类较多,我们尝试对读取的数据多少进行调节,并计算时间,后续分析结果,总结问题。
2.整体实验方法和步骤
①将train和test数据读取,并分别将其分成set和class;
②训练并得到分类器;
③测试输出;
④计算评价指标;
⑤减少读取的train数据的负类,并重复上述过程;
⑥总结;
3.分类器训练算法的参数调整步骤:
①随机生成多个参数(解);
②在目标函数上验证解的质量;
③根据解的质量由好到坏进行排序,取出其中较好的一部分,在这些解的每个元素上加上一个随机数,从而得到一些新的解;
④把新解和老解比较,取出最好的一部分,作为下一次迭代的初始解;
实验结果
得到测试输出后,将其与test数据的第11列进行比较,相同即为判断正确,并计算正确率。
Excel中我用test数据的第11列减去输出结果,即结果为0即为正确,结果不为0,即为错误。
下图6为正类和负类部分excel数据截图
图6
经统计总的正确率为74.81%,对于正类数据的判别正确率为61.54%,负类数据的判别率为75.60%,负类数据的正确判别率明显更高一些,这可能是由于训练数据中负类数据占大多数的原因,所以负类的判别正确率明显的更好一些。
整个训练外加测试时间为24.8980秒。
下面我们只读取的train数据的前932个,即训练数据中正类和负类的数目相同,这时我们可以看到结果,总的正确率有所降低为69.16%,其中分类器判别正类的正确率为70.94%,负类为69.05%。
两相差减小,此时负类的判别率比起全部读取数据时降低了大约5%,而正类的却增加了近10%!
此时明显对正类比较敏感,当然总体还是降低了·
当我再次把读取train的负类的数据量增加到正类的2倍时,即正类样本为466个,副类样本为932个,此时总的正确率为74.47%,test正类数据判断的正确率为62.39%,负类数据为75.19%,可以看到此时已经与将8285个训练样本全部放进去的结果大抵相同。
后来我又尝试了读取的train与test数据量相等,此时的总的正确率为72.78%,正类为63.25%,负类为73.35%。
没有提升,反而降低了,不过并没有太大的改变。
下面表格整理了一下结果:
Train
(1)
Train(-1)
Test
总正确率
正类正确率
负类正确率
466
7819
2072
74.81%
61.54%
75.60%
69.16%
70.94%
69.05%
466*2
74.47%
62.39%
75.19%
1606
72.78%
63.25%
73.35%
本来想测一下所有的数据,给出一个曲线图,跑一个要20多秒,跑完的话时间太长了,所以没有测·