推荐svm算法实验实验报告范文模板 13页.docx

资源描述

推荐svm算法实验实验报告范文模板 13页.docx

《推荐svm算法实验实验报告范文模板 13页.docx》由会员分享，可在线阅读，更多相关《推荐svm算法实验实验报告范文模板 13页.docx（11页珍藏版）》请在冰豆网上搜索。

推荐svm算法实验实验报告范文模板 13页.docx

推荐svm算法实验实验报告范文模板13页

本文部分内容来自网络整理，本司不为其真实性负责，如有异议或侵权请及时联系，本司将立即删除！

==本文为word格式，下载后可方便编辑和修改！

svm算法实验实验报告

篇一：

SVM实验报告

SVM分类算法

一、数据源说明

1、数据源说远和理解：

采用的实验数据源为第6组：

TheInsuranceCompanyBenchmark（COIL201X）TICDATA201X.txt:

这个数据集用来训练和检验预测模型，并且建立了一个5822个客户的记录的描述。

每个记录由86个属性组成，包含社会人口数据（属性1-43）和产品的所有关系（属性44-86）。

社会人口数据是由派生邮政编码派生而来的，生活在具有相同邮政编码地区的所有客户都具有相同的社会人口属性。

第86个属性：

“大篷车：

家庭移动政策”，是我们的目标变量。

共有5822条记录，根据要求，全部用来训练。

TICEVAL201X.txt:

这个数据集是需要预测（4000个客户记录）的数据集。

它和TICDATA201X.txt它具有相同的格式，只是没有最后一列的目标记录。

我们只希望返回预测目标的列表集，所有数据集都用制表符进行分隔。

共有4003（自己加了三条数据），根据要求，用来做预测。

TICTGTS201X.txt：

最终的目标评估数据。

这是一个实际情况下的目标数据，将与我们预测的结果进行校验。

我们的预测结果将放在result.txt文件中。

数据集理解：

本实验任务可以理解为分类问题，即分为2类，也就是数据源的第86列，可以分为0、1两类。

我们首先需要对TICDATA201X.txt进行训练，生成model，再根据model进行预测。

2、数据清理

代码中需要对数据集进行缩放的目的在于：

A、避免一些特征值范围过大而另一些特征值范围过小；

B、避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。

因此，通常将数据缩放到[-1,1]或者是[0,1]之间。

二、数据挖掘的算法说明

1、svm算法说明

LIBSVM软件包是台湾大学林智仁（Chih-JenLin）博士等用C++实现的SVM库，并且拥有matlab,perl等工具箱或者代码,移植和使用都比较方便.它可以解决分类问题（包括C-SVC、n-SVC）、回归问题（包括e-SVR、n-SVR）以及分布估计（one-class-SVM）等问题，提供了线性、多项式、径向基和S形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。

2、实现过程

在源程序里面，主要由以下2个函数来实现：

（1）structsvm_model*svm_train（conststructsvm_problem*prob,conststructsvm_parameter*param）;

该函数用来做训练，参数prob，是svm_problem类型数据，具体结构定义如下：

structsvm_problem//存储本次参加运算的所有样本（数据集），及其所属类别。

{

intn;//记录样本总数

double*y;//指向样本所属类别的数组

structsvm_node**x;//指向一个存储内容为指针的数组

};

其中svm_node的结构体定义如下：

structsvm_node//用来存储输入空间中的单个特征

{

intindex;//输入空间序号，假设输入空间数为m

doublevalue;//该输入空间的值

};

所以，prob也可以说是问题的指针，它指向样本数据的类别和输入向量，在内存中的具体结构图如下：

图1.1LIBSVM训练时，样本数据在内存中的存放结构

只需在内存中申请n*（m+1）*sizeof（structsvm_node）大小的空间，并在里面填入每个样本的每个输入空间的值，即可在程序中完成prob参数的设置。

参数param，是svm_parameter数据结构，具体结构定义如下：

structsvm_parameter//训练参数

{

intsvm_type;//SVM类型，

intkernel_type;//核函数类型

intdegree;/*forpoly*/

doublegamma;/*forpoly/rbf/sigmoid*/

doublecoef0;/*forpoly/sigmoid*/

/*thesearefortrainingonly*/

doublecache_size;/*inMB制定训练所需要的内存*/

doubleeps;/*stoppingcriteria*/

doubleC;/*forC_SVC,EPSILON_SVRandNU_SVR，惩罚因子*/

int_weight;/*forC_SVC权重的数目*/

int*weight_label;/*forC_SVC权重，元素个数由_weight决定*/double*weight;/*forC_SVC*/

doublenu;/*forNU_SVC,ONE_CLASS,andNU_SVR*/

doublep;/*forEPSILON_SVR*/

intshrinking;/*usetheshrinkingheuristics指明训练过程是否使用压缩*/

intprobability;/*doprobabilityestimates指明是否要做概率估计*/}

其中，SVM类型和核函数类型如下：

enum{C_SVC,NU_SVC,ONE_CLASS,EPSILON_SVR,NU_SVR};/*svm_type*/enum{LINEAR,POLY,RBF,SIGMOID,PRECOMPUTED};/*kernel_type*/只需申请一个svm_parameter结构体，并按实际需要设定SVM类型、核函数和各种参数的值即可完成参数param的设置。

设定完这两个参数，就可以直接在程序中调用训练函数进行训练了，该其函数返回一个structsvm_model*SVM模型的指针，可以使用svm_save_model（constchar*model_file_name,conststructsvm_model*model）函数，把这个模型保存在磁盘中。

至此，训练函数的移植已经完成。

（2）doublesvm_predict（conststructsvm_model*model,conststructsvm_node*x）;

参数model，是一个SVM模型的指针，可以使用函数structsvm_model*svm_load_model（constchar*model_file_name），导入训练时保存好的SVM模型，此函数返回一个SVM模型的指针，可以直接赋值给变量model。

参数x，是conststructsvm_node结构体的指针，本意是一个输入空间的指针，但实际上，该函数执行的时候，是从参数x处计算输入空间，直到遇到单个样本数据结束标记-1才结束，也就是说，该函数运算了单个样本中的所有输入空间数据。

因此，在调用此函数时，必须先把预测样本的数据按图3.4中的固定格式写入内存中。

另外，该函数只能预测一个样本的值，本文需要对图像中的所有像数点预测，就要使用for循环反复调用。

该函数返回一个double类型，指明被预测数据属于哪个类。

面对两分类问题的时候，通常使用+1代表正样本，即类1；-1代表负样本，即类2。

最后根据返回的double值就可以知道预测数据的类别了。

三、算法源代码及注释说明

1、需要在工程中添加头文件svm.h和源文件svm.cpp

2、自己编写的源代码（C++实现）（共230行）：

#include"svm.h"

#include

usingnamespacestd;

#ifdefWIN32

#pragmawarning（disable:

45144786）

#endif

svm_parameterparam;

svm_problemprob;

svm_model*svmModel;

listxList;

listyList;

constintMAX=10;

constintnTstTimes=10;

vectorpredictvalue;

vectorrealvalue;

inttrainNum=0;

//设置参数

voidsetParam（）

{

param.svm_type=C_SVC;

param.kernel_type=RBF;

param.degree=3;

param.gamma=0.5;

param.coef0=0;

param.nu=0.5;

param.cache_size=40;

param.C=500;

param.eps=1e-3;

param.p=0.1;

param.shrinking=1;

//param.probability=0;

param._weight=0;

param.weight=NULL;

param.weight_label=NULL;

}

voidtrain（char*filePath）

{

FILE*fp;

intk;

intline=0;

inttemp;

if（（fp=fopen（filePath,"rt"））==NULL）return;

while

（1）

{

svm_node*features=newsvm_node[85+1];

for（k=0;k<85;k++）

{

fscanf（fp,"%d",&temp）;

features[k].index=k+1;

features[k].value=temp/（MAX*1.0）;}

features[85].index=-1;

fscanf（fp,"%d",&temp）;

xList.push_back（features）;

yList.push_back（temp）;

line++;

trainNum=line;

if（feof（fp））

break;

}

setParam（）;

prob.l=line;

篇二：

SVM分类器-人脸识别专题报告

摘要：

本次试验报告，介绍了人脸识别方法分类器的设计并进行人脸识别。

主要是设计SVM分类器，并用来进行人脸分类识别，并对分类器实验结果做出分析。

实验主要步骤：

首先对图像预处理，转换成向量，再通过PCA算法对ORL人脸数据库图像进行降维特征提取，运用SVM工具箱对数据进行训练，再利用SVM分类方法对特征向量进行分类识别，寻找和待识别图片最为接近的训练样本第一张图片。

最后在matlab上进行实验仿真，分析实验结果。

关键字：

最近邻法、PCA算法、多类SVM、人脸识别

1.引言

人脸识别是模式识别的一个发展方向和重要应用，人脸检测和识别在安全识别、身份鉴定、以及公安部门的稽查活动中有重要作用。

本文主要使用PCA算法、多类SVM训练和SVM分类器设计人脸识别算法。

从ORL人脸图像数据库中，构建自建人脸训练数据库和测试数据库，采用K-L变换进行特征脸提取，并实现人脸识别。

通过K-L变换在人脸识别中的应用，加深对所学内容的理解和认识，进一步加深理解模式识别的算法。

2.人脸识别系统

完整的人脸识别系统至少包括两个主要环节。

首先在输入图像中找到人脸的位置即人脸检测，将人脸从背景中检测出来；其次，将检测到的人脸图像进行预处理、特征提取和识别。

如下图1所示：

图1

人脸识别系统虽然有诱人的应用前景，但是在现实中却还没有开始大规模的使用。

目前，国内外多所大学和研究机构已研制出一些较好的人脸识别原型系统，一些较成熟的商业人脸识别系统也已投入应用，但从技术的角度来看，大样本集、非可控条件下的稳健识别技术仍不成熟，用计算机自动进行人脸的定位和识别十分困难，目前的识别效果（正确率，速度）不如其他的生物识别技术，如指纹识别，视网膜识别等等。

人们在日常生活中就进行了大量的人脸定位和识别工作，当然全部是由人的视觉系统和大脑“自动”进行的。

目前还不清楚人的视觉系统和大脑的工作原理，因此这项人可以轻而易举完成的任务，牵涉到模式识别、图

象处理及生理、心理学等方面的诸多知识，对于目前还只会死板地执行程序指令的计算机来说却是极端困难。

3.算法简述

3.1PCA算法

主成分分析（PrincipalComponentAnalysis，PCA）是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。

计算主成分的目的是将高纬数据投影到较低维空间。

给定n个变量的m个观察值，形成一个n*m的数据矩阵，n通常比较大。

对于一个由多个变量描述的复杂事物，认识难度会很大，于是我们可以抓住事物主要方面进行重点分析，如果事物的主要方面刚好体现在几个主要变量上，那么我们只需要将体现事物主要方面的较少的几个主要变量分离出来，对此进行详细分析。

但是，在一般情况下，并不能直接找出这样的关键变量。

这时我们可以用原有变量的线性组合来表示事物的主要方面，PCA就是这样一种分析方法。

3.2SVM算法

支持向量机（SupportVectorMachine,SVM）是在统计学理论的基础上发展起来的新一代学习算法，它在文本分类、手写识别、图像分类、生物信息学等领域中获得较好的应用。

相比于容易过度拟合训练样本的人工神经网络，支持向量机对于未见过的测试样本具有更好的推广能力。

SVM是一个二分器，只能用于2类样本的分类，现在我们将它推广到多类问题。

本文是对SVM进行推广到能够处理多类问题。

采用一对一的投票策略。

将A、

B、C、D4类样本两类两类的分成训练集，即（A,B）、（A,C）、（A,D）、（B,C）、（B,D）、（C,D）,得到6个（对于n类问题，为n（n-1）/2个）SVM二分器。

在测试的时候，把测试样本x依次送入这6个二分器，采取投票形式，最后得到一组结果。

投票是以如下方式进行。

初始化：

vote（A）=vote（B）=vote（C）=vote（D）=0.

投票过程：

如果使用训练集（A,B）得到的分类器将x判定为A类，则vote（A）=vote（A）+1，否则vote（B）=vote（B）+1；如果使用（A,C）训练的分类器将x判定为A类，则vote（A）=vote（A）+1,否则vote（C）=vote（C）+1；...;如果使用（C,D）训练的分类器将x判定为C类，则vote（C）=vote（C）+1,否则vote（D）=vote（D）+1。

最终判决：

Max（vote（A）,vote（B）,vote（C）,vote（D））。

如有两个以上的最大值，则一般可以简单地取第一个最大值所对应的类别。

4.实验步骤

该实验选取的是ORL人脸数据库作为实验样本，总共40个人，实验样本分为训练样本和测试样本。

首先设置训练样本集，选择40个人前5张图片作为训练样本，进行训练，并将训练后的数据存放到multiSVMTrain.mat中保存。

然后设置测试样本集，将40个人后5张图片作为测试样本，进行选取识别。

实验流程图如下：

整个训练过程，包括读入图像，PCA降维，以及多类SVM训练，实现的关键代码如下：

display（'读入人脸数据...'）;

[imgRow,imgCol,FaceContainer,faceLabel]=ReadFaces（nFacesPerPerson,nPerson）;...

display（'PCA降维...'）;

[pcaFaces,W]=fastPCA（FaceContainer,20）;%主成分分析PCA

%pcaFaces是200*20的矩阵,每一行代表一张主成分脸（共40人，每人5张），每个脸20个维特征

...

%数据规格化

display（'Scaling...'）;

[X,A0,B0]=scaling（X）;

训练完毕后，将数据保存。

（2）开始识别：

打开一张图片（每个人的后5张中选择），然后对该图片进行PCA变换降维，特征提取、规格化，从保存的训练数据库中读取数据，通过SVM分类器识别该测试样本的类别，并显示该图片对应人的第一张图片和类别。

主要代码如下：

%读入相关训练结果

display（'载入训练参数...'）;

load（'Mat/multiSVMTrain.mat'）;

xNewFace=ReadAFace（newFacePath）;%读入一个测试样本

xNewFace=double（xNewFace）;

xNewFace=（xNewFace-meanVec）*V;%经过pca变换降维

xNewFace=scaling（xNewFace,1,A0,B0）;

xNewFace=ReadAFace（newFacePath）;%读入一个测试样本

xNewFace=double（xNewFace）;

xNewFace=（xNewFace-meanVec）*V;%经过pca变换降维

xNewFace=scaling（xNewFace,1,A0,B0）;

（3）最后进行测试：

测试是指分类所有的测试样本（40个人的后50张图像，共200个样本），并计算识别率。

主要实现代码如下：

nFacesPerPerson=5;

nPerson=40;

bTest=1;

%读入测试集合

display（'读入测试集合...'）;

[imgRow,imgCol,TestFace,testLabel]=ReadFaces（nFacesPerPerson,nPerson,bTest）;

%读入相关训练结果

display（'载入训练参数...'）;

load（'Mat/PCA.mat'）;

load（'Mat/scaling.mat'）;

load（'Mat/trainData.mat'）;

load（'Mat/multiSVMTrain.mat'）;

%PCA降维

display（'PCA降维处理...'）;

[mn]=size（TestFace）;

TestFace=（TestFace-repmat（meanVec,m,1））*V;%经过pca变换降维TestFace=scaling（TestFace,1,A0,B0）;

%多类SVM分类

display（'测试集识别中...'）;

classes=multiSVMClassify（TestFace）;

display（'..............................'）;

%计算识别率

nError=sum（classes~=testLabel）;

accuracy=1-nError/length（testLabel）;

display（['对于测试集200个人脸样本的识别率为',num2str（accuracy*100）,'%']）;

5.实验仿真

该实验在Matlab上进行实验仿真，主要包括样本的训练、保存，打开一张待识别图片，然后调用训练数据库，对该图片进行识别，并显示出该人的第一张图片和该人的类别，以及对全部测试样本进行分类，并计算识别率。

实验仿真结果图如下：

篇三：

svm理论与实验之1

支持向量机（SupportVectorMachine）是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。

Vapnik是统计机器学习的大牛，这想必都不用说，他出版的《StatisticalLearningTheory》是一本完整阐述统计机器学习思想的名著。

在该书中详细的论证了统计机器学习之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够解答需要的样本数等等一系列问题。

与统计机器学习的精密思维相比，传统的机器学习基本上属于摸着石头过河，用传统的机器学习方法构造分类系统完全成了一种技巧，一个人做的结果可能很好，另一个人差不多的方法做出来却很差，缺乏指导和原则。

所谓VC维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC维越高，一个问题就越复杂。

正是因为SVM关注的是VC维，后面我们可以看到，SVM解决问题的时候，和样本的维数是无关的（甚至样本是上万维的都可以，这使得SVM很适合用来解决文本分类的问题，当然，有这样的能力也因为引入了核函数）。

结构风险最小听上去文绉绉，其实说的也无非是下面这回事。

机器学习本质上就是一种对问题真实模型的逼近（我们选择一个我们认为比较好的近似模型，这个近似模型就叫做一个假设），但毫无疑问，真实模型一定是不知道的（如果知道了，我们干吗还要机器学习？

直接用真实模型解决问题不就可以了？

对吧，哈哈）既然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法得知。

比如说我们认为宇宙诞生于150亿年前的一场大爆炸，这个假设能够描述很多我们观察到的现象，但它与真实的宇宙模型之间还相差多少？

谁也说不清，因为我们压根就不知道真实的宇宙模型到底是什么。

这个与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）。

我们选择了一个假设之后（更直观点说，我们得到了一个分类器以后），真实误差无从得知，但我们可以用某些可以掌握的量来逼近它。

最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值来表示。

这个差值叫做经验风险Remp（w）。

以前的机器学习方法都把经验风险最小化作为努力的目标，但后来发现很多分类函数能够在样本集上轻易达到100%的正确率，在真实分类时却一塌糊涂（即所谓的推广能力差，或泛化能力差）。

此时的情况便是选择了一个足够复杂的分类函数（它的VC维很高），能够精确的记住每一个样本，但对样本之外的数据一律分类错误。

回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是经验风险要确实能够逼近真实风险才行（行话叫一致），但实际上能逼近么？

答案是不能，因为样本数相对于现实世界要分类的文本数来说简直九牛一毛，经验风险最小化原则只在这占很小比例的样本上做到没有误差，当然不能保证在更大比例的真实文本上也没有

展开阅读全文