系统建模之向量机Word文档下载推荐.docx

资源描述

系统建模之向量机Word文档下载推荐.docx

《系统建模之向量机Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《系统建模之向量机Word文档下载推荐.docx（18页珍藏版）》请在冰豆网上搜索。

系统建模之向量机Word文档下载推荐.docx

1.1支持向量机研究背景及意义

随着支持向量机的不断发展，人们对支持向量机的研究也越来越细化，其主要研究方向大致可分为：

求解支持向量机问题，支持向量机多类分类问题，参数的选择和优化问题等。

求解一个SVM问题最终都转化为解一个具有线性约束的凸规划问题或其对偶问题的二次规划问题（QuadraticProgramming，QP）。

传统的方法是利用标准二次型优化技术解决对偶问题，这就导致算法的训练速度很慢，一方面是由于SVM需要计算和存储核函数矩阵，当样本规模较大时必然导致内存需求增加；

另一方面，SVM在二次寻优过程中要进行大量的矩阵运算，多数情况下，寻优算法占用了大部分的算法时间，这就使得存储空间和和计算时间成了求解二次规划问题的瓶颈。

常用的解决方法是将一个大的二次规划问题转化为若干个小的二次规划问题以提高分类效率，如块算法、分解算法、SMO算法、增式算法等等。

支持向量机分类理论是针对两类分类问题提出的，然而，现实世界的分类问题，如船舰识别、字体识别、人脸识别等，都属于多类分类的范畴。

如何将二类分类方法扩展到多类分类情况是支持向量机方法研究的重要内容之一。

目前，用SVM解决多类分类问题方法主要是通过构造或组合多个两类分类器来实现多类问题的分类。

子分类器的构造和组合将两类分类扩展到多类问题，将多类分类问题逐步转化为两类分类问题。

常用的算法有“one---against---one”方法、“one--against--rest”方法、“基于决策树的方法”等。

支持向量机多类分类方法的引入拓展了支持向量机的应用范围，也加快了支持向量机方法的改进和创新，同时，支持向量机的核函数的选择以及核参数的选择也是一个重要的研究方向。

2.支持向量机的原理

支持向量机（SupportVectorMachine，SVM）是由Vapnik及其合作者共同创造与发展起来的一种新的机器学习方法，其核心内容在1992年至1995年间提出的。

2.1统计学习理论

统计学习理论建立在一套较为坚实的理论基础之上，为解决有限样本的学习问题提供了一个统一的框架。

它能将许多现有的方法纳入其中，有望帮助解决许多原来难以解决的问题，比如神经网络的结构选择问题、局部最小点问题等。

2.1.1机器学习问题

机器学习问题[1]可以看作是通过某种训练方法，对某一系统的输入与输出之间的依赖关系进行估计，并且期望这一估计可以对任意给定输入尽量准确地进行输出预测。

一般地，机器学习问题可以表示为：

假设变量

与

之间存在一定的未知依赖关系，即遵循某一未知的联合概率

（

和

之间的确定性关系可以看作是其特例），机器学习问题就是根据n个独立同分布观测样本

，在一组函数

中求一个最优的函数

对依赖关系进行估计，使得期望风险最小。

（1）

其中

称作预测函数集，

为函数的广义参数，

可以表示任何函数集；

为由于用

对

进行预测而造成的损失，不同类型的学习问题有不同形式的损失函数。

在上面问题的表述中，学习的目标在于使期望风险最小化，但是，由于可以利用的信息只有样本最初的观测样本

，因此，期望风险2-

（1）是无法计算的。

传统的学习方法是采用了所谓经验风险最小化（ERM）准则[11]，即用样本定义经验风险

（2）

来逼近3-

（1）定义的期望风险，用对参数

求经验风险

的最小值代替求期望风险

的最小化，这就是所谓的经验风险最小化原则。

2.1.3

维理论

模式识别方法中

维的直观定义是：

对一个指示函数集，如果存在

个样本能够被函数集中的函数按所有可能的

种形式分开，则称函数集能够把

个样本打散；

函数集的

维就是它能打散的最大样本数目

。

若对任意数目的样本都有函数能将它们打散，则函数集的

维是无穷大。

维反映了函数集的学习能力，

维越大则学习机器越复杂（容量越大）。

遗憾的是，目前尚没有通用的关于任意函数集

维计算的理论，只确定了一些特殊的函数集的

维。

比如在

维实数空间中线性分类器和线性实函数的

维是

，对于一些比较复杂的学习机器（如神经网络），其

维除了与函数集（神经网结构）有关外，还受学习算法等的影响，其确定更加困难。

但是，在实际应用统计学习理论时，可以通过变通的办法巧妙地避开直接求

维的问题。

2.1.4推广性的界

统计学习理论系统地研究了对于各种类型的函数集，经验风险和实际风险之

间的关系，即推广性的界。

关于两类分类问题，结论是：

对指示函数集中的所有

函数（包括使经验风险最小的函数），经验风险

和实际风险

之间以概率

满足如下关系：

2-（3）

是函数集的

维，

是样本数。

这一结论从理论上说明了学习机器的实际风险是由两部分组成的：

一是经验风险（训练误差），另一部分称作置信范围，它和学习机器的

维及训练样本数有关，可以简单地表示为：

2-（4）

它表明，在有限训练样本下，学习机器的

维越高（复杂性越高）则置信范围越大，导致真实风险与经验风险之间可能的差别越大，这就是为什么会出现过学习现象的原因。

机器学习过程不但要使经验风险最小，还要使

维尽量小以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性，这一理论可以由图2.1说明。

图2.1置信范围、经验风险与实际风险之间的关系

由图2.1可以看出，当样本数目

固定，算法的

维增大时，它对给定训练样本集合有更强的分类或拟合能力，导致了更小的经验风险

，甚至使它为零。

但是，

维增大时，

也随之增大，即放大了置信范围，从而减小了算法具有小的实际风险

的可能性。

反之，若

维缩小，那么它对给定的训练样本集合的分类或拟合能力减弱，导致了大的经验风险，此时，虽然置信区间

缩小了，但仍不能保证获得小的实际风险。

可以看出

固定时

是一对矛盾体，它们不可能同时都减小，但确实存在某个

值使实际风险上界达到最小值。

2.1.5结构风险最小化原则

经验风险最小化原则是目前绝大多数模式识别方法的基础，其定义为训练集上的平均错误率，用于对整个样本集的期望风险进行估计，它建立在样本数目足够多的前提下，致使各种方法只有在样本数趋向无穷大时，其性能才有理论上的保证。

而在现实世界的应用中，这一前提并不总能被满足，这时大多数此类方法都难以取得理想的结果。

由2.1.4节中的推广性的界可以看出，影响期望风险上界的因子有两个方面：

首先是训练集的规模

，其次是

维

可见，在保证分类精度（经验风险）的同时，降低学习机器的

维，可以使学习机器在整个样本集上的期望风险得到控制，这就是结构风险最小化（StructureRiskMinimization，简称SRM）的由来。

由

维的讨论可以看到，经验风险和期望风险依赖于学习机器函数族的选择。

把函数集

分解为一个函数子集序列

2-（5）

使各个子集能够按照置信范围

的大小排序，即

2-（6）

所谓结构风险最小化，便是构造一组嵌套的函数子集，使得其

维由内向外依次递增，然后在其上寻找经验风险和置信范围之和最小的子集，从而使得实际风险的上界最小化，如图2.2所示

图3.2结构风险最小化示意图

基于结构风险最小化准则的统计学习理论是一种专门研究小样本的统计理论，它为研究有限样本情况下的统计模式识别，并为更广泛的机器学习问题建立了一个较好的理论框架，同时也发展出了一种新的模式识别方法——支持向量机，从而能够较好地解决小样本的学习问题。

2.2支持向量机理论

SVM方法是由Vapnik及其合作者Boser、Guyon、Cortes及Scholkopf在AT&

TBell实验室共同创造与发展起来的一种新的学习方法。

近年来，许多关于SVM方法的研究，包括算法本身的改进和算法的实际应用，都陆续被提了出来，其中在理论上主要以Vapnik及其研究小组做了大量开创性及奠基性的工作。

目前SVM正处于不断发展阶段，现在已经成为机器学习领域的标准工具之一。

支持向量机是个三层网络结构，是一个多输入、单输出的学习机器，其体系结构如图2.3所示

图2.3支持向量机的体系结构

其中，位于体系结构最底层的

是输入样本，

是样本

与支持向量在特定空间的内积，

是拉格朗日乘子，

是决策函数的输出。

图3.3清晰的表示出支持向量机的逻辑概念框架，首先确定训练样本作为支持向量机的输入，然后选择适当的核函数，将样本从输入空间映射到高维的特征空间，根据优化问题求解出来的支持向量最终得到相应的决策函数。

它与传统的神经网络的最大区别在于：

神经网络结构的确定大多是凭经验选取的，有一定的盲目性，无法确定泛化的置信空间界限，所以无法保证网络的推广能力，容易出现过学习的现象。

而支持向量机网络通过结构化风险最小化归纳原理控制学习单元的

维的上界，限制了学习单元的能力，在一定程度上避免

展开阅读全文