实验2分类预测模型-支持向量机.docx

资源描述

实验2分类预测模型-支持向量机.docx

《实验2分类预测模型-支持向量机.docx》由会员分享，可在线阅读，更多相关《实验2分类预测模型-支持向量机.docx（11页珍藏版）》请在冰豆网上搜索。

实验2分类预测模型-支持向量机.docx

实验2分类预测模型——支持向量机SVM

一、实验目的

1.了解和掌握支持向量机的基本原理。

2.熟悉一些基本的建模仿真软件（比如SPSS、Matlab等）的操作和使用。

3.通过仿真实验，进一步理解和掌握支持向量机的运行机制，以及其运用的场景，特别是在分类和预测中的应用。

二、实验环境

PC机一台，SPSS、Matlab等软件平台。

三、理论分析

1.SVM的基本思想

支持向量机（SupportVectorMachine,SVM），是Vapnik等人根据统计学习理论中结构风险最小化原则提出的。

SVM能够尽量提高学习机的推广能力，即使由有限数据集得到的判别函数，其对独立的测试集仍能够得到较小的误差。

此外，支持向量机是一个凸二次优化问题，能够保证找到的极值解就是全局最优解。

这希尔特点使支持向量机成为一种优秀的基于机器学习的算法。

SVM是从线性可分情况下的最优分类面发展而来的，其基本思想可用图1所示的二维情况说明。

margin=2/ω

图1最优分类面示意图

图1中，空心点和实心点代表两类数据样本，H为分类线，H1、H2分别为过各类中离分类线最近的数据样本且平行于分类线的直线，他们之间的距离叫做分类间隔（margin）。

所谓最优分类线，就是要求分类线不但能将两类正确分开，使训练错误率为0，而且还要使分类间隔最大。

前者保证分类风险最小；后者（即：

分类间隔最大）使推广性的界中的置信范围最小，从而时真实风险最小。

推广到高维空间，最优分类线就成为了最优分类面。

2.核函数

支持向量机的成功源于两项关键技术：

利用SVM原则设计具有最大间隔的最优分类面；在高维特征空间中设计前述的最有分类面，利用核函数的技巧得到输入空间中的非线性学习算法。

其中，第二项技术就是核函数方法，就是当前一个非常活跃的研究领域。

核函数方法就是用非线性变换Φ将n维矢量空间中的随机矢量x映射到高维特征空间，在高维特征空间中设计线性学习算法，若其中各坐标分量间相互作用仅限于内积，则不需要非线性变换Φ的具体形式，只要用满足Mercer条件的核函数替换线性算法中的内积，就能得到原输入空间中对应的非线性算法。

常用的满足Mercer条件的核函数有多项式函数、径向基函数和Sigmoid函数等，选用不同的核函数可构造不同的支持向量机。

在实践中，核的选择并未导致结果准确率的很大差别。

3.SVM的两个重要应用：

分类与回归

分类和回归是实际应用中比较重要的两类方法。

SVM分类的思想来源于统计学习理论，其基本思想是构造一个超平面作为分类判别平面，使两类数据样本之间的间隔最大。

SVM分类问题可细分为线性可分、近似线性可分及非线性可分三种情况。

SVM训练和分类过程如图

2所示。

数据训练集

特征选择

训练

分类器

新数据训练集

特征选择

分类

判别

图2SVM训练和分类过程

SVM回归问题与分类问题有些相似，给定的数据样本集合为xi,yi,…,xn,yn。

其中，xi∈R,i=1,2,3…n。

与分类问题不同，这里的yi可取任意实数。

回归问题就是给定一个新的输入样本x，根据给定的数据样本推断他所对应的输出y是多少。

如图3-1所示，“×”

表示给定数据集中的样本点，回归所要寻找的函数fx所对应的曲线。

同分类器算法的思路一样，回归算法需要定义一个损失函数，该函数可以忽略真实值某个上下范围内的误差，这种类型的函数也就是ε不敏感损失函数。

变量ξ度量了训练点上误差的代价，在ε不敏感区内误差为0。

损失函数的解以函数最小化为特征，使用ε不敏感损失函数就有这个优势，以确保全局最小解的存在和可靠泛化界的优化。

图3-2显示了具有ε不敏感带的回归函数。

o x

图3-1回归问题几何示意图

o x

图3-2回归函数的不敏感地

四、实验案例与分析

支持向量机作为一种基于数据的机器学习方法，成功应用于分类和预测两个方面。

本实例将采用支持向量机的分类算法对备件进行分类，以利于对备件进行分类管理，然后运用支持向量机的回归算法对设备备件的需求进行预测，以确定备件配置的数量。

1.基于SVM的设备备件多元分类

设备备件通常可分为三种类型，即设备的初始备件、后续备件和有寿备件。

a）初始备件：

是指设备在保证期内，用于保持和恢复设备主机、机载设备与地面保障设备设计性能所必需的不可修复件和部分可修复件。

该类设备是随设备一起交付用户的，其费用计入设备成本。

b）有寿设备：

由于规定了寿命期限，因此这基本上是一个确定性的问题。

c）后续设备：

由于备件供应保障的目标是使设备使用和维修中所需要的备件能够得到及时和充分的供应，同时使备件的库存费用降至最低。

因此，对于某种备件是否应该配置后续备件以及配置多少都需要慎重考虑。

对于某种备件是否应该配置后续备件，需要综合考虑多方面的因素。

首先，我们必须考虑部件的可靠性水平。

配置备件的根本原因也在于此。

如果可靠性水平不高，则工作部件容易出现故障，那么跟换时就需要用到备件，因此工作部件的可靠性水平是影响备件配置的一个重要因素。

其次，是故障件的可维修性水平。

故障件的可维修性水平越高，维修处理故障的时间越短，故障设备就能快速恢复工作状态；相反，如果故障件的可维修性差，则需要长时间来排除故障，为了保证设备的正常运行，只有进行换件处理，即依靠备件来接替工作。

最后，是经济方面的因素。

统计表明，高价设备的配件虽少，但是其费用却占总备件费用的很大一部分。

此外，还有一些其他方面的因素，如关键性等。

后续备件的配置涉及一个分类的问题，根据不同的类别，因采取不同的配置方式。

因此，这里使用SVM构建多元分类模型对齐进行分析。

对于备件的属性选择，主要考虑可靠性、维修性和经济性三种因素，分别选择平均故障间隔时间（MTBF）、平均维修时间（MTTR）和单价作为备件的三种属性。

因此，SVM的输入学习样本为三维，选取RBF径向基核函数作为样本向高维特征空间映射的核函数。

表1所示为8种备件样本的属性及其经验分类。

特征

品种

表1备件样本的属性及其经验分类

MTBF/kh

MTTR/h

价格/元

分类

1.000

1.37

10.000

1.32

160

0.333

1.37

800

0.040

8.22

1.000

2.74

8.000

1.27

0.100

0.54

1.000

0.82

400

0.200

4.11

R10

0.500

16.70

从表1中可以看出，对于1号分类，如R4，其显著特征是可靠性差，维修费时，但是价格便宜，需要而且适合大量配置后续备件；对于2号分类，如R2，其典型特征是可靠性高，很少发生故障，因此不需要配置后续备件；对于3号分类，如R3，其典型特征是可靠性不高，但是价格较为昂贵，因此只适合配置少量的后续备件；对于4号分类，如R7，无明显特征，属于一般后续备件，可以根据具体情况决定备件的配置数量。

通过SPSS的Clementine12.0软件进行仿真步骤：

（1）. 构建SVM模型。

图4-1

输入为3变量：

品种、MTBF、MTTR、价格，输出为分类号。

图4-2

模型选择RBF核函数，参数设置：

目标函数的正则化参数C=10，损失函数中的ε=0.1，核函数中的σ=0.1。

图4-3

（2）. 利用训练数据训练模型。

图4-4

图4-5

（3）. 利用学习好的支持向量机，对测试样本进行分类。

图4-6

图4-7

（4）. 结果分析：

a）分类结果与实际分类完全一致，可以认为采用支持向量机对设备备件的分类是有效的。

根据分类号可以得出结论：

R9属于一般备件，可以根据实际需求配置后续备件，R10需要大量配置后续备件。

b）输入样本对结果影响较大，核函数选择对结果影响不大。

c）$SP-1.0表示数据项属于分类1的概率，系统将需要分类的数据项归类到$SP最大的类中。

所以$SP越大时，分类的置信度越高。

2.基于SVM的设备需求预测

设备备件的供应保障是否得力直接影响设备的完好率，而过多的备件设置又会导致存储费用的增加，只有合理的配置备件才能在有限费用的情况下，最大限度地保障设备的供应。

因此，科学、合理、准确地预测设备需求是解决这一问题的关键。

这里依然采用支持向量机构建备件需求预测模型，以已有的成功案例作为学习样本，然后进行未知备件需求的预测。

需要特别指出的是，支持向量的三个参数需要在学习之前指定，他们是目标函数的正则化参数C，损失函数中的ε，核函数中的σ。

虽然有些启发式的算法可以获取这些参数值，但都不是最理想的。

其中，正则化参数C控制着经验风险和VC维的平衡，一般都取一个极大的数来降低误差，以取得对训练效果的较好的拟合；损失函数中的

ε控制着拟合管道的宽度，也就是误差的边界；核函数中的σ控制着支持向量机对输入变量变化的敏感程度。

这里通过一个预测sinc函数的实验来分析三个参数对支持向量的影响。

在[-3,3]区间均匀选取51个值作为自变量xi由y=sincxi+νi（其中，νi是满足正太分布N（0，0.04）的随机干扰）得到51个样本点。

由于正则化参数C控制着经验风险和VC

维的平衡，因此这里不再对其进行分析，将其固定在100，主要分析参数ε和σ的选择对于

支持向量机的样本学习和预测的影响。

先选定σ=1，分析ε的取值影响，然后根据前面得到的较好预测结果的ε值，选定ε=0.24，分析σ的取值影响，支持向量机的学习及预测结果如图3所示。

通过图5（a）、（b）比较可知，ε的选取与干扰的强弱有关，干扰越强，需要的ε也

越大，反之ε越小。

因此，应尽量让更多的支持向量位于预测的管道壁上，而非管道壁外。

图5（c）（d）说明：

核函数中的σ决定了SVM对训练样本输入变化的敏感程度，过大

的σ会使SVM反应迟钝，不能随着输入的变化迅速调整；反之，过小的σ则对输入过于敏感，

以至于干扰对SVM影响很大，甚至导致样本学习的失败。

最后，在确定了ε和σ之后，改变C的值，发现C在较大的区域内变动时，SVM的学习和预测结果没有很大的变化，这也表明ε和σ的选取是合适的。

但是，最好在此基础上适当减少C的值，避免过大的C引起经验误差和VC维失去平衡，导致VC维急剧增大，泛化能力下降。

正则化参数C，损失函数中的ε，核函数中的σ

图5支持向量机的学习及预测结果基于支持向量机的

展开阅读全文