机器学习作业Word文档下载推荐.docx
《机器学习作业Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《机器学习作业Word文档下载推荐.docx(11页珍藏版)》请在冰豆网上搜索。
其中蓝色字体部分请教师在命题时删除。
提交试卷时含本页。
学生从第二页开始写作,要求见蓝色字体部分。
注2:
“阅卷教师评语”部分请教师用红色或黑色碳素笔填写,不可用电子版。
无“评语”视为不合规范。
注3:
试题、评分标准、评语尽量控制在本页。
注4:
不符合规范试卷需修改规范后提交。
基于支持向量机的机器学习研究
马健
摘要:
基于数据的机器学习,研究的实质是从观测数据岀发寻找规律,利用这些规律对未来数据或无法观测的数据进行分类、研究、处理。
支持向量机是基于统计学习理论的一种新的机器学习方法,因其岀色的学习性能在国内为学术界引起了日益广泛的重视。
本文对机器学习、支持向量机的研究现状进行了综述,阐述了机器学习和支持向量机的基本概念和支持向量机的训练算法。
关键字:
机器学习支持向量机统计学习理论
0引言
学习是一起智能系统最根本的特征。
机器学习是人工智能最具智能特征、最前沿的研究领域之一。
机器学习就是要使计算机模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。
与传统统计学比较,统计学习理论是一种专门研究有限样本情况下机器学习规律的理论。
V.Vapinik等人从上世纪六、七十年代开始致力于此方面研究,到九十年代中期,其理论不断发展和成熟。
统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架,它能将很多现有方法纳入其中,同时,在这一理论基础上发展了一种新的通用的学习方法一支持向量机(SupportVectorMachine或SVM),它已初步表现出很多优于已有
方法的性能。
目前,SLT和SVM已成为国际上机器学习新的研究热点问题。
1机器学习简介
在人们对机器智能的研究中,希望能够用计算机来模拟人的思考和推广能力这种学习能力,这就是我们所说的基于数据的机器学习问题,或者简单地称为机器学习(MachineLearning)问题。
1.1机器学习系统的基本结构
一个学习系统一般应该由环境、学习、知识库、执行四个基本部分组成。
如图1所示
图1机器学习系统的基本结构
环境向系统的学习部分提供某些信息;
学习部分利用这些信息修改知识库,以增强系统执行部分完成任务的效能;
执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。
在具体应用中,环境、知识库和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述三部分确定。
1.2机器学习的主要策略
机器学习有很多优秀的学习算法,基本上可以分为基于符号和基于非符号学习(连接学习)。
其中比较好的策略有机械式学习、指导式学习、归纳学习、类比学习、基于解释的学习、基于神经网络的学习、支持向量机、基于遗传算法的学习、强化学习、多Agent学习。
1.3分类问题
机器学习主要关心分类问题,它是许多其他问题的基础和核心。
分类是通过对具体类别标记的实例(数据)进行训练,得岀一个能够预测新实例类别的模型。
设
D二<di...dm/,为训练的实例集合,每一个实例都有预先标记好的类Ck」Ck1二Co。
通过对这些数据的有导师学习,产生一个称为分类器的模型,它能对不知道类别标记的实例预测其类别。
预测的准确程度可以评价分类器的性能。
分类方法主要有贝叶斯分类、分治法、覆盖算法、投票算法等。
2基于支持向量机的机器学习
2.1支持向量机简介
支持向量机(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解决小样
本、非线性及高维模式识别中有许多特有的优势,并能推广应用到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学习理论的VC维和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。
1)VC维
定义1.1(N(F,Zm)):
设F是一个假设集,即由在X二Rn上取值为-1或1的若干函数组成的集合。
记Zm={Xi,X2,...,Xm}为X中的m个点组成的集合。
考虑当f取遍F中的所有可能的假设时产生的m维向量(f(XJ,f(X2),-f(Xm))。
定义N(F,Zm))为上述m维向量中不同的向量个数。
定义1.2(Zm被F打散):
设F是一个假设集,Zm={Xi,X2,...,Xm}为X中的m个点组成的集合。
称Zm被F打散,或F打散Zm。
定义1.3(VC维):
设假设集F是一个由X上取值为-1或1的函数组成的集合。
定义F的VC维为max{m|N(F,Zm)=2“}.
VC维反映了函数集的学习能力。
一般而言,VC维越大,学习机器越复杂。
但目前没有通用的关于任意VC维计算的理论,只对一些特殊函数集的VC维可以计算。
如何利用理论和实验的方法计算VC维是当前统计学习理论中一个待研究的问题[3]。
2)结构风险最小化
机器学习本质上是一种对问题真实模型的逼近,由于真实世界的模型往往无法精确给岀,我们给岀的模型与真实模型就存在一个误差,这个与真实模型之间的误差积累就叫做风险。
统计学习理论系统地研究了对于各种类型的函数集,经验风险和实际风险之间的关系,即泛化误差界。
统计学习理论指岀:
经验风险Remp(W)和实际风险R(W)之间至少以1-n的概率满足如下关系
h(ln(2l/h)1)-ln(/4)
R(W)兰Remp(W)+彳1
其中,I是样本数,h是函数集的VC维。
这一结论表明,统计学习的实际风险由两部分组成:
一个是经验风险,另一个是置信风险。
置信风险反映了真实风险和经验风险差值的上确界,和VC维h记样本数I有关。
可简单地表示为
R(W)乞Remp(W):
」(h/l)
在有限的训练样本下,学习机器的复杂性越高,VC维越大,置信风险就越大,就会导致真实风险和经验风险间的差别越大。
如图所示
欠学习过学习
凤险
函数集子集:
乱匚5zC5.
VG维屆C加芜加
这就解释了为什么有些学习机器训练阶段的准确率可以达到100%而泛化能力却很差。
结构风险最小化原则(StructuralRiskMinimization,SRM)就是为了取得经验风险与置信风险的最小和。
统计机器
学习理论就是为了努力最小化结构风险。
即不仅要使经验风险最小化,还要使VC维最小。
2.2线性分类器
线性分类器是最简单也是很有效的分类器形式,SVM就是是从线性可分情况下的最优分类面发展而来的。
1)线性可分
当一个线性函数能将样本完全正确地分开时,此时这些样本就是线性可分的。
否则就称为非线性可分的。
线性函数指形如f(x)=wx+b的一次函数,此函数值为0时确定了一个n维空间的超平面(Hyper
Plane)。
w、x为n维向量,b为常数。
2)广义最优分类面
方形和圆形为两类样本,H为分类线,H「H2分别为过各类分类线最近的样本,且与分类线平行,他们之间的距离margin称为分类间隔。
当分类线H不但能将两类正确分开,而且使分类间隔最大时,此分类线称为最优分类线。
对分类线方程wx+b=0进行归一化处理,使得对线性可分的样本集
(x「yj,i=1,…,n,xRd,y{1,-1},满足
y/(wXi)b]-1_0,i=1,•…,n.
2
此时分类间隔等于2/w,使间隔最大等价于使w最小。
满足上述条件的分类面就叫最优分类面,
H1,H2上的训练样本点就称作支持向量。
使分类间隔最大实际上就是对推广能力的控制,这是SVM的核心思想之一。
统计学习理论指出,在N维空间中,设样本分布在一个半径为R的超球范围内,则满足条件liwi^A的正则超平面构成的指示函数集f(x,w,b)=sgn{(wx)b}(sgn()为符号函数)的vc维满足下面的界
22
h_min([RA],N)1
因此,使w最小就是使VC维的上界最小,从而实现SRM准则中对函数复杂性的选择。
于是问题就转换成一个有约束的非线性规划问题:
min—iwi|2
w,b2
st.yi(wx「b)-1,i=1,2,....,l
称上二式组成的最优化问题为原始优化问题。
由于此为凸二次寻优问题,根据最优化理论,这个问题存在唯一全局最小解。
其Lagrange函数为:
其中,:
•j-0是约束yj(WX•b)_1的Lagrange乘子。
根据KKT条件(Karush-Kuhn-Tucker)有:
:
Lll
■W_、冷yjXj二0二.W_、iyixi
■Wi4i4
iyi=0
bi二
根据wolf对偶理论,经运算将原始优化问题转为
l1l
maxw(:
)二'
:
-ii:
jyiyj(XiXj)
ay2门吕
l
st.'
iyi=0,:
i—0,i=1,2,…,I.
i1
解此最优化问题,可确定最优超平面。
且通常只有一小部分:
-i不为0,这些非零解对应的样本就是支持向
量。
此时得到的最优分类函数是
n
f(X)二sgn{(wx)b}二sgn{'
-iyi(Xix)b*}
i二
不难看岀,式中的求和实际上只对支持向量进行。
b*可由任一支持向量回代求得。
此时,我们就得到了一个样本线性可分时的线性分类器。
2.3核函数
线性可分的问题可以由上述的线性分类器求解,当待分类样本为非线性可分时,可以通过非线性变换
转化为某个高维空间中的线性问题,在变换空间求最优分类面。
如图
当(a,b)范围内的样本为一类,其余部分为一类时,在二维空间无法找到一个线性函数将其正确分开,
但我们可以找到一条曲线,如
此时该函数表达式为
g(x)=c°
xqxC2
新建一个向量
y=(yi,y2,y3)T=(x2,x,i)T,a二佝^鸟耳卩
将g(x)转化为f(y)=:
:
a,y•,此时f(y)与g(x)等价,且为四维空间中的线性函数。
这样,我们就将低
维的非线性可分问题转化为了高维的线性可分问题。
但遗憾的是,目前还没有一种系统地将低维向量映射到高维的方法。
事实上,计算过程中我们只关心高维向量之间的内积,只要找岀一种方法可以求岀此值就得到了我们想要的结果。
核函数(kernelfunction)正是为了求出低维空间的向量经过变换后在高维空间的内积而提出的。
并且由于其输入为原空间中的低维向量,避开了高维变换计算问题,使得问题大大简化了。
根据泛函的有关理论,只要一种核函数K(xi,Xj)满足Mercer条件,它就对应某一变换空间中的内积⑹。
Mercer条件:
对任意的对称函数K(X,X),它是某个特征空间中的内积运算的充分必要条件是,对任意「(X)=0,且「2(x)dx:
有
,K(x,x)(x)(x)dxdx0
用核函数替换内积函数后,此时的最优分类目标函数变为
f(x)二sgn{'
:
iyjK(Xix)b*}
i壬
此时由于计算仍在原空间进行,分类器的计算复杂