1、如果和都在判定面上,则即:0)(=xgxxbbTT+=+xwxw0)(=xxwT多类分类(多类分类(1)设计多类分类的方法:其他类分开类和个两类问题,每次把类问题转化为把类分开类和非个两类问题,每次把类问题转化为把jiiiCCKKKCCKK2/)1(多类分类(多类分类(2)由于上面的两种方法都会产生无法确定类型的区域,所以需用另一种方法:定义c个判别函数:判定准则:得到的分类器称为“线性机”,把特征空间分为K个判定域Ri当x在Ri中时,gi(x)有最大值KibgiTii,.2,1,)(=+=xwx不判定:若存在类判定为第:)()(),()(xgxgiijxgxgjiji主要内容主要内容 引言
2、线性判别函数和判定面 广义线性判别函数广义线性判别函数 两类线性可分的情况 感知器准则函数最小化 松弛算法 不可分的情况 最小平方误差方法广义线性判别函数(广义线性判别函数(1)关于以x为自变量的某些函数的线性函数例如:扩展线性判别函数为二次判别函数:由于,我们可以假设。故二次判别函数就有另外的个系数来产生更复杂的分割面。=+=+=didjjiijdiiidiiixxwxwwxgxwwxg111010)()(加入另外的项ijjixxxx=jiijww=2/)1(+dd0)(=xgbfgiii+=)()(xx广义线性判别函数(广义线性判别函数(2)例子:考虑二次型判别函数:我们可以得到三维向量:
3、从x到y的映射如图:2321)(xaxaaxg+=21xxy广义线性判别函数(广义线性判别函数(3)推广开来,可以利用任意多个任意的函数函数的作用只是将d维的R空间上的点映射到任意维的F空间上的点。原来的问题就通过从R到F的映射简化为寻找一个齐次线性分类器if广义线性判别函数(广义线性判别函数(4)广义现行判别函数的优势:从非线性可分到线性可分注意注意:处理基于如下假设映射到高维空间并不给数据附加任何错误的结构及相关性看似简单,但由于“维数灾难”问题,常使得它难以得到应用。广义线性判别函数(广义线性判别函数(5)特例:考虑判别函数:我们可以写成:这样的y有时被称为“增广特征向量”1)(0010
4、=+=xxwxwwxgdiiidiii设=xxxyd111广义线性判别函数(广义线性判别函数(6)接上页的特例:类似地,一个“增广权向量”可写成:这个从d维空间到d+1维空间的映射虽然在数学上几乎没有变化,但却非常有用,虽然增加了一个常量,但是在x空间上的所有样本间距离在变换后保持不变。=ww010,.,wwwwTd线性机的训练线性机的训练寻找线性判别函数的问题将被形式化为极小化准则函数的问题,准则函数的选取是获得高性能分类器的关键以分类为目的的准则函数可以是样本风险,或者训练样本,即对训练样本集进行分类所引起的平均损失。但是要注意:小的训练误差并不能保证测试误差同样小。(过拟合问题)主要内容
5、主要内容 引言 线性判别函数和判定面 广义线性判别函数 两类线性可分的情况两类线性可分的情况 感知器准则函数最小化 松弛算法 不可分的情况 最小平方误差方法两类线性可分的情况两类线性可分的情况假设有一个包含n个样本的集合,一些标记为C1,另一些标记为C2。我们希望用这些样本来确定权向量。一个合理的想法是:寻找一个能将所有这些样本正确分类的权向量。加入这个权向量存在,则这些样本则是线性可分的。我们可以用一种“规范化”操作来简化两类样本的训练过程,也就是说,对于属于C2的样本用负号表示。这样,我们可以忘掉这些标记,而寻找一个对所有样本都有。这样的向量成为“分离向量”或者“解向量”。nyyy,2,1
6、ayai的权向量0梯度下降算法梯度下降算法(1)寻找满足不等式组的解时所采用的办法:定义一个准则函数,当时解向量时,最小。上述问题即为极小化问题,可用梯度下降法来解决。梯度下降的原理:从一个随意选择的权向量开始,计算梯度向量 下一个值由自向下降最陡的方向移一段距离得到,即沿梯度的负方向 我们希望这样得到的权向量序列,最终收敛到一个使得最小化的解上通常下一个值由得到。0iya)(aJa)(aJ()1a()()1aJ()2a()1a()()()()()kaJkkaka=+1率说用于设定步长的学习是正的比例因子,或者)(aJ梯度下降算法梯度下降算法(2)算法基本形式:梯度算法存在一些问题,不过可以在
7、构造用来极小化函数的同时,避免某些最严重 大问题。主要内容主要内容 引言 线性判别函数和判定面 广义线性判别函数 两类线性可分的情况 感知器准则函数最小化感知器准则函数最小化 松弛算法 不可分的情况 最小平方误差方法感知器准则函数最小化感知器准则函数最小化构造解线性不等式的准则函数的问题。感知器准则函数:0iya=ypyaaJ)()()错分的样本集是被 aa感知器准则函数最小化感知器准则函数最小化算法简单叙述:下一个权向量等于被前一个权向量错分的样本的和乘以一个系数每次修正权向量时都要计算成批的样本进一步推广:带裕量的批处理感知机此外,也可以不使用批处理策略,考虑一种更积极的策略:每当一个样本
8、被分错,则立即对权向量进行调整(单样本感知单样本感知机算法机算法)感知器准则函数最小化的推广感知器准则函数最小化的推广带裕量的单样本变增量感知器:主要内容主要内容 引言 线性判别函数和判定面 广义线性判别函数 两类线性可分的情况 感知器准则函数最小化 松弛算法松弛算法 不可分的情况 最小平方误差方法松弛算法松弛算法准则函数:此函数的梯度是连续的,给出了一个更平滑的表明来进行搜索。不过权向量序列可能收敛到边界上的一点。而且它得到的值可能依赖于模值最大的样本向量。故定义下面的准则函数来避免:()()=yqyaaJ2()的样本集是满足byaaybyaaJyr=)(21)(22下降算法下降算法故松弛算
9、法如下:()=yrrrryybyaJJaJbyaaJa给出。的梯度由。为时样本都有故当且仅当对所有训练。为为空时20)(0)(松弛算法松弛算法类似的,单样本裕量松弛算法那么算法为:主要内容主要内容 引言 线性判别函数和判定面 广义线性判别函数 两类线性可分的情况 感知器准则函数最小化 松弛算法 不可分的情况不可分的情况 最小平方误差方法不可分的情况不可分的情况当样本是线性可分时,感知器法和松弛法给了我们许多可以寻找分类向量的简单方法,都称为“误差校正方法”。实际上只有在有理由认为最优线性判别函数的误差率比较低的时候才会考虑使用这些方法。找到了对训练样本的分离向量,并不能保证它对独立的测试数据都
10、有好的分类。若不存在可以将不可分数据集中的样本都正确分类的权向量,显然误差校正过程永远不会结束。所以需要修改算法,使得在不可分问题中得到令人接受的结果。并保持对可分问题能正确分类。不可分的情况不可分的情况最通常的想法是使用变增量选择变增量很重要,一般有当研究随机逼近技术的时候,后一种方法时一种类似问题的理论解。趋向趋于无穷大时,且当0)(),(kkk()()()kkk/1选择令它为当前性能的函数的方法选择主要内容主要内容 引言 线性判别函数和判定面 广义线性判别函数 两类线性可分的情况 感知器准则函数最小化 松弛算法 不可分的情况 最小平方误差方法最小平方误差方法最小平方误差方法最小平方误差方
11、法 考虑一种包含所有样本的准则函数,尝试的情况 线性方程组可用矩阵表达:即iibya=bYa=ndndnnddbbbaaayyyyyyyyy2121102212011110最小平方误差方法最小平方误差方法定义一个误差向量:则提出一个使得误差向量长度的平方最小化的方法。这就是最小化误差平方和的准则函数(MSE):MSE可用梯度搜索法解决。一个简单的形式相近的解可通过计算梯度:并令其为0获得。bYae=()=niiisbyabYaaJ122)()(221bYaYybyaJiniiis=最小平方误差方法最小平方误差方法得到必要条件:最大优点是:是个方阵,且通常非奇异。即bYYaY=YYYYYYbYbYYYa=11)()(其中Widrow-Hoff算法或最小均方算法Widrow-Hoff算法或最小均方算法可通过一个梯度下降法来求极小值。这种无须计算伪逆的方法有两个优点:避免了是奇异矩阵所带来的问题 避免了大矩阵运算,且该计算是一个反馈过程,可自动适应由舍入或者截断误差所带来的问题一种改进的算法:LMS算法:()2bYaaJs=YY()()bkYaYkkakaa+=+)()()1()1(任意End of Lecture 3
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1