机器学习大作业.docx

资源描述

机器学习大作业.docx

《机器学习大作业.docx》由会员分享，可在线阅读，更多相关《机器学习大作业.docx（21页珍藏版）》请在冰豆网上搜索。

机器学习大作业.docx

机器学习大作业

题目机器学习大报告

学院电子工程学院

专业

学生姓名

学号

第一章机器学习的基本理论及算法

1.1机器学习的基本理论

1.1.1机器学习的概念

机器学习是人工智能的一个分支，是现代计算机技术研究一个重点也是热点问题。

顾名思义，机器学习就是计算机模仿人类获取知识的模式，通过建立相应的模型，对外界输入通过记忆"归纳"推理等等方式，获得有效的信息和经验总结，进而不断的自我完善，提高系统的功能。

目前，机器学习的定义尚不统一，不同专业背景的学者出于不同的立场，对于机器学习的看法是不同的。

下面主要介绍两位机器学习专业研究者赋予机器学习的定义。

兰利（P.Langley）认为：

“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。

米切尔（T.M.Mitchell）在其著作《机器学习》中谈到“机器学习”关注的问题是“计算机程序如何随着经验积累自动提高自身的性能”，也就是主要指的是归纳学习，另外“分析学习和增强学习也是学习的一个不可或缺组成部分”。

两位学者的观点类似，都把机器学习看成是计算机或人工智能的一个分支学科，都强调的是归纳学习算法。

机器学习在人工智能领域中是一个相对比较活跃的研究领域,其研究目的就是要促进机器像人样可以源源不断获取外界的知识,建立相关学习的理论,构建学习系统,并将这些发明应用于各个领域。

1.1.2机器学习的发展历程

机器学习（machinelearning）是继专家系统之后人工智能应用的又一重要研究领域，也是人工智能和神经计算的核心研究课题之一。

作为人工智能研究的一个新崛起的分支，机器学习的发展历程大至可分为如下几个时期：

（1）热烈时期：

20世纪50年代的神经模拟和决策理论技术,学习系统在运行时很少具有结构或知识。

主要是建造神经网络和自组织学习系统,学习表现为阈值逻辑单元传送信号的反馈调整。

（2）冷静时期：

20世纪60年代早期开始研究面向概念的学习,即符号学习。

使用的工具是语义网络或谓词逻辑,不再是数值或者统计方法。

在概念获取中,学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。

在这一阶段,人们认识到学习是个复杂而循序渐进的过程;如果不要任何初始知识,则学习系统无法学到高层次的概念。

（3）复兴时期：

20世纪70年代中期,研究活动日趋兴旺,各种学习方法不断推出,实验系统大量涌现,1980年在卡内基·梅隆大学（CMU）召开的第一届机器学习专题研讨会,标志着机器学习正式成为人工智能的一个独立研究领域。

（4）蓬勃发展时期：

从20世纪80年代中后期到现在,可以认为机器学习研究进入一个新阶段,已经趋向成熟。

神经网络的复苏,带动着各种非符号学习方法与符号学习并驾齐驱,并且已超越研究范围,进入到自动化及模式识别等领域,掀起一场联结主义的热潮,各种学习方法开始继承,多策略学习已经使学习系统愈具有应用价值,开始从实验室走向应用领域。

1.1.3机器学习的模型

机器学习系统主要由三个部分构成：

环境、知识库和执行部分，如图1.1所示。

环境是信息的提供者，它向智能系统的学习部分提供所需信息，学习部分利用所得信息对知识库进行修改，不断地完善知识库，从而促使执行部分更加有效地完成任务，同时执行部分再把信息反馈给学习部分。

图1.1

影响学习系统设计的最重要的因素是环境向系统提供的信息。

知识库里存放的是指导执行部分动作的一般原则，但环境向学习系统提供的信息却是各种各样的。

如果信息的质量较高，与一般原则的差别较小，则学习部分比较容易处理。

如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息，则学习系统需要在获得足够数据之后，删除不必要的细节，进行总结推广，形成指导动作的一般原则，放入知识库。

这样，学习部分的任务就比较繁重，设计起来也较为困难。

影响学习系统设计的第二个因素是知识库。

知识的表示有多种形式，比如特征向量、一阶逻辑语句、产生式规则、语义网络和框架等。

这些表示方式各有特点，在选择时要兼顾4个方面：

表达能力强；易于推理；容易修改知识库；知识表示易于扩展。

学习系统在没有任何先验知识的前提下不能凭空获取知识，它需要环境为其提供一定的知识作为基础，然后对其进行扩展和完善，从而完成学习。

整个学习系统的关键在于执行，从而确定了执行部分的核心地位。

学习部分进行学习的目标就是改进和完善执行部分的动作。

1.2机器学习主要算法

1.2.1决策树算法

决策树可看作一个树状预测模型，它通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。

决策树的核心问题是选择分裂属性和决策树的剪枝。

决策树的算法有很多，有ID3、C4.5、CART等等。

这些算法均采用自顶向下的贪婪算法，每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点，继续这一过程直到这棵树能准确地分类训练集，或所有属性都已被使用过。

下面简单介绍最常用的决策树算法—分类回归树（CART）。

分类回归树（CART）是机器学习中的一种分类和回归算法。

设训练样本集L={x1,x2,…,xn,Y}。

其中，xi（i=1,2,…,n）称为属性向量；Y称为标签向量或类别向量。

当Y是有序的数量值时，称为回归树；当Y是离散值时，称为分类树。

在树的根节点t1处，搜索问题集（数据集合空间），找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂阈值。

在这里非纯度指标用Gini指数来衡量，它定义为:

其中，i（t）是节点t的Gini指数，p（i/t）表示在节点t中属于i类的样本所占的比例，p（j/t）是节点t中属于j类的样本所占的比例。

用该分裂变量和分裂阈值把根节点t1分裂成t2和t3，如果在某个节点ti处，不可能再有进一步非纯度的显著降低，则该节点ti成为叶结点，否则继续寻找它的最优分裂变量和分裂阈值进行分裂。

对于分类问题，当叶节点中只有一个类，那么这个类就作为叶节点所属的类，若节点中有多个类中的样本存在，根据叶节点中样本最多的那个类来确定节点所属的类别；对于回归问题，则取其数量值的平均值。

很明显，一棵很大的树可能过分拟合数据，但较小的树又可能无法捕获重要的结构。

树的最佳大小是控制模型复杂性的调整参数，它应该由数据自适应的选择。

一种可取的策略是增长一棵较大的树T0，仅当达到最小节点大小（比如5）时才停止分裂过程。

然后利用剪枝策略和5折或10折交叉验证相结合的方法来修剪这棵树，从而将一些噪声和干扰数据排除，获得最优树。

1.2.2人工神经网络

人工神经网络提供了一种普遍而且实用的方法，来从样例中学习值为实数、离散或向量的函数。

ANN学习对于训练数据中的拟合效果很好，且已经成功地涉及到医学、生理学、哲学、信息学、计算机科学等众多学科领域，这些领域互相结合、相互渗透并相互推动。

不同领域的科学家从各自学科的特点出发，提出问题并进行了研究。

ANN的研究始于1943年，心理学家W.Mcculloch和数理逻辑学家W.Pitts首先提出了神经元的数学模型。

此模型直接影响着这一领域研究的进展。

1948年，冯·诺依曼在研究中提出了以简单神经元构成的再生自动机网络结构；20世纪50年代末，F.Rosenblatt设计制作了“感知机”，它是一种多层的神经网络，这项工作首次把人工神经网络的研究从理论探讨付诸工程实践；60年代初期，Widrow提出了自适应线性元件网络，这是一种连续取值的线性加权求和阈值网络，在此基础上发展了非线性多层自适应网络。

这些实际上就是一种ANN模型；80年代初期，美国物理学家Hopfield发表了两篇关于ANN研究的论文，引起了巨大的反响。

人们重新认识到神经网络的威力以及付诸应用的现实性。

随即，研究人员围绕着Hop-field提出的方法展开了进一步的研究工作，形成了80年代中期以来ANN的研究热潮。

人工神经网络的研究在一定程度上受到了生物学的启发，因为生物的学习系统是由相互连接的神经元（Neuron）组成的异常复杂的网络。

而人工神经网络与此大体相似，它是由一系列简单单元相互密集连接构成，其中每一个单元有一定数量的实值输入（可能是其他单元的输出），并产生单一的实数值输出（可能成为其他很多单元的输入）。

在ANN的研究中提出了很多模型，它们之间的差异主要表现在研究途径、网络结构、运行方式、学习算法及其应用上。

常见的ANN模型有：

多层前向神经网络MLFN、自组织神经网络—SOM和ART、Hopfield神经网络、模糊神经网络FNN等。

人工神经网络算法的重点是构造阈值逻辑单元，一个值逻辑单元是一个对象，它可以输入一组加权系数的量，对它们进行求和，如果这个和达到或者超过了某个阈值，输出一个量。

如有输入值X1,X2,…,Xn和它们的权系数：

W1,W2,…,Wn，求和计算出的Xi×Wi，产生了激发层a=（X1×W1）+（X2×W2）+…+（Xi×Wi）+…+（Xn×Wn），其中Xi是各条记录出现频率或其他参数，Wi是实时特征评估模型中得到的权系数。

神经网络是基于经验风险最小化原则的学习算法，有一些固有的缺陷，比如层数和神经元个数难以确定，容易陷入局部极小，还有过学习现象，这些本身的缺陷在SVM算法中可以得到很好的解决。

1.2.3贝叶斯学习算法

Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

设训练样本集分为M类，记为C={c1,…,ci,…,cM}，每类的先验概率为P（ci），i=1,2,…,M。

当样本集非常大时，可以认为P（ci）=ci类样本数/总样本数。

对于一个待分样本X，其归于ci类的类条件概率是P（X/ci），则根据Bayes定理，可得到ci类的后验概率P（ci/X）:

（5）

若

，则有X∈ci。

（6）

式（6）是最大后验概率判决准则，将式（5）代入式（6），则有：

若;

;j=1,2,…,M,则X∈ci。

这就是最大后验概率判决准则，这就是常用到的Bayes分类判决准则。

经过长期的研究，Bayes分类方法在理论上论证得比较充分，在应用上也是非常广泛的。

Bayes方法的薄弱环节在于实际情况下，类别总体的概率分布和各类样本的概率分布函数（或密度函数）常常是不知道的。

为了获得它们，就要求样本足够大。

此外，当用于文本分类时，Bayes法要求表达文本的主题词相互独立，这样的条件在实际文本中一般很难满足，因此该方法往往在效果上难以达到理论上的最大值。

1.2.4遗传算法

遗传算法（GeneticAlgorithm,GA）最早由Holland于1975年首次提出。

它是一种模拟达尔文进化论的自然选择和遗传机制的随机优化搜索方法。

其主要性质可以描述如下：

1.直接对结构性对象进行操作，不存在求导和函数连续性限定。

2.具有隐并行性和全局搜索能力。

3.采用概率化的寻优方法，能够自动获取和指导优化的搜索空间，自适应调整搜索方向，不需要确定的规则。

由于遗传算法具有这些性质，它已经被广泛地应用于组合优化、信号处理、自适应控制和人工生命等领域。

在用遗传算法求解问题时，问题的每一个候选解都被编码成一个“染色体”，即个体。

若干个体构成了群体。

遗传算法初始时，随机产生一些个体。

并根据目标函数对每个个体进行评估，计算出适应度值。

根据适应度值，选择个体来通过交叉、变异等遗传操作来生成下一代群体。

遗传算法可以看做是有若干可行解组成的群体逐步进化的过程。

图1.2描述了遗传算法的基本流程。

该图给出了遗传算法求解优化问题的基本框架，大多数遗传算法均可包含于此框架内。

图1.2

1.2.5支持向量机

支持向量机是Vapnik等人于1995年根据统计学习理论提出的一种学习方法。

它是建立在统计学习理论的VC维理论和结构风险最小原理基础上，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以获得最好的推广能力。

其基本思想是：

首先选择一个非线性映射，将输入空间映射到一个高维特征空间，在此高维空间中，利用结构风险最小化原则，构造最优决策函数，寻找输入变量和输出变量之间的非线性关系。

非线性支持向量分类机的数学模型可以描述如下：

设给定训练集为{（x1,y1）,（x2,y2）,⋯,（xl,yl）}，xi∈Rn为输入向量，yi∈{−1,1}，（1≤i≤l）为样本类别标志，l为样本总数。

用非线性映射φ（∙）将样本从原空间Rn映射到高维特征空间，在此高维空间中构造最优线性决策函数y（x）=sgn[w∙φ（x）+b]。

其中w为权向量，b为常数。

求解支持向量机决策函数的参数可以通过求解对偶问题得到，即：

最大化公式得到解参数

，对非支持向量数据点对应的αi，取值为0。

以上算法是为二值分类问题设计的，当处理多类问题时，就需要构造多类分类器。

构造支持向量机多类分类器的方法有两大类：

一类方法是直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题实现多分类。

这类方法看似简单，但其计算复杂度比较高，实现起来就比较困难。

另一类方法是间接法，主要是通过组合多个二分类器来实现多分类器的构造，常见的方法有一对多法和一对一法两种：

1.一对多法（oneagainstall）。

训练时一次把某个类别的样本归为一类，其它剩余的样本归为另一类。

这样k个类别的样本构造出k个支持向量机。

分类时将未知样本分类为具有最大分类函数值的那一类。

2.一对一法（oneagainstone）。

其做法是在任意两类样本之间设计一个支持向量机，k类样本需要设计k（k−1）/2个支持向量机。

当对一个未知样本进行分类时，得到k（k−1）/2个分类结果，分类时采用一种投票策略，最后得票最多的类别即为该样本的类别。

第二章支持向量机（SVM）原理

2.1SVM的产生与发展

支持向量机（SupportVectorMachine）是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。

自1995年Vapnik在统计学习理论的基础上提出SVM作为模式识别的新方法之后，SVM一直倍受关注。

同年，Vapnik和Cortes提出软间隔（softmargin）SVM，通过引进松弛变量

度量数据

的误分类（分类出现错误时

大于0），同时在目标函数中增加一个分量用来惩罚非零松弛变量（即代价函数），SVM的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程；1996年，Vapnik等人又提出支持向量回归（SupportVectorRegression，SVR）的方法用于解决拟合问题。

SVR同SVM的出发点都是寻找最优超平面，但SVR的目的不是找到两种数据的分割平面，而是找到能准确预测数据分布的平面，两者最终都转换为最优化问题的求解；1998年，Weston等人根据SVM原理提出了用于解决多类分类的SVM方法（Multi-ClassSupportVectorMachines，Multi-SVM），通过将多类分类转化成二类分类，将SVM应用于多分类问题的判断：

此外，在SVM算法的基本框架下，研究者针对不同的方面提出了很多相关的改进算法。

例如，Suykens提出的最小二乘支持向量机（LeastSquareSupportVectorMachine，LS—SVM）算法，Joachims等人提出的SVM-1ight，张学工提出的中心支持向量机（CentralSupportVectorMachine，CSVM），Scholkoph和Smola基于二次规划提出的v-SVM等。

此后，台湾大学林智仁（LinChih-Jen）教授等对SVM的典型应用进行总结，并设计开发出较为完善的SVM工具包，也就是LIBSVM（ALibraryforSupportVectorMachines）。

上述改进模型中，v-SVM是一种软间隔分类器模型，其原理是通过引进参数v，来调整支持向量数占输入数据比例的下限，以及参数

来度量超平面偏差，代替通常依靠经验选取的软间隔分类惩罚参数，改善分类效果；LS-SVM则是用等式约束代替传统SVM中的不等式约束，将求解QP问题变成解一组等式方程来提高算法效率；LIBSVM是一个通用的SVM软件包，可以解决分类、回归以及分布估计等问题，它提供常用的几种核函数可由用户选择，并且具有不平衡样本加权和多类分类等功能，此外，交叉验证（crossvalidation）方法也是LIBSVM对核函数参数选取问题所做的一个突出贡献；SVM-1ight的特点则是通过引进缩水（shrinking）逐步简化QP问题，以及缓存（caching）技术降低迭代运算的计算代价来解决大规模样本条件下SVM学习的复杂性问题。

2.2统计学习理论基础

与传统统计学理论相比，统计学习理论（Statisticallearningtheory或SLT）是一种专门研究小样本条件下机器学习规律的理论。

该理论是针对小样本统计问题建立起的一套新型理论体系，在该体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在有限信息条件下得到最优结果。

Vapnik等人从上世纪六、七十年代开始致力于该领域研究，直到九十年代中期，有限样本条件下的机器学习理论才逐渐成熟起来，形成了比较完善的理论体系——统计学习理论。

统计学习理论的主要核心内容包括：

（1）经验风险最小化准则下统计学习一致性条件；

（2）这些条件下关于统计学习方法推广性的界的结论；

（3）这些界的基础上建立的小样本归纳推理准则；

（4）发现新的准则的实际方法（算法）

2.3SVM原理

SVM方法是20世纪90年代初Vapnik等人根据统计学习理论提出的一种新的机器学习方法，它以结构风险最小化原则为理论基础，通过适当地选择函数子集及该子集中的判别函数，使学习机器的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器，对独立测试集的测试误差仍然较小。

支持向量机的基本思想是：

首先，在线性可分情况下，在原空间寻找两类样本的最优分类超平面。

在线性不可分的情况下，加入了松弛变量进行分析，通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性情况，从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。

其次，它通过使用结构风险最小化原理在属性空间构建最优分类超平面，使得分类器得到全局最优，并在整个样本空间的期望风险以某个概率满足一定上界。

其突出的优点表现在：

（1）基于统计学习理论中结构风险最小化原则和VC维理论，具有良好的泛化能力，即由有限的训练样本得到的小的误差能够保证使独立的测试集仍保持小的误差。

（2）支持向量机的求解问题对应的是一个凸优化问题，因此局部最优解一定是全局最优解。

（3）核函数的成功应用，将非线性问题转化为线性问题求解。

（4）分类间隔的最大化，使得支持向量机算法具有较好的鲁棒性。

由于SVM自身的突出优势，因此被越来越多的研究人员作为强有力的学习工具，以解决模式识别、回归估计等领域的难题。

2.3.1．最优分类面和广义最优分类面

SVM是从线性可分情况下的最优分类面发展而来的，基本思想可用图1来说明。

对于一维空间中的点，二维空间中的直线，三维空间中的平面，以及高维空间中的超平面，图中实心点和空心点代表两类样本，H为它们之间的分类超平面，H1，H2分别为过各类中离分类面最近的样本且平行于分类面的超平面，它们之间的距离△叫做分类间隔（margin）。

图2.1最优分类面示意图

所谓最优分类面要求分类面不但能将两类正确分开，而且使分类间隔最大。

将两类正确分开是为了保证训练错误率为0，也就是经验风险最小（为O）。

使分类空隙最大实际上就是使推广性的界中的置信范围最小，从而使真实风险最小。

推广到高维空间，最优分类线就成为最优分类面。

设线性可分样本集为

是类别符号。

d维空间中线性判别函数的一般形式为是类别符号。

d维空间中线性判别函数的一般形式为

，分类线方程为

。

将判别函数进行归一化，使两类所有样本都满足

，也就是使离分类面最近的样本的

，此时分类间隔等于

，因此使间隔最大等价于使

（或

）最小。

要求分类线对所有样本正确分类，就是要求它满足

（2-1）

满足上述条件（2-1），并且使

最小的分类面就叫做最优分类面，过两类样本中离分类面最近的点且平行于最优分类面的超平面H1，H2上的训练样本点就称作支持向量（supportvector），因为它们“支持”了最优分类面。

利用Lagrange优化方法可以把上述最优分类面问题转化为如下这种较简单的对偶问题，即：

在约束条件，

（2-2a）

（2-2b）

下面对

求解下列函数的最大值：

（2-3）

若

为最优解，则

（2-4）

即最优分类面的权系数向量是训练样本向量的线性组合。

这是一个不等式约束下的二次函数极值问题，存在唯一解。

根据kühn-Tucker条件，解中将只有一部分（通常是很少一部分）

不为零，这些不为0解所对应的样本就是支持向量。

求解上述问题后得到的最优分类函数是：

（2-5）

根据前面的分析，非支持向量对应的

均为0，因此上式中的求和实际上只对支持向量进行。

是分类阈值，可以由任意一个支持向量通过式（2-1）求得（只有支持向量才满足其中的等号条件），或通过两类中任意一对支持向量取中值求得。

从前面的分析可以看出，最优分类面是在线性可分的前提下讨论的，在线性不可分的情况下，就是某些训练样本不能满足式（2-1）的条件，因此可以在条件中增加一个松弛项参数

，变成：

（2-6）

对于足够小的s>0，只要使

（2-7）

最小就可以使错分样本数最小。

对应线性可分情况下的使分类间隔最大，在线性不可分情况下可引入约束：

（2-8）

在约束条件（2-6）幂1（2-8）下对式（2-7）求极小，就得到了线性不可分情况下的最优分类面，称作广义最优分类面。

为方便计算，取s=1。

为使计算进一步简化，广义最优分类面问题可以迸一步演化成在条件（2-6）的约束条件下求下列函数的极小值：

（2-9）

其中C为某个指定的常数，它实际上起控制对锩分样本惩罚的程度的作用，实现在错分样本的比例与算法复杂度之间的折衷。

求解这一优化问题的方法与求解最优分类面时的方法相同，都是转化为一个二次函数极值问题，其结果与可分情况下得到的（1-2）到（1-5）几乎完全相同，但是条件（1-2b）变为：

（2-10）

2.3.2SVM的非线性映射

对于非线性问题，可以通过非线性交换转化为某个高维空间中的线性问题，在变换空间求最优分类超平面。

这种变换可能比较复杂，因此这种思路在一般情况下不易实现。

但是我们可以看到，在上面对偶问题中，不论是寻优目标函数（1-3）还是分类函数（1-5）都只涉及训练样本之间的内积运算

。

设有非线性映射

将输入空间的样本映射到高维（可能是无穷维）的特征空间H中，当在特征空间H中构造最优超平面时，训练算法仅使用空间中的点积，即

，而没有单独的

出现。

因此，如果能够找到一个函数K使得

（2-11）

这样在高维空间实际

展开阅读全文