机器学习整理新.docx

资源描述

机器学习整理新.docx

《机器学习整理新.docx》由会员分享，可在线阅读，更多相关《机器学习整理新.docx（41页珍藏版）》请在冰豆网上搜索。

机器学习整理新.docx

机器学习整理新

第一章计算学习理论（书的第七章）

1．概念

传统的模式识别理论是以概率为1成立为基础

􀂃PAC（probablyapproximatelycorrect,概率近似正确）认为机器学习应该以PAC为基础

􀂾统计学习理论（egSVM）中的泛化理论以此为基础

􀂾弱可学习理论及集群（Ensemble）学习以此为理论基础

3．PAC可学习性

概率近似（PAC）学习：

首先只要求学习器输出错误率限定在某常数ε范围内的假设，其次要求对所有的随机抽取样例序列的失败的概率限定在某常数δ范围内

PAC可学习性的一个隐含的条件：

对C中每个目标概念c，假设空间H都包含一个以任意小误差接近c的假设

第二章集群学习理论

1．ADABOOST

弱可学习的概念：

通常指一个弱分类器，该分类器的性能仅仅比随机猜测稍好一点

弱可学习定理：

如果一个概念是弱可学习的，其必要条件是它是强可学习的。

定理的证明过程是构造性的，􀃆Boosting技术

弱可学习定理的现实指导意义：

􀂾意味着我们只需要设计一组弱分类器，并将它们集群起来，就可以构成一个强分类器

集群机器学习：

􀂾将若干弱学习器集成（提升）为一个强学习器的学习算法

Thegoalofalearningalgorithmistofindaclassifierwithlowgeneralizationerror.TheunderlyingideaofBoostingistocombinesimple“rules”toformanensemblesuchthattheperformanceofthesingleclassifierisimproved

学习算法的一个目标是找到一个分类器低泛化误差。

来刺激基本思想是将简单的“规则“，形成一个合奏等该单分类器的性能得到改善

ThemainideasofAdaBoostistomaintainadistributionorasetofweightsoverthetrainingset.Initially,allweightsaresetequally,butoneachround,theweightsonmisclassifiedexamplesareincreasedsothattheweaklearnerisforcedtofocusonthehardsamplesinthetrainingset.

AdaBoost算法的主要思想的是保持一个或一组分布在训练的权重集。

最初，所有的权重设置同样的，但在每一轮的权重上误判例子增多，使学习者被迫弱专注于训练集的硬样品。

（1）样本的权重

•没有先验知识的情况下，初始的分布应为等概分布，也就是训练集如果有N个样本，每个样本的分布概率为1/N

•每次循环一后提高错误样本的分布概率，分错样本在训练集中所占权重增大，使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。

（2）弱学习机的权重

•准确率越高的弱学习机权重越高

（3）循环控制：

损失函数达到最小

•在强学习机的组合中增加一个加权的弱学习机，使准确率提高，损失函数值减小。

2．ADABOOST计算步骤

􀂃Step1:

原始训练集输入，带有原始分布

􀂃Step2:

给出训练集中各样本的权重

􀂃Step3:

将改变分布后的训练集输入已知的弱学习机，弱学习机对每个样本给出假设

􀂃Step4:

对此次的弱学习机给出权重

􀂃Step5:

转到Step2,直到循环到达一定次数或者某度量标准符合要求

􀂃Step6:

将弱学习机按其相应的权重加权组合形成强学习机

3．ADABOOST基本思想与一些结论（看实例）

样本的权重

􀂾没有先验知识的情况下，初始的分布应为等概分布，也就是训练集如果有N个样本，每个样本的分布概率为1/N

􀂾每次循环一后提高错误样本的分布概率，分错样本在训练集中所占权重增大，使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。

弱学习机的权重

􀂾准确率越高的弱学习机权重越高

循环控制：

损失函数达到最小

􀂾在强学习机的组合中增加一个加权的弱学习机，使准确率提高，损失函数值减小。

Largemarginproperty

􀂃AdaBoostalgorithmissuitedtothetaskofmaximizingmarginoftrainingsamples.Thatmeansthegenerationperformanceisgood.

AdaBoost算法适合最大化利润任务训练样本。

这意味着一代性能好的。

Conferencemeasurement

􀂃AdaBoostcanbeextendedtohandleweakhypotheseswhichoutputreal-valuedorconfidence-ratedpredictions.

AdaBoost算法可以推广到弱的假设的处理输出的实值或信心级预测。

4．ADABOOST优缺点

优点：

提高分类精度

保证性能的理论

可用于许多不同的分类

通常用于很多领域

实现简单

不会出现过拟合

缺点：

􀂾HugestorageisinvolvedforAdaBoostsothatmakeithardtobepracticalforlargescalerecognitionproblems

巨大的存储为AdaBoost的参与，使得在难以被承认为大规模问题的实际中应用

第三章支持向量机SVM（p166p167）

1．感知器线性算法

思想：

LARGEMARGIN

一、SVM的一些关键思想

1.结构风险最小化（SRM）原则

•关注泛化能力

•LargeMargin（最大边界）（例子如后页的图1）

2.计算学习理论的数学基础

•小样本问题和小样本理论

•VC维CoLT

3.性能的理论保证

4.利用核函数解决非线性问题

2．结构风险最小化SRM

3．MARGIN数学表达

4．松弛因子C越小越好

5．核函数，核方法

Keyidea:

transformxitoahigherdimensionalspace

Whytransform?

􀂾addinganewfeatureofxicanmaketheproblemlinearlyseparable（Note:

featurespaceisofhigherdimension）新加入的X功能可以使问题线性可分（注：

高维特征空间中）

6．SVM小结

􀂃Trainingisequivalenttosolvingaquadraticprogrammingproblemwithasmanyvariablesasdatapoints

􀂃Fewparameterstoset

􀂃GeneralizationperformancecanbeestimatedaftertrainingbycountingthenumberofSVs

􀂃Providesasparseandcompactrepresentationofthedata

􀂃UnlikelytooverfitduetoSRMprinciple

􀂃Excellentperformanceonmanyrealworldproblems

􀂃训练是等价于求解一个二次规划问题，如数据点多的变量

􀂃更少参数需要设置

􀂃泛化性能可估计训练后通过计算SV的数量

􀂃提供了数据稀疏和简洁表示

􀂃不太可能过拟合由于SRM的原则

􀂃在许多现实问题中表现卓越的性能

7．多类SVM

For4-class（A,B,C,D）classificationproblem:

One-against-the-rest

􀂾SVM（A,（BCD））;SVM（B,（ACD））;SVM（C,（ABD））;SVM（D,（

ABC））

􀂾Choosethebestbycomparingthefourresults

One-against-one

􀂾SVM（A,B）;SVM（A,C）;SVM（A,D）;

SVM（B,C）;SVM（B,D）;SVM（C,D）

􀂾Choosetheonethatwinsmosttobetherightclass

􀂾Note:

kclassK（K-1）/2SVM

二叉树法，有向无环图法

基于竞赛的集成策略

第四章谱聚类

CompactnessConnectivity

总结

使用集群的算法从数据点矩阵的特征向量产生

获取数据表示，在低维空间，可以很容易地聚集

使用的方法的不同品种的特征向量（我们所看到的一个例子）

作者不同意：

使用哪一个特征向量

如何从这些特征向量集群

分区使用一次只有一个特征向量

使用过程递归

例如：

图像分割

使用第二（最小）特征向量确定最优分割

递归生成两个组，每个切

利用K特征向量（由用户选择了金）

直接计算的k-划分方法

实验一直被视为是“更好”

好消息：

简单而强大的图像分割方法。

灵活，易于应用到其他群集问题。

坏消息是：

高内存需求（使用稀疏矩阵）。

非常依赖于某个特定问题的规模因素。

第五章流型学习

LinearApproaches：

Principalcomponentanalysis.

Multidimensionalscaling.

NonLinearApproaches：

LocalLinearEmbedding

ISOMAP

LaplacianEigenmap.

1．Principalcomponentanalysis

Areasofvarianceindataarewhereitemscanbebestdiscriminatedandkeyunderlyingphenomenaobserved

Iftwoitemsordimensionsarehighlycorrelatedordependent：

Theyarelikelytorepresenthighlyrelatedphenomena

Wewanttocombinerelatedvariables,andfocusonuncorrelatedorindependentones,especiallythosealongwhichtheobservationshavehighvariance

Welookforthephenomenaunderlyingtheobservedcovariance/co-dependenceinasetofvariables

Thesephenomenaarecalled“factors”or“principalcomponents”or“independentcomponents,”dependingonthemethodsusedFactoranalysis:

basedonvariance/covariance/correlation

IndependentComponentAnalysis:

basedonindependence

在数据变化的地区，则可以在项目和重点基础最好的歧视现象观察

如果两个项目或尺寸高度相关或依赖：

它们很可能代表高度相关的现象

我们要结合相关的变量，并专注于不相关或独立的，尤其是那些沿着它具有高变异的观察

我们寻找相关的现象在一组变量的协方差观察/共同的依赖

这些现象被称为“因素”或“主要成分”或“独立成分，”这取决于使用因子分析的方法：

基于方差/协方差/相关

独立成分分析：

基于独立

PCA是用来确定最具代表功能的数据点。

它计算的P-维子空间，这样的子空间上的数据点预测已经在所有p维子空间的最大差异。

非迭代，全局最优解

主成分分析预测是从一个低维的基础上重建理想，但不得歧视的最佳...

利用线性判别分析（LDA）或Fisher的线性判别（FLD）的

特征脸试图尽量扩大在面对空间的训练图像分散，而Fisherfaces试图最大化类间散布的，同时尽量减少类内散布的。

2．线性逼近小结

原则

线性投影方法，以减少参数数目

转移的相关变量进入一个新的一套集互不相关的变量

数据映射到一个低维空间

无监督学习形式

属性

它可以被看作是原来的变量对现有旋转轴在空间的新定义的位置

新的坐标轴是正交的，代表最大变异的方向

应用：

在模式识别和检索许多环境中，我们有一个功能对象矩阵。

对于文本，其条款是他们的特点，文件是对象。

用户的意见...

这个矩阵可以有多余的维度。

可以使用低秩逼近。

如果条目丢失（例如，用户的意见），如果维度低，则可以恢复。

3．NonlinearDR–Isomap

建立邻居图G

对于G中每一对点，计算最短路径的距离----测地距离。

使用Dijkstra'sorFloyd的算法

应用核PCA给予C的测地距离的平方为中心的矩阵。

项目测试点作为核PCA的主成分。

Isomapforimages

BuildadatagraphG.

Vertices:

images

（u,v）isanedgeiffSSD（u,v）issmall

Foranytwoimages,weapproximatethedistancebetweenthemwiththe“shortestpath”onG

建立一个数据图G

顶点：

图像

（u,v）是边界值如果SSD（u,v）比较小

对于任何两个图片，我们近似得到它们之间“最短路径”G。

1.BuildasparsegraphwithK-nearestneighbors。

2.Inferotherinterpointdistancesbyfindingshortestpathsonthegraph（Dijkstra'salgorithm）.

1。

构建K-近邻的稀疏图。

2。

通过在图上寻找最短路径推断其他内部点的距离。

（Dijkstra'salgorithm）

优点：

非线性

全局最优

保证渐近恢复真正的维数

缺点：

可能不稳定，依赖于数据的拓扑结构

随着N的增加，成对距离提供更好的近似测地线，但成本较高的计算

保留全局结构

一些自由参数

对噪声敏感，噪声边缘

计算昂贵（稠密矩阵本征减少）

4．LocalLinearEmbedding

LLE的是基于简单的几何直觉。

假设数据包含N个实值向量Xi，每个向量维度是D

每个数据点与它的邻居期望接近一个流形的局部线性补丁。

Findamappingtopreservelocallinearrelationshipsbetweenneighbors

找到一个映射使本地邻居之间保持线性关系

两个步骤

1．找到权重矩阵W的线性系数：

执行总结到一个约束。

2．寻找设计向量Y来最小化重建误差，必须同时解决对整个数据集

LLE算法：

分配邻居给每个数据点X

计算权重Wij的最佳线性，重建其邻居的数据点，解决受约束的最小二乘问题。

用Wij计算低维嵌入向量Y的最佳重购值。

实例

1。

获取每个低分辨率训练补丁的特征向量

2。

对于每一个测试补丁的特征向量，查找最近的K个训练补丁的特征向量。

3。

寻找最佳的权重，用K个邻近向量的加权和来表示每个测试补丁向量。

4。

使用这些权重值在高分辨率测试补丁下重建这些权重。

优缺点

没有局部极小，一个自由参数

增加的和快速的

简单的线性代数运算

可以扭曲全局结构

5．总结

原则

线性和非线性投射的方式来减少参数数目

转移的相关变量进入一套新的互不相关的变量

数据映射到一个低维空间

无监督学习形式

应用

PCA和潜在语义索引的文本挖掘

ISOMAP算法和非参数模型的图像变形

LLE和Isomap在光谱和彩色图像中的分析

图像空间和视频轨迹：

利用Isomap探索视频序列

用Isomap挖掘高维医学数据结构知识

第六章聚类分析

1．简介与分类

•什么是聚类分析？

–聚类:

数据对象的集合

•在同一个类中，数据对象是相似的

•不同类之间的对象是不相似的

–聚类分析

•一个数据集合分组成几个聚类

–聚类是一种无监督分类:

没有预定义的类

–典型应用

•作为一个独立的工具透视数据分布

•可以作为其他算法的预处理步骤

聚类算法类型

•层次聚类与非层次聚类

–自底向上与自上向下（凝聚与分裂）

–K-均值

•软聚类与硬聚类

–K-均值（硬聚类）

–模糊聚类（软聚类）

2．距离测度（差值）

3．马氏距离

4．相似度测度

5．匹配测度

6．类定义与距离