机器学习整理新.docx

上传人:b****8 文档编号:27807026 上传时间:2023-07-05 格式:DOCX 页数:41 大小:3.69MB
下载 相关 举报
机器学习整理新.docx_第1页
第1页 / 共41页
机器学习整理新.docx_第2页
第2页 / 共41页
机器学习整理新.docx_第3页
第3页 / 共41页
机器学习整理新.docx_第4页
第4页 / 共41页
机器学习整理新.docx_第5页
第5页 / 共41页
点击查看更多>>
下载资源
资源描述

机器学习整理新.docx

《机器学习整理新.docx》由会员分享,可在线阅读,更多相关《机器学习整理新.docx(41页珍藏版)》请在冰豆网上搜索。

机器学习整理新.docx

机器学习整理新

第一章计算学习理论(书的第七章)

1.概念

传统的模式识别理论是以概率为1成立为基础

􀂃PAC(probablyapproximatelycorrect,概率近似正确)认为机器学习应该以PAC为基础

􀂾统计学习理论(egSVM)中的泛化理论以此为基础

􀂾弱可学习理论及集群(Ensemble)学习以此为理论基础

3.PAC可学习性

概率近似(PAC)学习:

首先只要求学习器输出错误率限定在某常数ε范围内的假设,其次要求对所有的随机抽取样例序列的失败的概率限定在某常数δ范围内

PAC可学习性的一个隐含的条件:

对C中每个目标概念c,假设空间H都包含一个以任意小误差接近c的假设

第二章集群学习理论

1.ADABOOST

弱可学习的概念:

通常指一个弱分类器,该分类器的性能仅仅比随机猜测稍好一点

弱可学习定理:

如果一个概念是弱可学习的,其必要条件是它是强可学习的。

定理的证明过程是构造性的,􀃆Boosting技术

弱可学习定理的现实指导意义:

􀂾意味着我们只需要设计一组弱分类器,并将它们集群起来,就可以构成一个强分类器

集群机器学习:

􀂾将若干弱学习器集成(提升)为一个强学习器的学习算法

Thegoalofalearningalgorithmistofindaclassifierwithlowgeneralizationerror.TheunderlyingideaofBoostingistocombinesimple“rules”toformanensemblesuchthattheperformanceofthesingleclassifierisimproved

学习算法的一个目标是找到一个分类器低泛化误差。

来刺激基本思想是将简单的“规则“,形成一个合奏等该单分类器的性能得到改善

ThemainideasofAdaBoostistomaintainadistributionorasetofweightsoverthetrainingset.Initially,allweightsaresetequally,butoneachround,theweightsonmisclassifiedexamplesareincreasedsothattheweaklearnerisforcedtofocusonthehardsamplesinthetrainingset.

AdaBoost算法的主要思想的是保持一个或一组分布在训练的权重集。

最初,所有的权重设置同样的,但在每一轮的权重上误判例子增多,使学习者被迫弱专注于训练集的硬样品。

(1)样本的权重

•没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N

•每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。

(2)弱学习机的权重

•准确率越高的弱学习机权重越高

(3)循环控制:

损失函数达到最小

•在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。

2.ADABOOST计算步骤

􀂃Step1:

原始训练集输入,带有原始分布

􀂃Step2:

给出训练集中各样本的权重

􀂃Step3:

将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设

􀂃Step4:

对此次的弱学习机给出权重

􀂃Step5:

转到Step2,直到循环到达一定次数或者某度量标准符合要求

􀂃Step6:

将弱学习机按其相应的权重加权组合形成强学习机

3.ADABOOST基本思想与一些结论(看实例)

样本的权重

􀂾没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N

􀂾每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。

弱学习机的权重

􀂾准确率越高的弱学习机权重越高

循环控制:

损失函数达到最小

􀂾在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。

Largemarginproperty

􀂃AdaBoostalgorithmissuitedtothetaskofmaximizingmarginoftrainingsamples.Thatmeansthegenerationperformanceisgood.

AdaBoost算法适合最大化利润任务训练样本。

这意味着一代性能好的。

Conferencemeasurement

􀂃AdaBoostcanbeextendedtohandleweakhypotheseswhichoutputreal-valuedorconfidence-ratedpredictions.

AdaBoost算法可以推广到弱的假设的处理输出的实值或信心级预测。

4.ADABOOST优缺点

优点:

提高分类精度

保证性能的理论

可用于许多不同的分类

通常用于很多领域

实现简单

不会出现过拟合

缺点:

􀂾HugestorageisinvolvedforAdaBoostsothatmakeithardtobepracticalforlargescalerecognitionproblems

巨大的存储为AdaBoost的参与,使得在难以被承认为大规模问题的实际中应用

第三章支持向量机SVM(p166p167)

1.感知器线性算法

思想:

LARGEMARGIN

一、SVM的一些关键思想

1.结构风险最小化(SRM)原则

•关注泛化能力

•LargeMargin(最大边界)(例子如后页的图1)

2.计算学习理论的数学基础

•小样本问题和小样本理论

•VC维CoLT

3.性能的理论保证

4.利用核函数解决非线性问题

2.结构风险最小化SRM

3.MARGIN数学表达

4.松弛因子C越小越好

5.核函数,核方法

Keyidea:

transformxitoahigherdimensionalspace

Whytransform?

􀂾addinganewfeatureofxicanmaketheproblemlinearlyseparable(Note:

featurespaceisofhigherdimension)新加入的X功能可以使问题线性可分(注:

高维特征空间中)

6.SVM小结

􀂃Trainingisequivalenttosolvingaquadraticprogrammingproblemwithasmanyvariablesasdatapoints

􀂃Fewparameterstoset

􀂃GeneralizationperformancecanbeestimatedaftertrainingbycountingthenumberofSVs

􀂃Providesasparseandcompactrepresentationofthedata

􀂃UnlikelytooverfitduetoSRMprinciple

􀂃Excellentperformanceonmanyrealworldproblems

􀂃训练是等价于求解一个二次规划问题,如数据点多的变量

􀂃更少参数需要设置

􀂃泛化性能可估计训练后通过计算SV的数量

􀂃提供了数据稀疏和简洁表示

􀂃不太可能过拟合由于SRM的原则

􀂃在许多现实问题中表现卓越的性能

7.多类SVM

For4-class(A,B,C,D)classificationproblem:

One-against-the-rest

􀂾SVM(A,(BCD));SVM(B,(ACD));SVM(C,(ABD));SVM(D,(

ABC))

􀂾Choosethebestbycomparingthefourresults

One-against-one

􀂾SVM(A,B);SVM(A,C);SVM(A,D);

SVM(B,C);SVM(B,D);SVM(C,D)

􀂾Choosetheonethatwinsmosttobetherightclass

􀂾Note:

kclassK(K-1)/2SVM

二叉树法,有向无环图法

基于竞赛的集成策略

第四章谱聚类

CompactnessConnectivity

 

总结

使用集群的算法从数据点矩阵的特征向量产生

获取数据表示,在低维空间,可以很容易地聚集

使用的方法的不同品种的特征向量(我们所看到的一个例子)

作者不同意:

使用哪一个特征向量

如何从这些特征向量集群

 

分区使用一次只有一个特征向量

使用过程递归

例如:

图像分割

使用第二(最小)特征向量确定最优分割

递归生成两个组,每个切

利用K特征向量(由用户选择了金)

直接计算的k-划分方法

实验一直被视为是“更好”

好消息:

简单而强大的图像分割方法。

灵活,易于应用到其他群集问题。

坏消息是:

高内存需求(使用稀疏矩阵)。

非常依赖于某个特定问题的规模因素。

第五章流型学习

LinearApproaches:

Principalcomponentanalysis.

Multidimensionalscaling.

NonLinearApproaches:

LocalLinearEmbedding

ISOMAP

LaplacianEigenmap.

1.Principalcomponentanalysis

Areasofvarianceindataarewhereitemscanbebestdiscriminatedandkeyunderlyingphenomenaobserved

Iftwoitemsordimensionsarehighlycorrelatedordependent:

Theyarelikelytorepresenthighlyrelatedphenomena

Wewanttocombinerelatedvariables,andfocusonuncorrelatedorindependentones,especiallythosealongwhichtheobservationshavehighvariance

Welookforthephenomenaunderlyingtheobservedcovariance/co-dependenceinasetofvariables

Thesephenomenaarecalled“factors”or“principalcomponents”or“independentcomponents,”dependingonthemethodsusedFactoranalysis:

basedonvariance/covariance/correlation

IndependentComponentAnalysis:

basedonindependence

在数据变化的地区,则可以在项目和重点基础最好的歧视现象观察

如果两个项目或尺寸高度相关或依赖:

它们很可能代表高度相关的现象

我们要结合相关的变量,并专注于不相关或独立的,尤其是那些沿着它具有高变异的观察

我们寻找相关的现象在一组变量的协方差观察/共同的依赖

这些现象被称为“因素”或“主要成分”或“独立成分,”这取决于使用因子分析的方法:

基于方差/协方差/相关

独立成分分析:

基于独立

PCA是用来确定最具代表功能的数据点。

它计算的P-维子空间,这样的子空间上的数据点预测已经在所有p维子空间的最大差异。

非迭代,全局最优解

主成分分析预测是从一个低维的基础上重建理想,但不得歧视的最佳...

利用线性判别分析(LDA)或Fisher的线性判别(FLD)的

特征脸试图尽量扩大在面对空间的训练图像分散,而Fisherfaces试图最大化类间散布的,同时尽量减少类内散布的。

2.线性逼近小结

原则

线性投影方法,以减少参数数目

转移的相关变量进入一个新的一套集互不相关的变量

数据映射到一个低维空间

无监督学习形式

属性

它可以被看作是原来的变量对现有旋转轴在空间的新定义的位置

新的坐标轴是正交的,代表最大变异的方向

应用:

在模式识别和检索许多环境中,我们有一个功能对象矩阵。

对于文本,其条款是他们的特点,文件是对象。

用户的意见...

这个矩阵可以有多余的维度。

可以使用低秩逼近。

如果条目丢失(例如,用户的意见),如果维度低,则可以恢复。

3.NonlinearDR–Isomap

建立邻居图G

对于G中每一对点,计算最短路径的距离----测地距离。

使用Dijkstra'sorFloyd的算法

应用核PCA给予C的测地距离的平方为中心的矩阵。

项目测试点作为核PCA的主成分。

Isomapforimages

BuildadatagraphG.

Vertices:

images

(u,v)isanedgeiffSSD(u,v)issmall

Foranytwoimages,weapproximatethedistancebetweenthemwiththe“shortestpath”onG

建立一个数据图G

顶点:

图像

(u,v)是边界值如果SSD(u,v)比较小

对于任何两个图片,我们近似得到它们之间“最短路径”G。

1.BuildasparsegraphwithK-nearestneighbors。

2.Inferotherinterpointdistancesbyfindingshortestpathsonthegraph(Dijkstra'salgorithm).

1。

构建K-近邻的稀疏图。

2。

通过在图上寻找最短路径推断其他内部点的距离。

(Dijkstra'salgorithm)

优点:

非线性

全局最优

保证渐近恢复真正的维数

缺点:

可能不稳定,依赖于数据的拓扑结构

随着N的增加,成对距离提供更好的近似测地线,但成本较高的计算

保留全局结构

一些自由参数

对噪声敏感,噪声边缘

计算昂贵(稠密矩阵本征减少)

4.LocalLinearEmbedding

LLE的是基于简单的几何直觉。

假设数据包含N个实值向量Xi,每个向量维度是D

每个数据点与它的邻居期望接近一个流形的局部线性补丁。

Findamappingtopreservelocallinearrelationshipsbetweenneighbors

找到一个映射使本地邻居之间保持线性关系

两个步骤

1.找到权重矩阵W的线性系数:

执行总结到一个约束。

2.寻找设计向量Y来最小化重建误差,必须同时解决对整个数据集

LLE算法:

分配邻居给每个数据点X

计算权重Wij的最佳线性,重建其邻居的数据点,解决受约束的最小二乘问题。

用Wij计算低维嵌入向量Y的最佳重购值。

实例

1。

获取每个低分辨率训练补丁的特征向量

2。

对于每一个测试补丁的特征向量,查找最近的K个训练补丁的特征向量。

3。

寻找最佳的权重,用K个邻近向量的加权和来表示每个测试补丁向量。

4。

使用这些权重值在高分辨率测试补丁下重建这些权重。

优缺点

没有局部极小,一个自由参数

增加的和快速的

简单的线性代数运算

可以扭曲全局结构

5.总结

原则

线性和非线性投射的方式来减少参数数目

转移的相关变量进入一套新的互不相关的变量

数据映射到一个低维空间

无监督学习形式

应用

PCA和潜在语义索引的文本挖掘

ISOMAP算法和非参数模型的图像变形

LLE和Isomap在光谱和彩色图像中的分析

图像空间和视频轨迹:

利用Isomap探索视频序列

用Isomap挖掘高维医学数据结构知识

第六章聚类分析

1.简介与分类

•什么是聚类分析?

–聚类:

数据对象的集合

•在同一个类中,数据对象是相似的

•不同类之间的对象是不相似的

–聚类分析

•一个数据集合分组成几个聚类

–聚类是一种无监督分类:

没有预定义的类

–典型应用

•作为一个独立的工具透视数据分布

•可以作为其他算法的预处理步骤

聚类算法类型

•层次聚类与非层次聚类

–自底向上与自上向下(凝聚与分裂)

–K-均值

•软聚类与硬聚类

–K-均值(硬聚类)

–模糊聚类(软聚类)

2.距离测度(差值)

3.马氏距离

4.相似度测度

5.匹配测度

6.类定义与距离

最近距离

最远距离

中间距离

重心距离

平均距离

离差平方和

7.K-近邻

基本思想

•–对k个近邻的贡献加权

•–根据这k个近邻相对xq的距离,将较大的权值赋给较近的近邻

一些说明

–对距离加权没有坏处,但会导致分类速度较慢

–如果对一个待分类的实例考虑所有的训练样例,我们称它为全局法

–如果对一个待分类的实例考虑最近的训练样例,我们称它为局部法

–K-近邻算法对应于一个假定:

一个实例的分类与在欧式空间中其附近的实例的分类相似

–它应用实例的所有属性来计算距离,而不是这些属性的一个子集,可能会导致维数灾难(curseofdimensionality)

–解决上述问题的一个方法是,对属性加权,即缩短那些与分类相关性较小的坐标轴,拉长那些与分类较相关的坐标轴,或者直接消除那些与分类最不相关的属性

8.层次聚类

•按最小距离原则不断进行两类合并。

•层级聚类法(HierarchicalClusteringMethod)(系统聚类法、谱系聚类法)

条件及约定

•待分类的特征矢量为

k次合并时的第i类

算法思想

首先将N个模式视作各自成为一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新类,计算在新的类别分划下各类之间的距离,再将距离最近的两类合并,直至所有模式聚成两类为止。

9.K均值

条件及约定

•设待分类的模式特征矢量集为

,类的数目k是事先取定的。

算法思想

该方法取定k个类别和选取k个初始聚类中心,按最小距离原则将各模式分配到k类中的某一类,之后不断地计算类心和调整各模式的类别,最终使各模式到其判属类别中心的距离平方之和最小。

k-均值是一种动态聚类方法

10.Isodata

特点:

启发性推理、分析监督、控制聚类结构及人机交互。

条件及约定:

设待分类的模式特征矢量为,算法运行前需设定7个初始参数。

算法思想:

在每轮迭代过程中,样本重新调整类别之后计算类内及类间有关参数,并和设定的门限比较,确定是两类合并为一类还是一类分裂为两类,不断地“自组织”,以达到在各参数满足设计要求条件下,使各模式到其类心的距离平方和最小。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1