857 机器学习机器学习Top0算法教你选择最合适的那一个一文读懂ML中的解析解与数值解.docx

资源描述

857 机器学习机器学习Top0算法教你选择最合适的那一个一文读懂ML中的解析解与数值解.docx

《857 机器学习机器学习Top0算法教你选择最合适的那一个一文读懂ML中的解析解与数值解.docx》由会员分享，可在线阅读，更多相关《857 机器学习机器学习Top0算法教你选择最合适的那一个一文读懂ML中的解析解与数值解.docx（21页珍藏版）》请在冰豆网上搜索。

857 机器学习机器学习Top0算法教你选择最合适的那一个一文读懂ML中的解析解与数值解.docx

857机器学习机器学习Top0算法教你选择最合适的那一个一文读懂ML中的解析解与数值解

【机器学习】机器学习Top10算法，教你选择最合适的那一个！

一文读懂ML中的解析解与数值解

量子位

微信号ai-cps

功能引见OT技术（工艺+精益+自动化+机器人）和IT技术（云计算+大数据+物联网+人工智能）深度融合，在场景中构建：

外形感知-实时分析-自主决策-精准执行-学习提升的机器智能认知系统，实现产业转型升级、DT驱动业务、价值创新制造的产业互联生态链。

2018-05-07原文

收录于话题

在机器学习领域里，不存在一种万能的算法可以完善处理全部问题，尤其是像猜想建模的监督学习里。

比方说，神经网络不见得比决策树好，同样反过来也不成立。

最终的结果是有很多要素在起作用的，比方说数据集的大小以及组成。

所以，针对你要处理的问题，最好是尝试多种不同的算法。

并借一个测试集来评估不同算法之间的表现，最终选出一个结果最好的。

当然，你要选适合处理你问题的算法来尝试。

比方说，要打扫房子，你会用真空吸尘器，扫把，拖把；你确定不会翻出一把铲子来开头挖坑，对吧。

大的准绳

不过呢，对于全部猜想建模的监督学习算法来说，还是有一些通用的底层准绳的。

机器学习算法，指的是要学习一个目标函数，能够尽可能地还原输入和输出之间的关系。

然后依据新的输入值X，来猜想出输出值Y。

精准地猜想结果是机器学习建模的任务。

So，Top10机器学习算法，了解一下。

1.线性回归

统计学与机器学习领域里争辩最多的算法。

做猜想建模，最重要的是精确性（尽可能减小猜想值和实际值的误差）。

哪怕牺牲可解释性，也要尽可能提高精确性。

为了达到这个目的，我们会从不同领域（包括统计学）参考或照搬算法。

线性回归可用一条线表示输入值X和输出值Y之间的关系，这条线的斜率的值，也叫系数。

比方说，y=B0+B1*x

我们就可以依据X值来猜想Y值。

机器学习的任务就是找出系数B0和B1。

从数据中建立线性回归的模型有不同的方法，比方说线性代数的最小二乘法、梯度下降优化。

线性回归已经存在了200多年，相关争辩已经很多了。

用这个算法关键在于要尽可能地移除相像的变量以及清洗数据。

对算法萌新来说，是最简约的算法了。

2 .规律回归

这方法来自统计学领域，是一种可以用在二元分类问题上的方法。

规律回归，和线性回归相像，都是要找出输入值的系数权重。

不同的地方在于，对输出值的猜想改成了规律函数。

规律函数看起来像字母S，输出值的范围是0到1。

把规律函数的输出值加一个处理规章，就能得到分类结果，非0即1。

比方说，可以规定输入值小于0.5，那么输出值就是1。

△ 规律回归

这个算法还可以用来猜想数据分布的概率，适用于需要更多数据论证支撑的猜想。

和线性回归相像，假如把和输出不相干的因子或者相近的因子剔除掉的话，规律回归算法的表现会更好。

对于二元分类问题，规律回归是个可快速上手又无效的算法。

3.线性判别分析

规律回归算法，只能用于二分问题。

当输出的结果类别超过两类的时候，就要用线性判别分析算法了。

这种算法的可视化结果还比较一目了然，能看出数据在统计学上的特征。

这上面的结果都是分别计算得到的，单一的输入值可以是每一类的中位数，也可以是每一类值的跨度。

△ 线性判别分析

基于对每品种别计算之后所得到的判别值，取最大值做出猜想。

这种方法是假定数据符合高斯分布。

所以，最好在猜想之前把特殊值先踢掉。

对于分类猜想问题来说，这种算法既简约又给力。

4. 分类与回归树

猜想模型里，决策树也是格外重要的一种算法。

可以用分两叉的树来表示决策树的模型。

每一个节点代表一个输入，每个分支代表一个变量（默认变量是数字类型）

△ 决策树

决策树的叶节点指的是输出变量。

猜想的过程会经过决策树的分岔口，直到最终停在了一个叶节点上，对应的就是输出值的分类结果。

决策树很好学，也能很快地得到猜想结果。

对于大部分问题来说，得到的结果还挺精确，也不要求对数据进行预处理。

5.朴实贝叶斯分类器

这种猜想建模的算法强大到超乎想象。

这种模型，可以直接从你的训练集中计算出来两种输出类别的概率。

一个是每种输出品种的概率；另外一个，是依据给定的x值，得到的是有条件的品种概率。

一旦计算之后，概率的模型可以用贝叶斯定理猜想新的数据。

当你的数据是实数值，那么按理说该当是符合高斯分布的，也就很简约估算出这个概率。

△ 贝叶斯定理

朴实贝叶斯定理之所以名字里有个“朴实”，是由于这种算法假定每个输入的变量都是独立的。

不过，真实的数据不行能满足这个隐蔽前提。

虽然如此，这个方法对很多简约的问题还是很管用的。

6.K近邻算法

最近K近邻的模型表示，就是整个训练集。

很直截了当，对吧？

对新数据的猜想，是搜索整个训练集的值，找到K个最近的例子（literally的邻居）。

然后总结K个输出的变量。

这种算法难就难在，怎样定义两个数据的相像度（相距多近算相像）。

假如你的特征（attributes）属于同一个尺度的话，那最简约的方法是用欧几里得距离。

这个数值，你可以基于每个输入变量之间的距离来计算得出。

△ 最近邻法

最近邻法，需要占用大量的内存空间来放数据，这样在需要猜想的时候就可以进行即时运算（或学习）。

也可以不断更新训练集，使得猜想愈加精确。

距离或亲热度这个思路遇到更高维度（大量的输入变量）就行不通了，会影响算法的表现。

这叫做维度的诅咒。

当（数学）空间维度添加时，分析和组织高维空间（通常有成百上千维），因体积指数添加而遇到各种问题场景。

所以最好只保留那些和输出值有关的输入变量。

7.学习矢量量化

最近邻法的缺点是，你需要整个训练集。

而学习矢量量化（后简称LVQ）这个神经网络算法，是自行选择训练样例。

LVQ，是一组矢量，也叫码本。

一开头，矢量是随机选的，经过几次学习算法迭代之后，渐渐选出最能代表训练集的矢量。

学习完成后，码本就可以用来猜想了，就像最近邻法那样。

计算新输入样例和码本的距离，可以找出最相近的邻居，也就是最婚配的码本。

假如你重新调整数据尺度，把数据归到同一个范围里，比如说0到1之间，那就可以获得最好的结果。

假如用最近邻法就获得了不错的结果，那么可以再用LVQ优化一下，减轻训练集储存压力。

8.支持向量机（简称SVM）

这可能是机器学习里最受欢迎的算法了。

超平面是一条可以分割输入变量的空间的“线”。

支持向量机的超平面，是能把输入变量空间尽可能抱负地按品种切割，要么是0，要么是1。

在二维空间里，你可以把超平面可以分割变量空间的那条“线”。

这条线能把全部的输入值完善一分为二。

SVM的学习目标就是要找出这个超平面。

△ 支持矢量机

超平面和挨得最近的数据点之间的距离，叫做边缘。

最抱负的超平面，是可以无误差地划分训练数据。

也就是说，每一类数据里距离超平面最近的向量与超平面之间的距离达到最大值。

这些点就叫做支持向量，他们定义了超平面。

从实际操作上，最抱负的算法是能找到这些把最近矢量与超平面值距离最大化的点。

支持向量可能是最强的拿来就用的分类器了。

值得用数据集试试。

9.随机森林

随机森林，属于一种反复抽样算法，是最受欢迎也最强大的算法之一。

在统计学里，bootstrap是个估算值大小很无效的方法。

比方说估算平均值。

从数据库中取一些样本，计算平均值，反复几次这样的操作，获得多个平均值。

然后平均这几个平均值，期望能得到最接近真实的平均值。

而bagging算法，是每次取多个样本，然后基于这些样本建模。

当要猜想新数据的时候，之前建的这些模型都做次猜想，最终取这些猜想值的平均数，尽力接近真实的输出值。

随机森林在这个基础上略微有点变化。

它包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

假如你的高方差算法取得了不错的结果（比方说决策树），那么用随机森林的话会进一步拿到更好的结果。

10.提升（Boosting）算法和自顺应添加（Adaboost）算法

Boosting的核心是，对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

所得到的其次个弱分类器会订正第一个弱分类器的误差。

弱分类器的不断叠加，直到猜想结果完善为止。

Adaboost算法是首个成功用于二元分类问题的提升算法。

现在有很多提升方法都是基于Adaboost。

AdaBoost适用于短的决策树。

在第一个树建立出来之后，不同的样本训练之后的表现可以作参考，用不同的样本训练弱分类器，然后依据错误率给样本一个权重。

很难猜想的训练数据该当给更多的权重，反过来，好猜想的就少一点权重。

模型按挨次一个一个建，每个训练数据的权重都会遭到上一个决策树表现的影响。

当全部的决策树都建好之后，看新数据的猜想表现，结果准不准。

由于训练数据对于矫正算法格外重要，所以要确保数据清洗洁净了，不要有奇惊异怪的偏离值。

最终的最终

面对海量的机器学习算法，萌新最爱问的是，“我该选什么算法？

”

在回答这个问题之前，要先想清楚：

∙数据的数量、质量、本质；

∙可供计算的时间；

∙这个任务的紧急程度；

∙你用这个数据想做什么。

要晓得，即便是老司机，也无法闭着眼睛说哪个算法能拿到最好的结果。

还是得动手试。

其实机器学习的算法很多的，以上只是引见用得比较多的类型，比较适合萌新试试手找找感觉。

原文链接：

一文读懂ML中的解析解与数值解

来源：

数据派THU 作者：

JasonBrownlee 翻译：

王雨桐校对：

丁楠雅

你能否有如下疑问：

∙什么数据最适合我的问题？

∙什么算法最适合我的数据？

∙如何对我的算法进行调参？

本文将为你解释为什么没有一个机器学习专家能对上述问题给出直接答案。

现实上，找到合适的数据、算法、参数是使用机器学习的难题，也是你独一需要努力处理的部分。

解析解与数值解

在数学运算中，有些问题可以通过解析法和数值法处理。

∙解析解是用一种易于理解的形式描述问题，并计算精确解。

∙数值解是先猜想解，随后检验此解能否足以处理问题。

平方根是一个能同时用两种方法处理的案例。

但通常我们更偏爱解析法。

由于这种方法更快，并且能得到精确的解。

虽然如此，有时由于时间和硬件功能的限制，我们必需接受数值法。

找到线性回归方程的系数是一个很好的例子。

它既可以通过解析法计算，比如使用线性代数；但当我们不能把全部数据都储存在一台电脑里来进行解析计算时，我们也可以运用数值法处理问题，比如通过梯度下降法。

所以，当解析解是未知的时候，我们只能借助数值法。

解析解

一旦问题被界定之后，很多问题都有明确的解。

我们可以遵照一系列规律步骤来计算最终的精确解。

例如当给定一个具体的算术问题时（如加法或减法），你晓得如何操作。

在线性代数中，有一系列的方法可以用来分解矩阵，这取决于矩阵的特性是方阵、矩形阵、包含实数还是虚数等等。

附链接（机器学习中分解矩阵的简介）：

我们可以将其更广泛地拓展到软件工程中，对于那些反复毁灭的问题，无论具体的使用场景如何，我们可以通过一系列广受好评的设计来处理它们。

例如用访问者模式对列表中每一项执行操作。

一些问题在机器学习中已经界定明确并

展开阅读全文