机器学习中用到的数值分析.docx-资源下载

机器学习中用到的数值分析.docx

1、机器学习中用到的数值分析第四章背景知识condition number从优化或者数值计算的角度来说，L2 范数有助于处理 condition number 不好的情况下矩阵求逆很困难的问题。如果方阵 A 是奇异的，那么 A 的 condition number 就是正无穷大了。实际上，每一个可逆方阵都存在一个 condition number。对condition number来个一句话总结：condition number 是一个矩阵（或者它所描述的线性系统）的稳定性或者敏感度的度量，如果一个矩阵的 condition number 在1附近，那么它就是well-conditioned的，

2、如果远大于1，那么它就是 ill-conditioned 的，如果一个系统是 ill-conditioned 的，它的输出结果就不要太相信了。应用如果当我们的样本 X 的数目比每个样本的维度还要小的时候，矩阵X T X 将会不是满秩的，也就是X T X 会变得不可逆，所以w 就没办法直接计算出来了。如果加上L2规则项，就变成了下面这种情况，就可以直接求逆了：condition number一般在矩阵里被定义做最大singular value和最小singular value的比值。一般说来，如果一个矩阵的condition number大于1000，数值计算inv(A)或者解线性方程AX=Y可

3、能会遇到严重的舍入问题，这样的问题通常被称为ill-conditioned。最简单的解决方法是把A的diagonal entries都加上一个微小量delta以后再计算这样做虽然会引入误差，但是可以改善ill-condition。梯度设体系中某处的物理参数(如温度、速度、浓度等)为w，在与其垂直距离的dy处该参数为w+dw，则称为该物理参数的梯度，也即该物理参数的变化率。如果参数为速度、浓度、温度或空间，则分别称为速度梯度、浓度梯度、温度梯度或空间梯度。其中温度梯度在直角坐标系下的表达式如右图。在向量微积分中，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度

4、是这个最大的变化率。更严格的说，从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上，梯度是雅戈比矩阵的一个特殊情况。在单变量的实值函数的情况，梯度只是导数，或者，对于一个线性函数，也就是线的斜率。梯度一词有时用于斜度，也就是一个曲面沿着给定方向的倾斜程度。可以通过取向量梯度和所研究的方向的点积来得到斜度。梯度的数值有时也被称为梯度。在二元函数的情形，设函数z=f(x,y)在平面区域D内具有一阶连续偏导数，则对于每一点P(x,y)D，都可以定出一个向量(f/x)*i+(f/y)*j这向量称为函数z=f(x,y)在点P(x,y)的梯度，记作gradf(x,y)类似的对三元函数

5、也可以定义一个：(f/x)*i+(f/y)*j+(f/z)*k 记为gradf(x,y,z)梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。方向导数（directional derivative）的通俗解释是：我们不仅要知道函数在坐标轴方向上的变化率方向导数（即偏导数），而且还要设法求得函数在其他特定方向上的变化率。而方向导数就是函数在其他特定方向上的变化率。定义方向导数的精确定义（以三元函数为例）：设三元函数f在点P0（x0，y0，z0）的某邻域内有定义，l为从点P0出发的射线，P

6、（x，y，z）为l上且含于邻域内的任一点，以（rou）表示P和P0两点间的距离。若极限lim（ (f(P)-f(P0) / ）= lim （l f / ）（当0时）存在，则称此极限为函数f在点P0沿方向l的方向导数。雅可比矩阵二阶导数的集合意义：（1）斜线斜率变化的速度（2）函数的凹凸性.二阶导数是比较理论的、比较抽象的一个量,它不像一阶导数那样有明显的几何意义,因为它表示的是一阶导数的变化率.在图形上,它主要表现函数的凹凸性,直观的说,函数是向上突起的,还是向下突起的.应用：如果一个函数f(x)在某个区间I上有f(x)（即二阶导数）0恒成立,那么对于区间I上的任意x,y,总有：f(x)+f

7、(y)2f(x+y)/2,如果总有f(x)0恒成立,那么在区间I上f(x)的图象上的任意两点连出的一条线段,这两点之间的函数图象都在该线段的下方,反之在该线段的上方.机器学习中梯度下降法和牛顿法的比较在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为：可以看出，梯度下降法更新参

8、数的方式为目标函数在当前参数取值下的梯度值，前面再加上一个步长控制参数alpha。梯度下降法通常用一个三维图来展示，迭代过程就好像在不断地下坡，最终到达坡底。为了更形象地理解，也为了和牛顿法比较，这里我用一个二维图来表示：懒得画图了直接用这个展示一下。在二维图中，梯度就相当于凸函数切线的斜率，横坐标就是每次迭代的参数，纵坐标是目标函数的取值。每次迭代的过程是这样：1.首先计算目标函数在当前参数值的斜率（梯度），然后乘以步长因子后带入更新公式，如图点所在位置（极值点右边），此时斜率为正，那么更新参数后参数减小，更接近极小值对应的参数。2.如果更新参数后，当前参数值仍然在极值点右边，那么继续上面更

9、新，效果一样。3.如果更新参数后，当前参数值到了极值点的左边，然后计算斜率会发现是负的，这样经过再一次更新后就会又向着极值点的方向更新。根据这个过程我们发现，每一步走的距离在极值点附近非常重要，如果走的步子过大，容易在极值点附近震荡而无法收敛。解决办法：将alpha设定为随着迭代次数而不断减小的变量，但是也不能完全减为零。牛顿法原理是利用泰勒公式，在x0处展开，且展开到一阶，即f(x) = f(x0)+(xx0)f(x0)求解方程f(x)=0，即f(x0)+(x-x0)*f(x0)=0，求解x =x1=x0f(x0)/f(x0)，因为这是利用泰勒公式的一阶展开，f(x) = f(x0)+(xx

10、0)f(x0)处并不是完全相等，而是近似相等，这里求得的x1并不能让f（x）=0，只能说f(x1)的值比f(x0)更接近f（x）=0，于是乎，迭代求解的想法就很自然了，可以进而推出x(n+1)=x(n)f(x(n)/f(x(n)，通过迭代，这个式子必然在f（x*）=0的时候收敛。整个过程如下图：2、牛顿法用于最优化在最优化的问题中，线性最优化至少可以使用单纯行法求解，但对于非线性优化问题，牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f，求函数f的极大极小问题，可以转化为求解函数f的导数f=0的问题，这样求可以把优化问题看成方程求解问题（f=0）。剩下的问题就和第一部分提到的牛顿法求解

11、很相似了。这次为了求解f=0的根，把f（x）的泰勒展开，展开到2阶形式：这个式子是成立的，当且仅当x 无线趋近于0。此时上式等价与：求解：得出迭代公式：一般认为牛顿法可以利用到曲线本身的信息，比梯度下降法更容易收敛（迭代更少次数），如下图是一个最小化一个目标方程的例子，红色曲线是利用牛顿法迭代求解，绿色曲线是利用梯度下降法求解。在上面讨论的是2维情况，高维情况的牛顿迭代公式是：其中H是hessian矩阵，定义为：高维情况依然可以用牛顿迭代求解，但是问题是Hessian矩阵引入的复杂性，使得牛顿迭代求解的难度大大增加，但是已经有了解决这个问题的办法就是Quasi-Newton methond，不

12、再直接计算hessian矩阵，而是每一步的时候使用梯度向量更新hessian矩阵的近似。Quasi-Newton method的详细情况我还没完全理解，且听下回分解吧。首先得明确，牛顿法是为了求解函数值为零的时候变量的取值问题的，具体地，当要求解 f()=0时，如果 f可导，那么可以通过迭代公式来迭代求得最小值。通过一组图来说明这个过程。当应用于求解最大似然估计的值时，变成()=0的问题。这个与梯度下降不同，梯度下降的目的是直接求解目标函数极小值，而牛顿法则变相地通过求解目标函数一阶导为零的参数值，进而求得目标函数最小值。那么迭代公式写作：当是向量时，牛顿法可以使用下面式子表示：其中H叫做海森

13、矩阵，其实就是目标函数对参数的二阶导数。通过比较牛顿法和梯度下降法的迭代公式，可以发现两者及其相似。海森矩阵的逆就好比梯度下降法的学习率参数alpha。牛顿法收敛速度相比梯度下降法很快，而且由于海森矩阵的的逆在迭代中不断减小，起到逐渐缩小步长的效果。牛顿法的缺点就是计算海森矩阵的逆比较困难，消耗时间和计算资源。因此有了拟牛顿法。最优化问题中，牛顿法为什么比梯度下降法求解需要的迭代次数更少？牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会

14、考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。根据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。wiki上给的图很形象，我就直接转过来了：红色的牛顿法的迭代路径，绿色的是梯度下降法的迭代路径。利普希茨连续在在数学中，特别是实分析，利普希茨连续（Lipschitz continuity）以德国数学家鲁道夫利普希茨命名，是一个比通常连续更强的光

15、滑性条件。直觉上，利普希茨连续函数限制了函数改变的速度，符合利普希茨条件的函数的斜率，必小于一个称为利普希茨常数的实数（该常数依函数而定）。在微分方程中，利普希茨连续是皮卡-林德洛夫定理中确保了初值问题存在唯一解的核心条件。一种特殊的利普希茨连续，称为压缩应用于巴拿赫不动点定理。利普希茨连续可以定义在度量空间上以及赋范向量空间上；利普希茨连续的一种推广称为赫尔德连续。定义对于在实数集的子集的函数，若存在常数K，使得，则称f符合利普希茨条件，对于f最小的常数K称为f的利普希茨常数。1若K 1，f称为收缩映射。利普希茨条件也可对任意度量空间的函数定义：给定两个度量空间。若对于函数，存在常数K使得则

16、说它符合利普希茨条件。2若存在K 1使得则称f为双李普希茨(bi-Lipschitz)的。深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件p.94在求取有约束条件的优化问题时，拉格朗日乘子法（Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法，对于等式约束的优化问题，可以应用拉格朗日乘子法去求取最优值；如果含有不等式约束，可以应用KKT条件去求取。当然，这两个方法求得的结果只是必要条件，只有当是凸函数的情况下，才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候，只知道直接应用两个方法，但是却不知道为什么拉格朗日乘子

17、法（Lagrange Multiplier) 和KKT条件能够起作用，为什么要这样去求取最优值呢？本文将首先把什么是拉格朗日乘子法（Lagrange Multiplier) 和KKT条件叙述一下；然后开始分别谈谈为什么要这样求最优值。一.拉格朗日乘子法（Lagrange Multiplier) 和KKT条件通常我们需要求解的最优化问题有如下几类：(i) 无约束优化问题，可以写为: min f(x); (ii) 有等式约束的优化问题，可以写为: min f(x), s.t. h_i(x) = 0; i =1, ., n(iii) 有不等式约束的优化问题，可以写为： min f(x), s.t.

18、g_i(x) = 0; i =1, ., n h_j(x) = 0; j =1, ., m对于第(i)类的优化问题，常常使用的方法就是Fermat定理，即使用求取f(x)的导数，然后令其为零，可以求得候选最优值，再在这些候选值中验证；如果是凸函数，可以保证是最优解。对于第(ii)类的优化问题，常常使用的方法就是拉格朗日乘子法（Lagrange Multiplier) ，即把等式约束h_i(x)用一个系数与f(x)写为一个式子，称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。对于第(iii)类的优化问题，常常使用的方法就

19、是KKT条件。同样地，我们把所有的等式、不等式约束与f(x)写为一个式子，也叫拉格朗日函数，系数也称拉格朗日乘子，通过一些条件，可以求出最优值的必要条件，这个条件称为KKT条件。(a)拉格朗日乘子法（Lagrange Multiplier)对于等式约束，我们可以通过一个拉格朗日系数a 把等式约束和目标函数组合成为一个式子L(a, x) = f(x) + a*h(x), 这里把a和h(x)视为向量形式，a是横向量，h(x)为列向量，之所以这么写，完全是因为csdn很难写数学公式，只能将就了.。然后求取最优值，可以通过对L(a,x)对各个参数求导取零，联立等式进行求取，这个在高等数学里面有讲，但是

20、没有讲为什么这么做就可以，在后面，将简要介绍其思想。(b)KKT条件对于含有不等式约束的优化问题，如何求取最优值呢？常用的方法是KKT条件，同样地，把所有的不等式约束、等式约束和目标函数全部写为一个式子L(a, b, x)= f(x) + a*g(x)+b*h(x)，KKT条件是说最优值必须满足以下条件：1. L(a, b, x)对x求导为零；2. h(x) =0;3. a*g(x) = 0;求取这三个等式之后就能得到候选最优值。其中第三个式子非常有趣，因为g(x)=0，我们可以把f(x)写为：max_a,b L(a,b,x)，为什么呢？因为h(x)=0, g(x)=0，现在是取L(a,b,x

21、)的最大值，a*g(x)是=0，所以L(a,b,x)只有在a*g(x) = 0的情况下才能取得最大值，否则，就不满足约束条件，因此max_a,b L(a,b,x)在满足约束条件的情况下就是f(x)，因此我们的目标函数可以写为 min_x max_a,b L(a,b,x)。如果用对偶表达式：max_a,bmin_x L(a,b,x)，由于我们的优化是满足强对偶的（强对偶就是说对偶式子的最优值是等于原问题的最优值的），所以在取得最优值x0的条件下，它满足 f(x0) =max_a,bmin_x L(a,b,x) =min_x max_a,b L(a,b,x) =f(x0)，我们来看看中间两个式子发

22、生了什么事情：f(x0) =max_a,bmin_x L(a,b,x) =max_a,bmin_x f(x) + a*g(x) + b*h(x) =max_a,b f(x0)+a*g(x0)+b*h(x0) = f(x0)可以看到上述加黑的地方本质上是说min_xf(x) + a*g(x) + b*h(x) 在x0取得了最小值，用fermat定理，即是说对于函数f(x) + a*g(x) + b*h(x)，求取导数要等于零，即f(x)的梯度+a*g(x)的梯度+ b*h(x)的梯度 = 0这就是kkt条件中第一个条件：L(a, b, x)对x求导为零。而之前说明过，a*g(x) = 0，这时kkt条件的第3个条件，当然已知的条件h(x)=0必须被满足，所有上述说明，满足强对偶条件的优化问题的最优值都必须满足KKT条件，即上述说明的三个条件。可以把KKT条件视为是拉格朗日乘子法的泛化。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？