机器学习3周志华PPT推荐.pptx-资源下载

机器学习3周志华PPT推荐.pptx

1、,令导数为 0,得到闭式（closed-form）解：,多元（multi-variate）线性回归使得,把,和,吸收入向量形式,，数据集表示为,多元线性回归同样采用最小二乘法求解，有,令,，对,求导：,令其为零可得然而，麻烦来了：涉及矩阵求逆！,若若,满秩或正定，则不满秩，则可解出多个,此时需求助于归纳偏好，或引入正则化,（regularization）,第6、11章,线性模型的变化,对于样例,若希望线性模型的预测值逼近真实标记，,则得到线性回归模型令预测值逼近 y 的衍生物？若令则得到对数线性回归（log-linear regression）,实际是在用,逼近 y,广义（generaliz

2、ed）线性模型一般形式:,单调可微的联系函数,（link function）,令,则得到对数线性回归,二分类任务,找 z 和 y 的联系函数,性质不好,需找“替代函数”（surrogate function）,线性回归模型产生的实值输出期望输出理想的“单位阶跃函数”（unit-step function）常用,单调可微、任意阶可导,对数几率函数（logistic function）简称“对率函数”,对率回归以对率函数为联系函数:变为即:,几率（odds）,反映了 x 作为正例的相对可能性,“对数几率”,无需事先假设数据分布可得到“类别”的近似概率预测可直接应用现有数值优化算法求取最优解

3、,（log odds,亦称 logit）“对数几率回归”（logistic regression）简称“对率回归”注意：它是,分类学习算法！,求解思路,若将 y 看作类后验概率估计可写为于是，可使用“极大似然法”,则第7章,（maximum likelihood method）给定数据集最大化“对数似然”（log-likelihood）函数,令,，则,可简写为,求解思路,再令则似然项可重写为于是，最大化似然函数等价为最小化高阶可导连续凸函数，可用经典的数值优化方法如梯度下降法/牛顿法 Boyd and Vandenberghe,2004,线性模型做“分类”,回归广义线性模型；通过“联系函数”例

4、如，对率回归,分类如何“直接”做分类？,线性判别分析,（Linear Discriminant Analysis）,由于将样例投影到一条直线（低维空间），因此也被视为,一种“监督降维”技术降维,第10章,LDA的目标给定数据集第 i 类示例的集合第 i 类示例的均值向量第 i 类示例的协方差矩阵,两类样本的中心在直线上的投影：,和,两类样本的协方差：,和,尽可能小尽可能大,同类样例的投影点尽可能接近异类样例的投影点尽可能远离于是，最大化,LDA的目标,类内散度矩阵（within-class scatter matrix）,类间散度矩阵（between-class scatter matr

5、ix）,LDA的目标：最大化广义瑞利商（generalized Rayleigh quotient）,w 成倍缩放不影响 J 值,仅考虑方向,实践中通常是进行奇异值分解然后,求解思路,令,，最大化广义瑞利商等价形式为,运用拉格朗日乘子法，有,的方向恒为,，不妨令,于是,附录,推广到多类假定有 N 个类全局散度矩阵类内散度矩阵类间散度矩阵,特征值所对应的特征向量组成的矩阵,多分类LDA有多种实现方法：采用例如，的闭式解是,中的任何两个的 N-1 个最大广义,训练N（N-1）/2个分类器，存储开销和测试时间大训练只用两个类的样例，训练时间短,训练N个分类器，存储开销和测试时间小训练用到全部训

6、练样例，训练时间长,多分类学习拆解法：将一个多分类任务拆分为若干个二分类任务求解,预测性能取决于具体数据分布，多数情况下两者差不多,纠错输出码（ECOC）多对多（Many vs Many,MvM）:将若干类作为正类，若干类作为反类,一种常见方法：纠错输出码编码：对 N 个类别做 M 次划分，每次将一部分类别划为正类，一部分划为反类解码：测试样本交给 M 个分类器预测,（Error Correcting Output Code）M 个二类任务；（原）每类对应一个长为 M 的编码距离最小的类为最终结果长为 M 的预测结果编码,纠错输出码,ECOC编码对分类器错误有一定容忍和修正能力，编码越长、纠错能力越强对同等长度的编码，理论上来说，任意两个类别之间的编码距离越远，则纠错能力越强,Dietterich and Bakiri,1995,Allwein et al.2000,类别不平衡（class-imbalance）不同类别的样本比例相差很大；“小类”往往更重要基本思路：,基本策略“再缩放”（rescaling）：然而，精确估计 m-/m+通常很困难！,常见类别不平衡学习方法：过采样（oversampling）例如：SMOTE 欠采样（undersampling）例如：EasyEnsemble 阈值移动（threshold-moving）,前往第四站,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？