机器学习7周志华PPT文件格式下载.pptx-资源下载

机器学习7周志华PPT文件格式下载.pptx

1、,思路：先对联合概率分布建模，再由此获得代表：贝叶斯分类器注意：贝叶斯分类器贝叶斯学习（Bayesian learning）,贝叶斯定理,根据贝叶斯定理，有先验概率（prior）样本空间中各类样本所占的比例，可通过各类样本出现的频率估计（大数定律）,证据（evidence）,因子，与类别无关,Thomas Bayes（1701?-1761）样本相对于类标记的类条件概率（class-conditionalprobability）,亦称似然（likelihood）,主要困难在于估计似然,极大似然估计先假设某种概率分布形式，再基于训练样例对参数进行估计,假定,具有确定的概率分布形式，且被参数,

2、唯一确定，则,任务就是利用训练集 D 来估计参数对于训练集 D 中第 c 类样本组成的集合 Dc 的似然（likelihood）为,连乘易造成下溢，因此通常使用对数似然,（log-likelihood）,于是，,的极大似然估计为,估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实分布,朴素贝叶斯分类器,（nave Bayes classifier）,主要障碍：所有属性上的联合概率难以从有限训练样本估计获得组合爆炸；样本稀疏基本思路：假定属性相互独立？d 为属性数，xi 为 x 在第 i 个属性上的取值对所有类别相同，于是,朴素贝叶斯分类器估计 P（c）:估计 P（x|c）:,对

3、离散属性，令,表示 Dc 中在第 i 个属性上取值为,xi 的样本组成的集合，则对连续属性，考虑概率密度函数，假定,拉普拉斯修正,（Laplacian correction）,若某个属性值在训练集中没有与某个类同时出现过，则直接计算会出现问题，因为概率连乘将“抹去”其他属性提供的信息例如，若训练集中未出现“敲声=清脆”的好瓜，则模型在遇到“敲声=清脆”的测试样本时令 N 表示训练集 D 中可能的类别数，Ni 表示第 i 个属性可能的取值数假设了属性值与类别的均匀分布，这是额外引入的 bias,朴素贝叶斯分类器的使用,若对预测速度要求高,预计算所有概率估值，使用时“查表”,若数据更替频繁,不

4、进行任何训练，收到预测请求时再估值,（懒惰学习,lazy learning）,若数据不断增加,基于现有估值，对新样本涉及的概率估值进行修正,（增量学习,incremental learning）,半朴素贝叶斯分类器朴素贝叶斯分类器的“属性独立性假设”在现实中往往难以成立半朴素贝叶斯分类器（semi-nave Bayes classifier）基本思路：适当考虑一部分属性间的相互依赖信息,最常用策略：独依赖估计,（One-Dependent Estimator,ODE）,假设每个属性在类别之外最多仅依赖一个其他属性xi 的“父属性”关键是如何确定父属性,两种常见方法,SPODE（Super-Pa

5、rent ODE）：,假设所有属性都依赖于同一属性，称为“超父”（Super-Parent），然后通过交叉验证等模型选择方法来确定超父属性,TAN（Tree Augmented nave Bayes）：,以属性间的条件”互信息”（mutual information）为边的权重，构建完,全图，再利用最大带权生成树算法，仅保留强相关属性间的依赖性,AODE,（Averaged One-Dependent Estimator）,其中,是在第 i 个属性上取值为 xi 的样本的集合，m 为阈值常数,表示类别为 c 且在第 i 和第 j 个属性上取值分别为 xi 和 xj 的样本集合,尝试将每个属性作

6、为超父构建 SPODE 将拥有足够训练数据支撑的 SPODE 集成起来作为最终结果Geoff Webb澳大利亚Monash大学,高阶依赖能否通过考虑属性间的高阶依赖来进一步提升泛化性能？例如最简单的做法：ODE kDE将父属性 pai 替换为包含 k 个属性的集合 pai,明显障碍：随着 k 的增加，估计,所需的样本数,将以指数级增加训练样本非常充分性能可能提升有限训练样本高阶联合概率估计困难考虑属性间的高阶依赖，需要其他办法,贝叶斯网（Bayesian network;Bayes network）亦称“信念网”（brief network）,Judea Pearl（1936-

7、）2011 图灵奖,有向无环图（DAG,Directed Acyclic Graph）贝叶斯网,结构,参数,概率图模型（Probabilistic graphical model）有向图模型贝叶斯网无向图模型马尔可夫网,第 14章,条件概率表（CPT,Conditional Probability Table）1985年 J.Pearl 命名为贝叶斯网，为了强调：,输入信息的主观本质,对贝叶斯条件的依赖性因果与证据推理的区别,贝叶斯网（Bayesian network）,条件概率表（CPT,Conditional Probability Table）,有向无环图（DAG,Directed

8、 Acyclic Graph）,给定父结点集，贝叶斯网假设每个属性与其非后裔属性独立父结点集,三变量间的典型依赖关系,条件独立性,条件独立性,边际独立性给定 x4,x1 与 x2 必不独立若 x4 未知，则 x1 与 x2 独立,分析条件独立性,“有向分离”（D-separation）,先将有向图转变为无向图 V 型结构父结点相连,有向边变成无向边,（根蒂）,x 1（好瓜）,x 2（甜度）,x 3（敲声）,x 4（色泽）,x,5,道德图（moral graph）,由图可得：,若 x 和 y 能在图上被 z 分入,两个连通分支，则有得到条件独立性关系之后，估计出条件概率表，就得到了最终网络

9、,结构学习评分函数（score function）评估贝叶斯网与训练数据的契合程度,常用评分函数通常基于信息论准则,例如最小描述长度,（MDL,Minimal Description Length）,给定数据集 D，贝叶斯网 AIC:BIC:,搜索最优贝叶斯网络结构是 NP难问题,回忆“模型选择”,在 D 上的评分函数：越小越好是贝叶斯网的参数个数表示描述每个参数所需的字节数,推断推断（inference）：基于已知属性变量的观测值，推测其他属性变量的取值已知属性变量的观测值称为“证据”（evidence）,精确推断：直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,NP 难,近似推断

10、：降低精度要求，在有限时间内求得近似解常见做法：吉布斯采样（Gibbs sampling）变分推断（variational inference）,吉布斯采样,随机产生一个与证据 E=e 一致的样本 q0 作为初始点,例如证据 E=e：（色泽;敲声;根蒂）=（青绿;浊响;蜷缩）,查询目标 Q=q:（好瓜;甜度）=（是;高）随机产生 q0:（否;高）,进行 T 次采样，每次采样中逐个考察每个非证据变量：假定所,有其他属性取当前值，推断出采样概率，然后根据该概率采样例如：先假定色泽=青绿;敲声=浊响;根蒂=蜷缩;甜度=高，推断出“好瓜”的采样概率，然后采样；假设采样结果为“好瓜=是”;,然后根据

11、色泽=青绿;好瓜=是，推断出“甜度”的采样概率，然后采样；假设采样结果为“甜度=高”;,假定经过 T 次采样的得到与“查询目标”q 一致的样本共有 nq,个，则可近似估算出后验概率,EM算法如何处理“未观测到的”变量？例如，西瓜已经脱落的根蒂，无法看出是“蜷缩”还是“坚挺”,则训练样本的“根蒂”属性变量值未知,未观测变量隐变量,（latent variable）,EM（Expectation-Maximization）算法是估计隐变量的利器,做,令 X 表示已观测变量集，Z 表示隐变量集，欲对模型参数极大似然估计，则应最大化对数似然函数Z 是隐变量，无法直接求解。怎么办？,以初始值基于,为起点，迭代执行以下步骤直至收敛:推断隐变量 Z 的期望，记为,基于已观测变量 X 和,对参数,做极大似然估计，记为,E步:当,已知根据训练数据推断出最优隐变量 Z,M步:当 Z 已知对,做极大似然估计,EM算法（续）对隐变量 Z 计算期望，最大化已观测数据的对数“边际似然”（marginal likelihood）,前往第八站,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？