机器学习7周志华PPT文件格式下载.pptx

上传人:wj 文档编号:13157034 上传时间:2022-10-07 格式:PPTX 页数:23 大小:3.04MB
下载 相关 举报
机器学习7周志华PPT文件格式下载.pptx_第1页
第1页 / 共23页
机器学习7周志华PPT文件格式下载.pptx_第2页
第2页 / 共23页
机器学习7周志华PPT文件格式下载.pptx_第3页
第3页 / 共23页
机器学习7周志华PPT文件格式下载.pptx_第4页
第4页 / 共23页
机器学习7周志华PPT文件格式下载.pptx_第5页
第5页 / 共23页
点击查看更多>>
下载资源
资源描述

机器学习7周志华PPT文件格式下载.pptx

《机器学习7周志华PPT文件格式下载.pptx》由会员分享,可在线阅读,更多相关《机器学习7周志华PPT文件格式下载.pptx(23页珍藏版)》请在冰豆网上搜索。

机器学习7周志华PPT文件格式下载.pptx

,思路:

先对联合概率分布建模,再由此获得代表:

贝叶斯分类器注意:

贝叶斯分类器贝叶斯学习(Bayesianlearning),贝叶斯定理,根据贝叶斯定理,有先验概率(prior)样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律),证据(evidence),因子,与类别无关,ThomasBayes(1701?

-1761)样本相对于类标记的类条件概率(class-conditionalprobability),亦称似然(likelihood),主要困难在于估计似然,极大似然估计先假设某种概率分布形式,再基于训练样例对参数进行估计,假定,具有确定的概率分布形式,且被参数,唯一确定,则,任务就是利用训练集D来估计参数对于训练集D中第c类样本组成的集合Dc的似然(likelihood)为,连乘易造成下溢,因此通常使用对数似然,(log-likelihood),于是,,的极大似然估计为,估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实分布,朴素贝叶斯分类器,(naveBayesclassifier),主要障碍:

所有属性上的联合概率难以从有限训练样本估计获得组合爆炸;

样本稀疏基本思路:

假定属性相互独立?

d为属性数,xi为x在第i个属性上的取值对所有类别相同,于是,朴素贝叶斯分类器估计P(c):

估计P(x|c):

对离散属性,令,表示Dc中在第i个属性上取值为,xi的样本组成的集合,则对连续属性,考虑概率密度函数,假定,拉普拉斯修正,(Laplaciancorrection),若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题,因为概率连乘将“抹去”其他属性提供的信息例如,若训练集中未出现“敲声=清脆”的好瓜,则模型在遇到“敲声=清脆”的测试样本时令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数假设了属性值与类别的均匀分布,这是额外引入的bias,朴素贝叶斯分类器的使用,若对预测速度要求高,预计算所有概率估值,使用时“查表”,若数据更替频繁,不进行任何训练,收到预测请求时再估值,(懒惰学习,lazylearning),若数据不断增加,基于现有估值,对新样本涉及的概率估值进行修正,(增量学习,incrementallearning),半朴素贝叶斯分类器朴素贝叶斯分类器的“属性独立性假设”在现实中往往难以成立半朴素贝叶斯分类器(semi-naveBayesclassifier)基本思路:

适当考虑一部分属性间的相互依赖信息,最常用策略:

独依赖估计,(One-DependentEstimator,ODE),假设每个属性在类别之外最多仅依赖一个其他属性xi的“父属性”关键是如何确定父属性,两种常见方法,SPODE(Super-ParentODE):

假设所有属性都依赖于同一属性,称为“超父”(Super-Parent),然后通过交叉验证等模型选择方法来确定超父属性,TAN(TreeAugmentednaveBayes):

以属性间的条件”互信息”(mutualinformation)为边的权重,构建完,全图,再利用最大带权生成树算法,仅保留强相关属性间的依赖性,AODE,(AveragedOne-DependentEstimator),其中,是在第i个属性上取值为xi的样本的集合,m为阈值常数,表示类别为c且在第i和第j个属性上取值分别为xi和xj的样本集合,尝试将每个属性作为超父构建SPODE将拥有足够训练数据支撑的SPODE集成起来作为最终结果GeoffWebb澳大利亚Monash大学,高阶依赖能否通过考虑属性间的高阶依赖来进一步提升泛化性能?

例如最简单的做法:

ODEkDE将父属性pai替换为包含k个属性的集合pai,明显障碍:

随着k的增加,估计,所需的样本数,将以指数级增加训练样本非常充分性能可能提升有限训练样本高阶联合概率估计困难考虑属性间的高阶依赖,需要其他办法,贝叶斯网(Bayesiannetwork;

Bayesnetwork)亦称“信念网”(briefnetwork),JudeaPearl(1936-)2011图灵奖,有向无环图(DAG,DirectedAcyclicGraph)贝叶斯网,结构,参数,概率图模型(Probabilisticgraphicalmodel)有向图模型贝叶斯网无向图模型马尔可夫网,第14章,条件概率表(CPT,ConditionalProbabilityTable)1985年J.Pearl命名为贝叶斯网,为了强调:

输入信息的主观本质,对贝叶斯条件的依赖性因果与证据推理的区别,贝叶斯网(Bayesiannetwork),条件概率表(CPT,ConditionalProbabilityTable),有向无环图(DAG,DirectedAcyclicGraph),给定父结点集,贝叶斯网假设每个属性与其非后裔属性独立父结点集,三变量间的典型依赖关系,条件独立性,条件独立性,边际独立性给定x4,x1与x2必不独立若x4未知,则x1与x2独立,分析条件独立性,“有向分离”(D-separation),先将有向图转变为无向图V型结构父结点相连,有向边变成无向边,(根蒂),x1(好瓜),x2(甜度),x3(敲声),x4(色泽),x,5,道德图(moralgraph),由图可得:

若x和y能在图上被z分入,两个连通分支,则有得到条件独立性关系之后,估计出条件概率表,就得到了最终网络,结构学习评分函数(scorefunction)评估贝叶斯网与训练数据的契合程度,常用评分函数通常基于信息论准则,例如最小描述长度,(MDL,MinimalDescriptionLength),给定数据集D,贝叶斯网AIC:

BIC:

搜索最优贝叶斯网络结构是NP难问题,回忆“模型选择”,在D上的评分函数:

越小越好是贝叶斯网的参数个数表示描述每个参数所需的字节数,推断推断(inference):

基于已知属性变量的观测值,推测其他属性变量的取值已知属性变量的观测值称为“证据”(evidence),精确推断:

直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,NP难,近似推断:

降低精度要求,在有限时间内求得近似解常见做法:

吉布斯采样(Gibbssampling)变分推断(variationalinference),吉布斯采样,随机产生一个与证据E=e一致的样本q0作为初始点,例如证据E=e:

(色泽;

敲声;

根蒂)=(青绿;

浊响;

蜷缩),查询目标Q=q:

(好瓜;

甜度)=(是;

高)随机产生q0:

(否;

高),进行T次采样,每次采样中逐个考察每个非证据变量:

假定所,有其他属性取当前值,推断出采样概率,然后根据该概率采样例如:

先假定色泽=青绿;

敲声=浊响;

根蒂=蜷缩;

甜度=高,推断出“好瓜”的采样概率,然后采样;

假设采样结果为“好瓜=是”;

然后根据色泽=青绿;

好瓜=是,推断出“甜度”的采样概率,然后采样;

假设采样结果为“甜度=高”;

假定经过T次采样的得到与“查询目标”q一致的样本共有nq,个,则可近似估算出后验概率,EM算法如何处理“未观测到的”变量?

例如,西瓜已经脱落的根蒂,无法看出是“蜷缩”还是“坚挺”,则训练样本的“根蒂”属性变量值未知,未观测变量隐变量,(latentvariable),EM(Expectation-Maximization)算法是估计隐变量的利器,做,令X表示已观测变量集,Z表示隐变量集,欲对模型参数极大似然估计,则应最大化对数似然函数Z是隐变量,无法直接求解。

怎么办?

以初始值基于,为起点,迭代执行以下步骤直至收敛:

推断隐变量Z的期望,记为,基于已观测变量X和,对参数,做极大似然估计,记为,E步:

当,已知根据训练数据推断出最优隐变量Z,M步:

当Z已知对,做极大似然估计,EM算法(续)对隐变量Z计算期望,最大化已观测数据的对数“边际似然”(marginallikelihood),前往第八站,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1