知识图谱2机器学习基础.pdf

资源描述

知识图谱2机器学习基础.pdf

《知识图谱2机器学习基础.pdf》由会员分享，可在线阅读，更多相关《知识图谱2机器学习基础.pdf（179页珍藏版）》请在冰豆网上搜索。

知识图谱2机器学习基础.pdf

机器学习基础刘康中国科学院自动化研究所研讨课安排研讨课第4章知识图谱框架（3学时）刘康（10月10日）第8章研讨课：

事件抽取（3学时）赵军（11月7日）第11章研讨课：

知识图谱构建（3学时）赵军（11月28日）形式分组汇报（每组：

6-8人，15分钟汇报一篇相关的文章）候选Topic：

知识融合（1-6组，内容可以参考OAEI评测相关文章）事件抽取（7-12组，内容可以包括事件抽取；事件关系预测；事件框架生成；事件预测）知识图谱构建（13-18组，内容可以包括实体识别；实体消歧；关系抽取）研讨课安排分组办法有道云协作：

http:

/163.fm/4dMfuC4t请组长进群后填写本组相关信息信息填写截止时间：

2017年9月20日晚8：

00（周三）文章下载地址：

http:

/www.aclweb.org/anthology/只要Topic属于上述候选Topic即可，也可以从其他期刊或者会议下载编号规则：

请大家按编辑先后顺序编写自己的小组序号，先到先得，例如：

第一个编辑的小组可以选择1-18中的任意编号，第二个小组可以选择除了第一个小组以外的其它编号，如果后填写的小组看到自己的小组号码或者文章题目和已经填写好的小组冲突，请后面的小组更换为不冲突的编号和文章。

切记：

这个协作笔记有操作记录，请大家只编辑自己小组的信息，不要更改其余小组的信息！

参考书籍1.KnowledgeRepresentationandReasoning（RonaldJ.Brachman,HectorJ.Levesque）2.ArtificialIntelligence:

AModernApproach（StuartRussell,PeterNorvig）3.ASemanticWebPrimer（GrigorisAntoniou等）4.SpeechandLanguageProcessing（DanielJurafsky，JamesH.Martin）目录机器学习基础理论与概念神经网络与深度学习基础卷积神经网络循环神经网络机器学习机器学习（MachineLearning,ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能机器学习是人工智能的一个分支,其目的在于使得机器可以根据数据进行自动学习,通过算法使得机器能从大量历史数据中学习规律从而对新的样本做决策它目前是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎机器学习输出y模型学习算法输入x训练样本（x,y）机器学习主要是研究如何使计算机从给定的数据中学习规律，即从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。

目前，主流的机器学习算法是基于统计的方法，也叫统计机器学习机器学习概要训练数据训练数据：

（xi,yi）,1im模型：

模型：

线性方法：

y=f（x）=wTx+b非线性方法：

神经网络优化优化：

损失函数：

L（y,f（x）经验风险最小化：

正则化：

优化目标函数优化目标函数：

1（）（）1,miiiQLyfxm=2|（|）Q+2|奥卡姆剃刀原则机器学习狭义地讲，机器学习是给定一些训练样本（xi,yi）,1iN（其中xi是输入，yi是需要预测的目标），让计算机自动寻找一个决策函数f（）来建立x和y之间的关系。

这里，是模型输出,为决策函数的参数，（）表示样本x对应的特征表示。

因为x不一定都是数值型的输入，因此需要通过（）将x转换为数值型的输入。

（）,）yfx=损失函数在机器学习算法中，一般定义一个损失函数损失函数L（y,f（x,），在所有的训练样本上来评价决策函数的好坏（风险）。

风险函数R（）是在已知的训练样本（经验数据）上计算得来的，因此被称之为经验风险。

参数的求解其实就是寻求一组参数，使得经验风险函数达到最小值，就是我们常说的经验风险最小化原则（EmpiricalRiskMinimization）（）（）（）（）（）i11,NiiRLyfxN=（）*=argminR损失函数如何度量错误的程度。

0-1损失函数平方损失函数（）（）（）（）（）（）0,1,ifyfxLyfxifyfxlyfx=（）（）2,Lyyyfx=损失函数交叉熵损失函数对于分类问题，模型输出f（x,）为每个类y的条件概率。

假设y1,C，模型预测样本属于第i个类的条件概率P（y=i|x）=fi（x,），则f（x,）满足fy（x,）可以看作对于所标注类别y的似然函数。

参数可以直接用最大似然估计来优化。

考虑到计算问题，我们经常使用最小化负对数似然，即负对数似然损失函数负对数似然损失函数（NegativeLogLikelihoodfunction）。

（）（）1,0,1,1Ciiifxfx=（）（）（）,log,yLyfxfx=损失函数如果我们用one-hot向量来表示目标类别c，其中只有yc=1，其余向量元素都为0。

则目标函数可以写为：

）是所标注真实类别的分布，上式恰好是交叉熵的形式。

因此，损失函数也称之为交叉熵损失函数（CrossEntropyLossfunction）。

（）（）（）1,log,CiiiLyfxyfx=损失函数Hinge损失函数对于两类分类问题，假设y和f（x,）的取值为1,+1。

Hinge损失函数（HingeLossFunction）的定义如下：

（）（）（）（）（）,max0,1,1,Lyfxyfxyfx+=过拟合overfitting结构风险最小化原则为了解决过拟合问题，一般在经验风险最小化的原则上加参数的正则化正则化（Regularization），也叫结构风险最小化原则结构风险最小化原则（StructureRiskMinimization）。

用来控制正则化的强度，正则化项也可以使用其它函数，比如L1范数（）（）（）（）（）22i1*=argmin1argmin,NiiRLyfxN=+=+正则化项正则化项学习在机器学习问题中，我们需要学习到参数，使得风险函数最小化。

如果用梯度下降法进行参数学习，搜索步长在机器学习中也叫作学习率（LearningRate）。

（）（）（）（）（）i1*=argmin1argmin,tNiiRLyfxN=（）（）（）（）11a=a;,atttiiNttiRRxy+=梯度下降法学习率学习率设置：

自适应法AdaGrad（AdaptiveGradient）算法是借鉴L2正则化的思想。

在第t次迭代时，其中，是初始的学习率，gR|是第次迭代时的梯度。

随着迭代次数的增加，梯度逐渐缩小121ttttgg=开发集在梯度下降训练的过程中，由于过拟合的原因，在训练样本上收敛的参数，并不一定在测试集上最优。

因此，我们使用一个验证集验证集（ValidationDataset）（也叫开发集开发集（DevelopmentDataset）来测试每一次迭代的参数在验证集上是否最优。

如果在验证集上的错误率不再下降，就停止迭代。

如果没有验证集，可以在训练集上进行交叉验证交叉验证训练集开发集测试集机器学习问题类型回归（Regression）y是连续值（实数或连续整数），f（x）的输出也是连续值。

这种类型的问题就是回归问题。

对于所有已知或未知的（x,y），使得f（x,）和y尽可能地一致。

损函数通常定义为平方误差。

分类（Classification）y是离散的类别标记（符号），就是分类问题。

损失函数有一般用0-1损失函数或负对数似然函数等。

在分类问题中，通过学习得到的决策函数f（x,）也叫分类器。

机器学习算法类型有监督学习有监督学习（SupervisedSupervisedLearningLearning）是利用一组已知输入x和输出y的数据来学习模型的参数，使得模型预测的输出标记和真实标记尽可能的一致无监督学习（无监督学习（UnsupervisedUnsupervisedLearningLearning）用来学习的数据不包含标注信息，需要学习算法自动学习到一些有价值的信息，例如聚类聚类（Clustering）半半监督学习监督学习（SemiSemi-SupervisedSupervisedLearningLearning）是利用少量已知输入x和输出y的数据以及未标注的样本，来学习模型的参数分类、回归和聚类Clustering主动学习（ActiveLearning）集成学习（EnsembleLearning）迁移学习（TransferLearning）多任务学习（Multi-taskLearning）强化学习（ReinforcementLearning）终生学习（Life-longLearning）课程学习（CurriculumLearning）零样本学习（One/zeroshotLearning）机器学习分类主成分分析流形学习核方法主题模型度量学习Embedding.特征表示：

特征选择、特征抽取线性分类线性分类是机器学习中最常见并且应用最广泛的一种分类器。

（）1000TTTifwxylwxifwx=LogisticRegressionLogistic回归回归我们定义目标类别y=1的后验概率为：

其中，（）为logistic函数，x和w为增广的输入向量和权重向量。

y=0的后验概率为=1=/=11+exp（/）=0=1=1=exp（/）1+exp（/）Logistic函数（x）=diag（x）（1（x）logistic函数经常用来将一个实数空间的数映射到（0,1）区间，记为（x）其导数为（x）=（x）（1（x）当输入为K维向量x=x1,xKT时，其导数为（）11xxe=+LogisticRegressiony=（wx+b）多类线性分类对于多类分类问题（假设类别数为C（C2）），一般有两种多类转两类的转换方式：

把多类分类问题转换为C个两类分类问题，构建C个一对多的分类器。

每个两类分类问题都是把某一类和其他类用一个超平面分开把多类分类问题转换为C（C1）/2个两类分类问题，构建C（C1）/2个两两分类器。

每个两类分类问题都是把C类中某两类用一个超平面分开。

缺陷：

一起区域中，点的类别是不能区分确定的多类线性分类为了避免上述缺陷，可以使用一个更加有效的决策规则，直接建立多类线性分类器。

假设y=1,C共C个类别，首先定义C个判别函数：

这里6为类c的权重向量。

对于空间中的一个点x，如果存在类别c，对于所有的其他类别（6/）都满足6（）6（），那么x属于类别c。

相应的分类函数可以表示为：

1argmaxCTccywx=6=6/,=1,Softmax回归SoftMax回归是Logistic回归的多类推广。

我们定义目标类别y=c的后验概率为：

（）（）（）（）1exp|maxexpTcTcCTiiwxPycxsoftwxwx=评价方法常见的评价标准有正确率、准确率、召回率和F值等。

给定测试集T=（x1,y1）,（xN,yN），对于所有的yi1,C。

假设分类结果为Y=?

。

则正确率正确率（Accuracy，CorrectRate）为：

其中，|为指示函数和正确率相对应的就是错误率错误率（ErrorRate）。

正确率是平均的整体性能。

1NiiiyyAccN=1NiiiyyErrN=评价方法在很多情况下，我们需要对每个类都进行性能估计，这就需要计算准确率和召回率。

正确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，在机器学习的评价中也被大量使用。

准确率准确率（Precision，P），是识别出的个体总数中正确识别的个体总数的比例。

对于类c来说，召回率

展开阅读全文