ImageVerifierCode 换一换
格式:DOCX , 页数:19 ,大小:211.88KB ,
资源ID:8681111      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/8681111.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(机器学习简明原理.docx)为本站会员(b****6)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

机器学习简明原理.docx

1、机器学习简明原理机器学习简明原理讲明:本文整理自IBM大数据学习文档,原文作者:韩笑琳1.关于机器学习的简介机器学习是从大量数据中学习出特定规律的算法。其中提到 的规律有专门多种,比如分类、聚类、回归、关联分析等。分类确实是给定大量带标签的数据,计算出未知标签样本的 标签取值。如年龄40岁以上、工科、研究生以上学历,这类人 薪资水平是高收入;年龄20-30岁、文科、大专学历,这类人 的薪资水平是低收入;现有一位23岁大专文科人士,求该人的 薪资水平是哪类?依照分类建模,就能够明白那个人的薪资水平 专门可能是低收入。聚类是将大量不带标签的数据依照距离聚拢成不同的簇,每 一簇数据有共同的特征。如电

2、信行业能够依照用户的月长途电话 分钟数、上网时长、短信使用数、地理位置、月消费数,将所有 用户聚拢成有典型特征的簇,聚拢出的某簇特征可能是月长途电 话分钟数长、上网时刻长、地理位置变化不大、月消费数目低, 分析可得这类人极有可能是在校大学生,那么电信公司就能够针 对这类特定人群制定有针对性的营销策略。回归是依照特征值、目标变量拟合出特征值与目标变量之间 的函数关系,可用来可能特征值对应的目标变量的可能取值。举 个简单的例子,某市今年某100平米的房子价格是80万,某 150平米房子价格是120万,那么某200平米的房子价格的取 值就可能是200*0. 8=160万左右。关联分析是计算出大量数据

3、之间的频繁项集合。如超市订单 中有大量订单同时包含啤酒与尿布,这其中的频繁项确实是啤酒 和尿布,那么超市就能够针对那个规律对啤酒和尿布进行组合促 销活动。分类算法要紧包括K近邻、决策树、朴素贝叶斯、逻辑回归、 支持向量机、AdaBoost等;回归要紧包括线性回归、岭回归、 lasso.树回归等;聚类要紧包括K-Means以及它的各种变形算 法;关联分析要紧包括Apriori. FP-growth等算法。支持向量机即support vector machine(简称SVM),是机器学 习领域经典的分类算法。2.关于SVM的简介支持向量是距离分类超平面近的那些点,SVM的思想确实是使 得支持向量到

4、分类超平面的间隔最大化。动身点专门容易理解, 距离分类超平面近的那些点到该超平面的间隔最大化代表了该 超平面对两类数据的区分度强,不容易出现错分的情况。如图1 所示,支持向量到超平面1的间隔大于支持向量到超平面2的间 隔,因此超平面1优于超平面2。图1两个超平面示例SVM能够专门好得解决二分类问题,关于多分类情况,就需 要对模型进行改动。如one-versus-rest法,这种方法每次选 择一个类不作为正样本,剩下其他类不作为负样本,假设一共有 3个类不,如此相当于训练出了 3个不同的SVM。然后将测试数 据分不带入3个SVM模型中,得到的3个结果中的最大值则为最 终的分类结果。支持向量到分类

5、超平面的间隔最大化的思路专门完美,按这种思路得到的模型理论上是准确度最高的一种模型。然而使用过SVM的朋友都明白,调用SVM算法的测试准确度并不一定都专门 高。这其中有专门多缘故,比如数据预处理的效果、训练集的大小、特征值的选择、参数设置以及核函数的选择等因素。任何模型差不多上优点与缺点并存的。SVM的优点是:1.能够解决线性不可分的情况。如图2所示,两类数据点全然无法用超平面分隔开;2.计算复杂度仅取决于少量支持向量,关于数据量大的数据 集计算复杂度低。SVM的缺点是:1.经典的SVM算法仅支持二分类,关于多分类问题需要改 动模型;2.不支持类不型数据,需在预处理时期将类不型数据转换成 离散

6、型数据。类不型数据即”男”、”女这类由字符串表 示某类信息的数据,需将这类数据转换成离散型数据如1、 2O X X x X X XX X X 一 X X图2线性不可分问题3.SVM差不多原理SVM原理分为软间隔最大化、拉格朗日对偶、最优化问题求解、 核函数、序列最小优化SMO等部分。尽管这些名词看起来专门晦 涩,然而深入探究后就会发觉其中的思想并没有那么复杂。3.1.软间隔最大化SVM的核心思路是最大化支持向量到分隔超平面的间隔。后面 所有的推导差不多上以最大化此间隔为核心思想展开。一般的机 器学习问题差不多上先得到模型的目标函数和约束条件,然后在 约束条件下对目标函数求得最优解。因此,我们下

7、面首先需要推 导出SVM模型的目标函数和约束条件。既然要最大化间隔,那么回忆下点x到超平面(w,b)的距离公 式:|w -x 4-2?|d 二 II沖II其中超平面的公式为:w x+ b = 0由此可推出点X到超平面(w,b)的几何间隔为:w -Xi + b其中xi代表第i条数据,yi代表第i条数据对应的目标变 量的取值,取值有+ 1和-1两种。因此当第i条数据被正确分 类时,y取值和w*x+b取值的正负一致,几何间隔为正;当被 错误分类时,y取值和w*x+b取值的正负相反.,几何间隔为负。图3样本数关于w*x + b的取值符号定义几何间隔中最小的为:y = minyf由此,能够得到间隔最大化

8、问题的目标函数:max y并遵循如下约束条件:做如下变换:ry= w则目标函数转换为:maxM相应的约束条件变为:stx(w+ &) y做如下变换:r tv , r bW = P b = 7可得目标函数和约束条件变为:1maxM由于W, b成倍数变化并可不能阻碍超平面的公式,因此:wr = w , bf = b现在得到最终的间隔最大化的目标函数和约束条件如下:s. t.yf (w-xf + b) 1然而,到那个地点并没有真正得结束。考虑到现实生活中的 真实数据,存在一些特异点即outliers,这些数据点并不满足 上面推导出的约束条件,如图4所示,图中点A确实是outlier 特异点。图4 O

9、utlier特异点为了解决这种问题,对每个样本点引进一个松弛变量,使得 约束条件变为:s.t. (w-Xj + &) + 1Si 0如此给outlier的约束条件加上一个变量,使其能够满足大 于等于1的条件。则相应的目标变量变为:minHwII2 + 其中c为惩处参数,它的目的是使得目标变量最小即几何间 隔最大,且使得松弛变量最小化。加入松弛变量的目标函数确实 是软间隔最大化。3. 2.拉格朗日对偶关于凸二次优化问题,通过引入拉格朗日乘子,将目标函数 和约束条件整合到拉格朗日函数中,如此能方便求解最值问题。 那么,对每个不等式约束引入拉格朗日乘子,得到拉格朗日函数 如下:&(X 口)= | |

10、w|2 + C 勺一qw + b) - 1 + 冼)一工厂q Ofut 0分析可知:ma.xaL(w,b,E,d,ii) = y|w|2 十则原最优化问题转换成:如 m%L(wb s, cc u)由于原最优化问题直接求解专门困难,利用拉格朗日对偶性, 可通过求解原最优化问题的对偶问题得到原问题的最优解。原最 优化问题的对偶问题为:77iarflni2v6 L(w,b, c, ccp)3. 3.最优化问题求解到此为止,差不多将目标函数和约束条件转换成了极大微小 化拉格朗日函数的问题了。首先求解关于拉格朗日函数的微小化 问题。对三个变量分不求偏导得:Vw L (wb E(X u) = w - 2

11、= 0L(Wjb&6A)= 一口加=0V毎 L(w,b cc u) = 业一山=0将以上三式带入拉格朗日函数中得:那么极大微小化拉格朗日函数转换成:加4如加恥L(w, b, 厲町二机:a 一扭曾沟y为(血勺)斗E的为求解方便,将极大转换成微小得:maxamin, L(w, b, s, a, l)= 妞 E % 勾:X为(竝巧)一 Y 曾0兰曾兰C3.4.核函数关于线性不可分问题,如图2所示,这类问题是无法用超平面划分正负样本数据的。倘若能将超平面换成超曲面,则能够将 正负样本正确分类,如图5所示。图5超曲面分离正负样本我们明白曲面的公式是:k JCf + 22 + k? + k_x + Zcg

12、XjXj + fcg = 0映射到新坐标如下:Zj = Xj 2jZz = Zg = 丫2工1乙4 = v 225 = 丫2%丄工2可将超曲面在新坐标下表示成超平面:k Z + *2 Z: + 疋3 ?3 + *4 + *5 务十 k|5 = 0,也确实是将在二维空间(xl,x2)下线性不可分的问题转换成了在五维空间(zl,z2,z3,z4,z5)下线性可分的问题。得映射后新坐标下的内积:(p(p)-q) = (p q) + l)2=(Piq)=为洛 2 + 甘疔 + 2卩凤 + 2p2q-2p1p2q1q2 + t可知k(p,q) = (p(p) -(p(q) + 1何为核函数?核函数在低维

13、空间中完成了映射到高维空间后 的内积运算。这点特不有用,利用核函数,无需先将变量一一映 射到髙维空间再计算内积,而是简单得在低维空间中利用核函数 完成这一操作。什么缘故讲不用一一映射到高维空间专门有用呢? 缘故就在于首先我们无法针对每种情况提供精确的映射函数,再 者关于需要映射到无穷维的情况显然无法一一映射完成。那么什么缘故是映射到高维后的内积运算呢?这是因为在上 节中我们得到了如下目标函数:L(w, b, e, a, p)二 mma 工玛 丐”升(尤厂习)一 ai正是因为该目标函数中包含自变量的内积运算,而映射到高 维空间后的内积运算又恰好能够通过核函数在低维空间中直接 求得,故而有了核函数

14、的由来。较常用的核函数是高斯核,高斯 核能够将低维空间映射到无穷维。运用核函数后,最优化问题的目标函数和约束条件变为:mtna3.5.序列最小优化(Sequential minimal optimization)到目前为止,优化问题差不多转化成了一个包含N个alpha 自变量的目标变量和两个约束条件。由于目标变量中自变量 alpha有N个,为了便与求解,每次选出一对自变量alpha, 然后求目标函数关于其中一个alpha的偏导,如此就能够得到 这一对alpha的新值。给这一对alpha赋上新值,然后不断重 复选出下一对alpha并执行上述操作,直到达到最大迭代数或 没有任何自变量alpha再发

15、生变化为止,这确实是SMO的差不 多思想。讲直白些,SMO确实是在约束条件下对目标函数的优化 求解算法。为何不能每次只选一个自变量进行优化?那是因为只选一个 自变量alpha的话,会违反第一个约束条件,即所有alpha和 y值乘积的和等于0。下面是详细的SMO过程。假设选出了两个自变量分不是 alphal和alpha2,除了这两个自变量之外的其他自变量保持固 定,则目标变量和约束条件转化为:= 2na 斗匚尹子 + yiy2izaia2 (旳* a2)N N十吐y:氐血十y2 a2yf g Ki2i=2 e=3Ns. t. ffiYi 十 a2y2 = -* = 5f=20 crf C将约束条

16、件中的alphal用alpha2表示,并代入目标函数 中,则将目标函数转化成只包含alpha2的目标函数,让该目标 函数对alpha2的偏导等于0:% 皿)=o可求得alpha2未经修剪的值:之因此讲alpha2是未经修剪的值是因为所有alpha都必须满足大于等于0且小于等于C的约束条件,用此约束条件将alpha2进行修剪,修剪过程如下:aiddyj +a2oddy2 = + a2newy2由此得:0二 Oddy】十色讯心旳_色“时力二 一一0a2neu,C分两种情况讨论:情况1.当yl等于y2时,有:0 a2neu,CL = max(0卫皿+比一 C)H= minfaa + az)情况2.当

17、yl不等于y2时,有:a20dd ajdd 0 a c-ajdd + 购。10 a畀册 CL= maxQa/dd -如血)H = min(CC-aaoid + a:2odd)修剪后,可得alpha2的取值如下:由alpha2和alpha!的关系,可得:= aJdd+Ny/oddtw)在完成alphal和alpha2的一轮更新后,需要同时更新b的值,当alphal更新后的值满足OalphalC时,由KKT条 件得:啊屁+ b= y2由于篇幅有限,在此就不把推导过程一一列举,可得:乂 = 一虽一加危(的庭闪-Qdd) _北层12呎、 一色讯今+b。同样的道理,当alpha2更新后的值满足OCalp

18、halC时可 得:&2 = -E2 -yKa - iOdd)-j2/r22(a2n6W - a20dd)十 b若更新后的alphal和alpha2同时满足大于0且小于C 的条件,那么b就等于bl等于b2;否则,b取bl和b2的 中点。那么问题来了,如何选择alphal和alpha2呢?选择违背下列KKT条件推导结果的alpha作为alphal:lOj = oXi-pC%:) = fe|0 C牛奶,该规则的置信度是0.9,意味 着在所有买了鸡蛋和面包的客户中,有90%的客户还买了牛奶。 关联规则能够用来发觉专门多有味的规律。这其中需要先阐明两 个概念:支持度和置信度。4. 2. 1.支持度 Su

19、pport支持度指某频繁项集在整个数据集中的比例。假设数据集有 io条记录,包含鸡蛋面包的有5条记录,那么r鸡蛋面包的支持度确实是5/10 = 0.5o4. 2. 2. 置信度 Confidence置信度是针对某个关联规则定义的。有关联规则如鸡蛋 面包- r牛奶,它的置信度计算公式为鸡蛋面包, 牛奶的支持度/r鸡蛋面包的支持度。假设鸡蛋 面包牛奶的支持度为0.45, r鸡蛋面包的支持度 为0.5,则鸡蛋面包J - 牛奶的置信度为0. 45 / 0. 5 = 0. 9O关联规则用于发觉if -then如此的规则,并能够给出这 条规则的可信度(即置信度)。现实场景中能够用来发觉专门多 规律,下面举

20、个例子。在信息安全领域,需要依照已有流量数据 制定规则,来推断是否触发安全报警。如规则数据包大 多个ip地址同时发送数据- 异常该规则的置信度为 0. 85O这条规则表示,当流量数据包大,并有多个ip地址同时 向目标ip发送数据时,则有85%的概率存在异常,需要触发报 警。4. 3.频繁项集挖掘原理频繁项集挖掘分为构建FP树,和从FP树中挖掘频繁项集 两步。本节用如下表所示的数据集作为例子展开,该示例数据集 共四条数据。表格1示例数据集4. 3. 1. 构建FP树构建FP树时,首先统计数据集中各个元素出现的频数,将 频数小于最小支持度的元素删除,然后将数据集中的各条记录按 出现频数排序,剩下的

21、这些元素称为频繁项;接着,用更新后的 数据集中的每条记录构建FP树,同时更新头指针表。头指针表 包含所有频繁项及它们的频数,还有每个频繁项指向下一个相同 元素的指针,该指针要紧在挖掘FP树时使用。下面用上文提到 的数据集展开讲明,假设最小支持度为2。首先,统计数据集中各元素出现的次数,得a出现4次,b 出现3次,c出现2次,d出现2次,e出现1次。接着,将出现次数小于最小支持度2的元素(即e)在数据集中删除,并将数据集按出现次数由高到低排序,得表格2。表格2示例数据集然后,用更新后的数据集中的记录创建FP树,并同时更新 头指针表。创建FP树时,当待添加的记录与FP树中的路径相 同,则只需更新元

22、素对应的频数;假如待添加的记录与FP树存 在不一致,则在不一致的地点分叉,创建新的结点。如图6、图9 所示。注意,FP树的根节点是null。图6向FP树添加第一条记录 a,b,c 图7向FP树添加第二条记录 a,b,ctd 图8向FP树添加第三条记录 a ,d 图9向FP树添加第四条记录 a ,b 4. 3. 2.挖掘频繁项集得到FP树后,需要对每一个频繁项,逐个挖掘频繁项集。具体过程为:首先获得频繁项的前缀路径,然后将前缀路径作为 新的数据集,以此构建前缀路径的条件FP树。然后对条件FP 树中的每个频繁项,获得前缀路径并以此构建新的条件FP树。 不断迭代,直到条件FP树中只包含一个频繁项为止

23、。下面以元 素c为例,从上文图9创建好的FP树中挖掘频繁项集。首先,获得以c元素的前缀路径a:2,b:2,注意此处a和 b的频数为2是因为c的频数为2,因此与c共同出现的a 和b的频数就都为2O接着,创建条件FP树,具体的创建过程和上一节创建FP树 的过程一样,如图10所示。null头指针表图10 c元素的前缀路径构成的条件FP树注意现在头指针表中包含两个元素,因此对每个元素,需要 获得前缀路径,并将前缀路径创建成条件FP树,直到条件FP 树中只包含一个元素时返回。1.对元素a,获得前缀路径为 ,则频繁项集返回c,a;2.对元素b,获得前缀路径4,则将前缀路径创建成条件FP树,如图11所示。注

24、意现在条件FP树中只包含一个 元素,故返回频繁项集c,b,ao由于元素b也是频繁项, 因此c,b也是频繁项集。再加上c本身确实是频繁项集,因此c对应的频繁项集有: c c,a c,b c,b,a o头指针表a:2nulla: 2图11 b元素的前缀路径构成的条件FP树将其他元素a,b,d同样按照上述对c的操作,得到表格3 所示频繁项集。表格3元素a,b,c,d对应的频繁项集元素频繁项集a a b(b b,a c c c,a c,b c,b,a d d d,a 4. 4.关联规则挖掘原理关联规则挖掘首先需要对上文得到的频繁项集构建所有可能 的规则,然后对每条规则逐个计算置信度,输出置信度大于最小

25、 置信度的所有规则。以频繁项集a,b,c为例,构建所有可能的 规则:b,c - a, a,c - b,a,b - c, c- a,b, b - a,c,a - b,c。对每条规则计算置信度后, 输出满足要求的规则即可。5.NaiveBayes差不多原理朴素贝叶斯模型要紧用来分类,然而与SVM模型不同的的是, 朴素贝叶斯模型不需要针对目标变量建立模型,而是借助贝叶斯 公式计算样本属于各个类不的概率,然后取概率值大的类不作为 分类类不。之因此称之为朴素,是因为朴素贝叶斯模型假设各属 性之间是条件独立的,该假设极大得简化了运算,使得朴素贝叶 斯模型变得特不简单。朴素贝叶斯模型要紧应用在文本分类方面。那个地点需要用 到向量空间模型,立即文本转换成词向量。词向量的每一项是该 词出现的频数。在朴素贝叶斯中会将频数进一步转换成频率。如 此就完成了文本到数值上的转化,方便后期计算条件概率和先验 概率。朴素贝叶斯模型也有它的优缺点,优点是模型简单,计算快; 缺点是依靠于属性之间条件独立这一假设,然而现实场景下专门 多情况并不满足这一假设,使得朴素贝叶斯的准确率受到阻碍。 这种情况需要考虑半朴素贝叶斯,即放松属性之间条件独立这一 假设,一定程度上考虑属性之间的依靠关系。由于篇幅有限,对 半朴素贝叶斯感兴趣的话可自行参照文末参考资源学习,本文重 点介绍朴

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1