机器学习简明原理.docx-资源下载

机器学习简明原理.docx

1、机器学习简明原理机器学习简明原理讲明：本文整理自IBM大数据学习文档，原文作者：韩笑琳1.关于机器学习的简介机器学习是从大量数据中学习出特定规律的算法。其中提到的规律有专门多种，比如分类、聚类、回归、关联分析等。分类确实是给定大量带标签的数据，计算出未知标签样本的标签取值。如年龄40岁以上、工科、研究生以上学历，这类人薪资水平是高收入；年龄20-30岁、文科、大专学历，这类人的薪资水平是低收入；现有一位23岁大专文科人士，求该人的薪资水平是哪类？依照分类建模，就能够明白那个人的薪资水平专门可能是低收入。聚类是将大量不带标签的数据依照距离聚拢成不同的簇，每一簇数据有共同的特征。如电

2、信行业能够依照用户的月长途电话分钟数、上网时长、短信使用数、地理位置、月消费数，将所有用户聚拢成有典型特征的簇，聚拢出的某簇特征可能是月长途电话分钟数长、上网时刻长、地理位置变化不大、月消费数目低, 分析可得这类人极有可能是在校大学生，那么电信公司就能够针对这类特定人群制定有针对性的营销策略。回归是依照特征值、目标变量拟合出特征值与目标变量之间的函数关系，可用来可能特征值对应的目标变量的可能取值。举个简单的例子，某市今年某100平米的房子价格是80万，某 150平米房子价格是120万，那么某200平米的房子价格的取值就可能是200*0. 8=160万左右。关联分析是计算出大量数据

3、之间的频繁项集合。如超市订单中有大量订单同时包含啤酒与尿布，这其中的频繁项确实是啤酒和尿布，那么超市就能够针对那个规律对啤酒和尿布进行组合促销活动。分类算法要紧包括K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、AdaBoost等；回归要紧包括线性回归、岭回归、 lasso.树回归等；聚类要紧包括K-Means以及它的各种变形算法；关联分析要紧包括Apriori. FP-growth等算法。支持向量机即support vector machine（简称SVM）,是机器学习领域经典的分类算法。2.关于SVM的简介支持向量是距离分类超平面近的那些点，SVM的思想确实是使得支持向量到

4、分类超平面的间隔最大化。动身点专门容易理解, 距离分类超平面近的那些点到该超平面的间隔最大化代表了该超平面对两类数据的区分度强，不容易出现错分的情况。如图1 所示，支持向量到超平面1的间隔大于支持向量到超平面2的间隔，因此超平面1优于超平面2。图1两个超平面示例SVM能够专门好得解决二分类问题，关于多分类情况，就需要对模型进行改动。如one-versus-rest法，这种方法每次选择一个类不作为正样本，剩下其他类不作为负样本，假设一共有 3个类不，如此相当于训练出了 3个不同的SVM。然后将测试数据分不带入3个SVM模型中，得到的3个结果中的最大值则为最终的分类结果。支持向量到分类

5、超平面的间隔最大化的思路专门完美，按这种思路得到的模型理论上是准确度最高的一种模型。然而使用过SVM的朋友都明白，调用SVM算法的测试准确度并不一定都专门高。这其中有专门多缘故，比如数据预处理的效果、训练集的大小、特征值的选择、参数设置以及核函数的选择等因素。任何模型差不多上优点与缺点并存的。SVM的优点是：1.能够解决线性不可分的情况。如图2所示，两类数据点全然无法用超平面分隔开；2.计算复杂度仅取决于少量支持向量，关于数据量大的数据集计算复杂度低。SVM的缺点是：1.经典的SVM算法仅支持二分类，关于多分类问题需要改动模型；2.不支持类不型数据，需在预处理时期将类不型数据转换成离散

6、型数据。类不型数据即”男”、”女这类由字符串表示某类信息的数据，需将这类数据转换成离散型数据如1、 2O X X x X X XX X X 一 X X图2线性不可分问题3.SVM差不多原理SVM原理分为软间隔最大化、拉格朗日对偶、最优化问题求解、核函数、序列最小优化SMO等部分。尽管这些名词看起来专门晦涩，然而深入探究后就会发觉其中的思想并没有那么复杂。3.1.软间隔最大化SVM的核心思路是最大化支持向量到分隔超平面的间隔。后面所有的推导差不多上以最大化此间隔为核心思想展开。一般的机器学习问题差不多上先得到模型的目标函数和约束条件，然后在约束条件下对目标函数求得最优解。因此，我们下

7、面首先需要推导出SVM模型的目标函数和约束条件。既然要最大化间隔，那么回忆下点x到超平面(w,b)的距离公式：|w -x 4-2?|d 二 II沖II其中超平面的公式为：w x+ b = 0由此可推出点X到超平面(w,b)的几何间隔为：w -Xi + b其中xi代表第i条数据，yi代表第i条数据对应的目标变量的取值，取值有+ 1和-1两种。因此当第i条数据被正确分类时，y取值和w*x+b取值的正负一致，几何间隔为正；当被错误分类时，y取值和w*x+b取值的正负相反.，几何间隔为负。图3样本数关于w*x + b的取值符号定义几何间隔中最小的为：y = minyf由此，能够得到间隔最大化

8、问题的目标函数：max y并遵循如下约束条件:做如下变换：ry= w则目标函数转换为：maxM相应的约束条件变为：stx(w+ &) y做如下变换：r tv , r bW = P b = 7可得目标函数和约束条件变为：1maxM由于W, b成倍数变化并可不能阻碍超平面的公式，因此:wr = w , bf = b现在得到最终的间隔最大化的目标函数和约束条件如下：s. t.yf (w-xf + b) 1然而，到那个地点并没有真正得结束。考虑到现实生活中的真实数据，存在一些特异点即outliers,这些数据点并不满足上面推导出的约束条件，如图4所示，图中点A确实是outlier 特异点。图4 O

9、utlier特异点为了解决这种问题，对每个样本点引进一个松弛变量，使得约束条件变为：s.t. (w-Xj + &) + 1Si 0如此给outlier的约束条件加上一个变量，使其能够满足大于等于1的条件。则相应的目标变量变为：minHwII2 + 其中c为惩处参数，它的目的是使得目标变量最小即几何间隔最大，且使得松弛变量最小化。加入松弛变量的目标函数确实是软间隔最大化。3. 2.拉格朗日对偶关于凸二次优化问题，通过引入拉格朗日乘子，将目标函数和约束条件整合到拉格朗日函数中，如此能方便求解最值问题。那么，对每个不等式约束引入拉格朗日乘子，得到拉格朗日函数如下:&(X 口)= | |

10、w|2 + C 勺一qw + b) - 1 + 冼)一工厂q Ofut 0分析可知:ma.xaL(w,b,E,d，ii) = y|w|2 十则原最优化问题转换成：如 m%L(wb s, cc u)由于原最优化问题直接求解专门困难，利用拉格朗日对偶性, 可通过求解原最优化问题的对偶问题得到原问题的最优解。原最优化问题的对偶问题为：77iarflni2v6 L(w,b, c, ccp)3. 3.最优化问题求解到此为止，差不多将目标函数和约束条件转换成了极大微小化拉格朗日函数的问题了。首先求解关于拉格朗日函数的微小化问题。对三个变量分不求偏导得：Vw L (wb E(X u) = w - 2

11、= 0L(Wjb&6A)= 一口加=0V毎 L(w,b cc u) = 业一山=0将以上三式带入拉格朗日函数中得:那么极大微小化拉格朗日函数转换成:加4如加恥L（w, b, 厲町二机：a 一扭曾沟y为（血勺）斗E的为求解方便，将极大转换成微小得:maxamin, L(w, b, s, a, l)= 妞 E % 勾：X为(竝巧)一 Y 曾0兰曾兰C3.4.核函数关于线性不可分问题，如图2所示，这类问题是无法用超平面划分正负样本数据的。倘若能将超平面换成超曲面，则能够将正负样本正确分类，如图5所示。图5超曲面分离正负样本我们明白曲面的公式是：k JCf + 22 + k? + k_x + Zcg

12、XjXj + fcg = 0映射到新坐标如下:Zj = Xj 2jZz = Zg = 丫2工1乙4 = v 225 = 丫2%丄工2可将超曲面在新坐标下表示成超平面:k Z + *2 Z： + 疋3 ?3 + *4 + *5 务十 k|5 = 0，也确实是将在二维空间(xl,x2)下线性不可分的问题转换成了在五维空间(zl,z2,z3,z4,z5)下线性可分的问题。得映射后新坐标下的内积：(p(p)-q) = (p q) + l)2=(Piq)=为洛 2 + 甘疔 + 2卩凤 + 2p2q-2p1p2q1q2 + t可知k(p,q) = (p(p) -(p(q) + 1何为核函数？核函数在低维

13、空间中完成了映射到高维空间后的内积运算。这点特不有用，利用核函数，无需先将变量一一映射到髙维空间再计算内积，而是简单得在低维空间中利用核函数完成这一操作。什么缘故讲不用一一映射到高维空间专门有用呢? 缘故就在于首先我们无法针对每种情况提供精确的映射函数，再者关于需要映射到无穷维的情况显然无法一一映射完成。那么什么缘故是映射到高维后的内积运算呢？这是因为在上节中我们得到了如下目标函数：L（w, b, e, a, p）二 mma 工玛丐”升（尤厂习）一 ai正是因为该目标函数中包含自变量的内积运算，而映射到高维空间后的内积运算又恰好能够通过核函数在低维空间中直接求得，故而有了核函数

14、的由来。较常用的核函数是高斯核，高斯核能够将低维空间映射到无穷维。运用核函数后，最优化问题的目标函数和约束条件变为:mtna3.5.序列最小优化(Sequential minimal optimization)到目前为止，优化问题差不多转化成了一个包含N个alpha 自变量的目标变量和两个约束条件。由于目标变量中自变量 alpha有N个，为了便与求解，每次选出一对自变量alpha, 然后求目标函数关于其中一个alpha的偏导，如此就能够得到这一对alpha的新值。给这一对alpha赋上新值，然后不断重复选出下一对alpha并执行上述操作，直到达到最大迭代数或没有任何自变量alpha再发

15、生变化为止，这确实是SMO的差不多思想。讲直白些，SMO确实是在约束条件下对目标函数的优化求解算法。为何不能每次只选一个自变量进行优化？那是因为只选一个自变量alpha的话，会违反第一个约束条件，即所有alpha和 y值乘积的和等于0。下面是详细的SMO过程。假设选出了两个自变量分不是 alphal和alpha2,除了这两个自变量之外的其他自变量保持固定，则目标变量和约束条件转化为:= 2na 斗匚尹子 + yiy2izaia2 （旳* a2）N N十吐y：氐血十y2 a2yf g Ki2i=2 e=3Ns. t. ffiYi 十 a2y2 = -* = 5f=20 crf C将约束条

16、件中的alphal用alpha2表示，并代入目标函数中，则将目标函数转化成只包含alpha2的目标函数，让该目标函数对alpha2的偏导等于0：% 皿）=o可求得alpha2未经修剪的值：之因此讲alpha2是未经修剪的值是因为所有alpha都必须满足大于等于0且小于等于C的约束条件，用此约束条件将alpha2进行修剪，修剪过程如下:aiddyj +a2oddy2 = + a2newy2由此得:0二 Oddy】十色讯心旳_色“时力二一一0a2neu，C分两种情况讨论:情况1.当yl等于y2时，有:0 a2neu，CL = max(0卫皿+比一 C)H= minfaa + az)情况2.当

17、yl不等于y2时，有:a20dd ajdd 0 a c-ajdd + 购。10 a畀册 CL= maxQa/dd -如血)H = min(CC-aaoid + a:2odd)修剪后，可得alpha2的取值如下:由alpha2和alpha!的关系,可得:= aJdd+Ny/oddtw)在完成alphal和alpha2的一轮更新后，需要同时更新b的值，当alphal更新后的值满足OalphalC时，由KKT条件得:啊屁+ b= y2由于篇幅有限，在此就不把推导过程一一列举，可得：乂 = 一虽一加危(的庭闪-Qdd) _北层12呎、一色讯今+b。同样的道理，当alpha2更新后的值满足OCalp

18、halC时可得：&2 = -E2 -yKa - iOdd)-j2/r22(a2n6W - a20dd)十 b若更新后的alphal和alpha2同时满足大于0且小于C 的条件，那么b就等于bl等于b2；否则，b取bl和b2的中点。那么问题来了，如何选择alphal和alpha2呢？选择违背下列KKT条件推导结果的alpha作为alphal：lOj = oXi-pC%：) = fe|0 C牛奶,该规则的置信度是0.9,意味着在所有买了鸡蛋和面包的客户中，有90%的客户还买了牛奶。关联规则能够用来发觉专门多有味的规律。这其中需要先阐明两个概念：支持度和置信度。4. 2. 1.支持度 Su

19、pport支持度指某频繁项集在整个数据集中的比例。假设数据集有 io条记录，包含鸡蛋面包的有5条记录，那么r鸡蛋面包的支持度确实是5/10 = 0.5o4. 2. 2. 置信度 Confidence置信度是针对某个关联规则定义的。有关联规则如鸡蛋面包- r牛奶,它的置信度计算公式为鸡蛋面包，牛奶的支持度/r鸡蛋面包的支持度。假设鸡蛋面包牛奶的支持度为0.45, r鸡蛋面包的支持度为0.5,则鸡蛋面包J - 牛奶的置信度为0. 45 / 0. 5 = 0. 9O关联规则用于发觉if -then如此的规则，并能够给出这条规则的可信度（即置信度）。现实场景中能够用来发觉专门多规律，下面举

20、个例子。在信息安全领域，需要依照已有流量数据制定规则，来推断是否触发安全报警。如规则数据包大多个ip地址同时发送数据- 异常该规则的置信度为 0. 85O这条规则表示，当流量数据包大，并有多个ip地址同时向目标ip发送数据时，则有85%的概率存在异常，需要触发报警。4. 3.频繁项集挖掘原理频繁项集挖掘分为构建FP树，和从FP树中挖掘频繁项集两步。本节用如下表所示的数据集作为例子展开，该示例数据集共四条数据。表格1示例数据集4. 3. 1. 构建FP树构建FP树时，首先统计数据集中各个元素出现的频数，将频数小于最小支持度的元素删除，然后将数据集中的各条记录按出现频数排序，剩下的

21、这些元素称为频繁项；接着，用更新后的数据集中的每条记录构建FP树，同时更新头指针表。头指针表包含所有频繁项及它们的频数，还有每个频繁项指向下一个相同元素的指针，该指针要紧在挖掘FP树时使用。下面用上文提到的数据集展开讲明，假设最小支持度为2。首先，统计数据集中各元素出现的次数，得a出现4次，b 出现3次，c出现2次，d出现2次，e出现1次。接着，将出现次数小于最小支持度2的元素（即e）在数据集中删除，并将数据集按出现次数由高到低排序，得表格2。表格2示例数据集然后，用更新后的数据集中的记录创建FP树，并同时更新头指针表。创建FP树时，当待添加的记录与FP树中的路径相同，则只需更新元

22、素对应的频数；假如待添加的记录与FP树存在不一致，则在不一致的地点分叉，创建新的结点。如图6、图9 所示。注意，FP树的根节点是null。图6向FP树添加第一条记录 a,b,c 图7向FP树添加第二条记录 a,b,ctd 图8向FP树添加第三条记录 a ,d 图9向FP树添加第四条记录 a ,b 4. 3. 2.挖掘频繁项集得到FP树后，需要对每一个频繁项，逐个挖掘频繁项集。具体过程为：首先获得频繁项的前缀路径，然后将前缀路径作为新的数据集，以此构建前缀路径的条件FP树。然后对条件FP 树中的每个频繁项，获得前缀路径并以此构建新的条件FP树。不断迭代，直到条件FP树中只包含一个频繁项为止

23、。下面以元素c为例，从上文图9创建好的FP树中挖掘频繁项集。首先,获得以c元素的前缀路径a：2,b：2,注意此处a和 b的频数为2是因为c的频数为2,因此与c共同出现的a 和b的频数就都为2O接着，创建条件FP树，具体的创建过程和上一节创建FP树的过程一样，如图10所示。null头指针表图10 c元素的前缀路径构成的条件FP树注意现在头指针表中包含两个元素，因此对每个元素，需要获得前缀路径，并将前缀路径创建成条件FP树，直到条件FP 树中只包含一个元素时返回。1.对元素a,获得前缀路径为 ,则频繁项集返回c,a；2.对元素b,获得前缀路径4,则将前缀路径创建成条件FP树，如图11所示。注

24、意现在条件FP树中只包含一个元素，故返回频繁项集c,b,ao由于元素b也是频繁项, 因此c,b也是频繁项集。再加上c本身确实是频繁项集，因此c对应的频繁项集有: c c,a c,b c,b,a o头指针表a：2nulla: 2图11 b元素的前缀路径构成的条件FP树将其他元素a,b,d同样按照上述对c的操作，得到表格3 所示频繁项集。表格3元素a,b,c,d对应的频繁项集元素频繁项集a a b(b b,a c c c,a c,b c,b,a d d d,a 4. 4.关联规则挖掘原理关联规则挖掘首先需要对上文得到的频繁项集构建所有可能的规则，然后对每条规则逐个计算置信度，输出置信度大于最小

25、置信度的所有规则。以频繁项集a,b,c为例，构建所有可能的规则：b,c - a, a,c - b,a,b - c, c- a,b, b - a,c,a - b,c。对每条规则计算置信度后，输出满足要求的规则即可。5.NaiveBayes差不多原理朴素贝叶斯模型要紧用来分类，然而与SVM模型不同的的是, 朴素贝叶斯模型不需要针对目标变量建立模型，而是借助贝叶斯公式计算样本属于各个类不的概率，然后取概率值大的类不作为分类类不。之因此称之为朴素，是因为朴素贝叶斯模型假设各属性之间是条件独立的，该假设极大得简化了运算，使得朴素贝叶斯模型变得特不简单。朴素贝叶斯模型要紧应用在文本分类方面。那个地点需要用到向量空间模型，立即文本转换成词向量。词向量的每一项是该词出现的频数。在朴素贝叶斯中会将频数进一步转换成频率。如此就完成了文本到数值上的转化，方便后期计算条件概率和先验概率。朴素贝叶斯模型也有它的优缺点，优点是模型简单，计算快；缺点是依靠于属性之间条件独立这一假设，然而现实场景下专门多情况并不满足这一假设，使得朴素贝叶斯的准确率受到阻碍。这种情况需要考虑半朴素贝叶斯，即放松属性之间条件独立这一假设，一定程度上考虑属性之间的依靠关系。由于篇幅有限，对半朴素贝叶斯感兴趣的话可自行参照文末参考资源学习，本文重点介绍朴

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？