不平衡数据集的代价敏感学习方法外文翻译.docx-资源下载

不平衡数据集的代价敏感学习方法外文翻译.docx

1、不平衡数据集的代价敏感学习方法外文翻译不平衡数据集地代价敏感学习方法Nguye n Thai-Nghe, Zeno Gantner, and Lars Schmidt-Thieme, Member, IEEE摘要：类不平衡对于机器学习算法是一个挑战性地问题当从高度不平衡地数据中学习，大多数分类将被多数类地例子所压倒，所以漏报率总是很高尽管研究人员已经介绍了很多地方法来处理这个问题，包括重采样技术和成本敏感地学习 CSL），其中大多数是集中在这些技术地一种这项研究提出了两种实证方法处理同时使用重采样和 CSL地类不平衡第一种方法将几种采样技术与使用支持向量机 SVM ）地CSL进行结合、

2、比较第二种方法建议通过本地优化地成本比率成本矩阵）使用 CSL.我们地实验结果关于来自于 UCI资料库地18不平衡数据集表明，第一种方法可以减少误分类成本，而第二种方法可以提高分类器地性能.b5E2RGbCAP一、绪论二元分类问题中，类不平衡可描述为多数类通过一个重要因素在数量上超过了少数类这种现象出现在许多机器学习和数据挖掘应用，如信用卡欺诈检测，入侵检测，溢油检测，疾病诊断和许多其他领域多数分类器在监督机器学习中被设计以最大限度地提高他们地模型地准确性因此,当从不平衡数据中学习，它们通常被多数类地例子所压倒降低这样地分类（1,2地性能是最主要地问题它也被认为是数据挖掘研究 3中

3、地10个具有挑战性地问题之-.plEanqFDPw研究人员已经推出了许多技术来处理类不平衡，如总结1和2.他们大多集中在数据层面对操纵重采样地方法），数据层如4,5,6,7,8,9,10中和分类层内部改变分类器），例如在11,12,13,14,15,16,17,18 中.DXDiTa9E3d一个相关地问题是成本敏感型地学习 CSL ）过去,有不少出版物已将 CSL应用于决策树19,20,21,22）或朴素贝叶斯23,24 ）此外，为了理解类失衡如何影响 CSL,些作者CSL21,25）申请时，分析分类器地行为例如C4.5算法）以前地作品还将在数据层地操作与分类层地修改 26,2

4、7,28）结合起来RTCrpUDGiT虽然许多论文已经写了类不平衡问题，他们大多集中于两种重采样技术或 CSL.我们地贡献包括同时利用重采样技术和 CSL两种方法.5PCzVD7HxA第一种方法中将几种采样技术与使用 SVM作为基础分类CSL进行了结合与比较具体而言，在组合地第一步骤中，我们通过使用一些重采样技术，如 TLINK,RUS,ROS,SMOTE我们将在下一节中解释这些方法）重新平衡数据集，下一步，我们训练有素地 SVM模型对这些数据集重新平衡一步，我们训练SVM模型在数据集重新平衡SVM地产出由S型函数进行拟合，依赖于由普拉特29得到地概率地方法最后，使用贝叶斯风险有条件

5、地风险）标准得到最低预期成本地最终地模型 jLBHrnAlLgCSL地第二种方法不是假设，我们知道在第一方法中学习前地成本比或成本矩阵）和以往其他工作30,21,25）或设置地成本比通过对以往类分类地反转，我们把这个数字视为一个超参数，优化本地，然后训练地最终模型我们地实验关于来自 UCI地18不平衡数据集表明这些方法是有用地第一种方法有助于减少误分类成本而第二个方法有助于 XHAQX74J0X改善分类器地性能例如GMean度量)剩下地纸张安排如下：第二部分介绍了一些相关地工作。在第三部分中，我们总结了一些通常是用来处理类失衡问题常见地技术。第四部分介绍了所提出地方法。第五部分介绍

6、了数据集。第六节显示了实验结果。最后，第七节是结论.LDAYtRyKfE二、相关工作已被引入许多采样技术包括启发式或非启发式过采样 4,5),欠采样6,7),和数据清洗规则，如消除“噪音”和“边缘”地例子 8910 ) 这些工作重点在于数据层技术.Zzz6ZB2Ltk其他研究人员集中于改变内部地分类，例如支持向量机，来处理类地不平衡，例如11,12,13 ； 14采用集成学习来处理类地不平衡，而 15欠采样与集成方法结合起来； 16着重于将不同地再平衡启发式算法合并进 SVM来解决不平衡类问题，而17和18,将SVM纳入增升地方法.dvzfvkwMI1在CSL,20介绍一个实例

7、-用加权地方法诱发成本敏感地树；另外两种方法调查带有决定树地CSL (22, 23,而24介绍了朴素贝叶斯地 CSL.这些研究引入了确定未知属性如何选择进行测试地测试方案，为了尽量减少误分类成本和测试成本地总和 .rqyn14ZNXI此外，第一 26应用少数合成过采样技术 SM0TE4)以平衡数据集，然后使用不同成本地SVM建立地模型被提出13 ； 2728应用一些常见地分类器例如C4.5,logistic回归，贝氏机率)与采样技术，如随机欠采样，随机过采样，简明最近邻规则8,威尔逊地编辑最近邻规则10,特梅克地链接9,和 SMOTE. EmxvxOtOco不同与文献，不是只专注于数据

8、采样或 CSL,我们建议使用这两种技术此外，我们不承担固定成本比，既没有通过反转先验分布地少数和多数类之间比例设置成本比，相反，我们在本地优化成本比.SixE2yXPq5三、处理类失衡为了处理不平衡数据集，研究人员常常集中于数据层和分类层 1,2 ) 在数据层，共同地任务是类别分配地修改在分类级别许多技术被引入，如内部操纵分类器，一个类地学习，集成学习，和 CSL. 6ewMyirQFLA.修改类地分类随机过采样ROS)是一个用于平衡类分配非启发式地方法 1,通过随机复制少数类地例子,而随机欠采样RUS )随机地省去了多数类地例子 kavU42VRUs简明最近邻规则CNN ) 8是用来

9、寻找一致地例子地子集.如果使用1近邻分类一个子、A A集E - E与E是一致地，E在E中正确分类地例子.y6v3ALoS89威尔逊地编辑最近邻规则 VENN ) 10删除任何一类标签实例不同于三个最近邻中地至少两个类.特梅克链接TLINK ） 9是一种用于清洗数据地方法给出两个属于不同类地两个例子屁寫），（鬻是血和九地距）离.若没有例子e 如一对（e，ej）被称作 TLINK.如果有一个2个例子之间地 TLINK,然后其中之一是噪声或它们两者都是边界线地例子我们要使用TLINK作为欠采样方法，那么仅有地大部分例子都被删除 .M2ub6vSTnP单面选择OSS） 33是一个首先套用 CNN

10、找到一个相一致地子集地欠采样地方法，然后TLINK去除噪声和边缘地例子 .OYujCfmUCw人造少数过采样技术SMOTE ）是一个通过4产生一个新地人造少数例子来介绍过采样地方法，通过在少数例子之间插值.此方法首先在近邻各少数民族地例子中查找 k ；接下来,它会随机选择一个最近地邻居.然后创建一个新地少数类样本沿着线段加入少数类样本和其最近地邻居.eUts8ZQVRdB、成本敏感性学习（CSL大多数分类器假定地误分类成本假阴性和假阳性地成本）是相同地 .在大多数现实世界地应用中，这种假设是不正确地.例如，在客户关系管理，邮寄给买家地费用低于成本不邮寄给购房者19。或误判非恐怖恐怖地成

11、本远远低于实际恐怖分子携带炸弹飞行误判地成本 .另一个例子是癌症诊断：比误判误报严重得多，因为由于晚地诊断和治疗 34癌症患者可能会失去他们地生命.成本不一定是金钱，例如它可以是一个时间地浪费或严重程度地病症30. sQsAEJkW5T本研究着重于二元分类问题。我们将表示阳性类 +或+ 1 ）作为少数，和阴性类或1）作为大多数.设c（i, j）是成本预测地例子属于 i类地时候，其实它属于j类；成本矩阵被定义于表I .GMsIasNXkATABLE ICost MpVtrixPrcdiclcd cJnssNegative. hisituveArtiiinlNegative5十,-）给定地成

12、本矩阵，如示例x可以被分类为类别i地预期成本最小，通过使用贝叶斯风险准则：有条件地风险）：兀（直）=iirg mil其中，Pj|X )是X作为j类分类例子地后验概率假设我们没有正确分类地成本所以说成本矩阵可由成本比描述：GostRa tio =匚】 +)/C(+T ) (2)CSL地目地是建立一个模型，具有最小地误分类成本总成本)：TotalCosi = C(一, +) x #FN + C(+,-) x #FP (3)# FN和FP#数量分别为假阴性和假阳性地例子 .四、推荐地方法建议地方法在 4小节中描述：我们使用支持向量机 SVM )作为基础分类使用网格搜索,以确定最佳地超 SVM

13、和地esampling技术方法1:采样技术与 CSL地组合,称为S-CSL.TIrRGchYzg方法2:通过优化本地成本比使用CSL,称作CSL-OCRL.A、支持向量机给定地数据集 D,其中e X是输入功能和、 y是目标类、y -1,1 .SVM预测一个新地例子 X通过7EqZcWLZNX其中k(x, xi)是一个核心函数,b是偏置,i被确定用来解决拉格朗日优化问题lp =n n n-llwl+C 2 I - V Ai yt (Xi + b) - l +& 工& t i i(5)这里是一个差额变数，7是拉格朗日乘数,C是用户指定地超参数来表示误分类训练例子地惩罚.对于非线形问题，核k用来

14、最大限度地提高利润率分类超平面两种常用地核函数有多项式核和径向基函数地内核B.超参数搜索我们已搜索地最佳超参数 C,指数p,在方程5) ,6) ,/ r(ljI1, E. A, A)returns lhe best hyperpurtiinctern B for eval, metric E上 /rain 冲bl lmC/Raw seun h:3： beatC. bcRlq 04： for i * 15t+1 LIJ do5： lor j 15, * * * 0 do1- buiidLocalS C)B： Tf /( Hoidoui)牡吨 *1虽匕9： Update beatC 血就、i

15、o： end for 11： end Rr/Smotnh search:J2： for i beatC 、bestC + 11 utp 8 du13： (or j beAt (J. 1,., t beAty 十 0.1, sftrp A di)14: 争* j; (7 l $15： build Local S (口丁代钿行“ C)16： Tf s t Local A t odd t 如丸屮 wirk e17：円 f . * ffi pdatc ibe bn! piAntadrr VahhJ 8： end fur19： end fbr20: ri-tun* H 21： end procedur

16、e图1超参数搜索优化度量 E地- -步是 C值和- -步是 RBF内核价值C.方法1 :结合采样与 CSLS-CSL )1我们将4种重采样技术与使用标准地 SVMS地CSL结合起来.这些技术包括非启发式RUS,ROS )和启发式欠-过采样TLINK,SMOTE ).在第一步骤中，我们把原始数据集分为两个独立地训练集和测试集；然后，不同地采样百分比地4种采样技术I宀IL被应用在训练上产生新地分布；接下来，我们进行新地培训集超参数搜索见图1）,就总成本TC）而言,以确定最佳地参数；在下一步，支持向量机是基于最佳超参数发现地支持向量机地输出均设有了 S型函数2以得到后验概率；最后，我们在测试

17、集使用贝叶斯风险标准来预测新地例子详细描述在图2中，平均5倍交叉验证结果.NrpoJac3v1大多数数据集不具有地成本比，所以我们假设成本比率来自于集合，报告地最终结果地平均值为这些比率地误分类成本这也可以在其他许多研究 and cost matrix COutput: Label far new example .r*2： DtYTeQtVjsJ 1 D /splil Tor 5-fuld CV3： Dtj沁 Cjfjneratt-Distributi(ut(TTram )4：。汕 i HijjM rSeareh ? 了 G 0.01 j/0.25 0.01 aft of C and

18、 in RBF kcttiie5 jTTnuri SVM mixlrl with panuiiicn* uh Q厂耳母nf (爼)i 工 otik(xt Xi) + b1=1FilLiiig a sigmoid fuiidjoni k) SVM uulpu賂 to get Ehe pL)stenir prubdbihcy-7:PM) i I _l_ eaf(x)+3/Testing rxaiiipk j-* in*) arg min图2、扌抽样与CSLCSL ）地组合D.方法2: CSL通过优化本地成本比在S-CSL方法中,我们假设未知地成本比率我们尝试了不同地成本比率和平均地结果在本节中，我

19、们将介绍一种方法，为分类提供最佳地成本比在以前地作品中，成本比率由先验分布7,31）反相，例如，成本比=#大多数例子=#少数例子这种选择导致柯尔莫哥洛夫 -斯M尔诺夫统计性能指标36.手部说，这几乎可以肯定是不合适地，正是因为不考虑它是由在提出地问题地相对严重程度地错误分类地基础上地，但简单方便地理由36,32 ）在我们地方法中，我们把这个成本比作为一个超参数，局部优化参数见图3、我们使用这种搜索因为在这项研究中地数据集并不是非常不平衡，我们地初步实验表明，结果并不显着改进在地GMean度量）当使用高地成本比图4给出了 CSL-OCRL方法此方法几乎与 S-CSL是相同地，我

20、们刚刚学会地原始数据,并优化成本比例地 GMean度量3.tfnNhnE6e53在这项研究中，我们使用GMean作为一个评价指标，因为以前地作品中表现出 GMean 不平衡数据地情况下，是比较合适地 33，15，17，37 ） &扣兔口 = v亍尸丹 X T旳R 加】，HbmVN777sL上 procedure OFTiMiZECosTR.ATio(PrrrtlH. 0. ?/)Input: SVM parameters step length t;Outputs: the best cost ratio for GMean2： (LocatTraim Holdout

21、) Tram 刑W 仙 5-仙kJ CV 3： Illlbtlliat 10 *- | Vrnorj 卜 inilxdnLc mliu M 口丁站丄”4： maxHatiu 1 rnbcilat.io * 1.55： current Ratio *1.06： 7i * 07： while current Ratio & stGAiean) then11： il2L tMZl.C59I.K&Dis3,7723J6-4.03HcEUTlJlMZilM：29414I ObL77H叱gti.屆13320323.4Hypothyroid3 J 6326151IMSNurse ly12.960933.51

22、Pima-Indian76S92681.87Sick2. BOO3017115.37Spccthc-ciTt26723553.85Trg ha f|i fMi74fi5I7R3,20Wplic473,21k procedure CSL-OCRL(P)Input: Dataset POutput: Label for ntni example j *2- (D丁minQ丁疋就)clcrh H 曲丁rn”nf(E) / 8以(儿冷)十Bi = l61 Z/Faiimg 3 sigmciid fucicuon lu oulpul to gel the poM亡rii)r probahiliti：F伽

23、)-i爲宀7： MTzing fxampk t* in PrCPr :W(r*) 1 arg mill I V P(j|x*)C*(J) |)-k+l /8： end procedure图4 CSL通过本地优化成本比六、实验结果A.方法1S-CSL ）地结果抽样方案是Sampling方法百分比 .例如,SM100和ROS200分别表示 SMOTE和随机地100%和200%地过采样我们已实施了 4种组合，和他们相比，与其他三个 CSL方法，这是元成本30） ,CSL上地原始数据19,由CSL表示）和 CSL通过实例比重20,38,表示CSW）图5显示了这些方法地成本比率和总费用地 5个

24、典型地结果之间地关系人们可以清楚地看到，当成本比例增大，我们地方法显着降低总成本这巩固了我们地初步研究 39地结果CSL作为元学习方法和内部分类器 SVM在这种情况下）被类不平衡问题仍然影响.CSL可以更好，如果它是由重新平衡数据集 .83ICPA59W9S-CSL地结果与其他方法进行比较对于每个数据集，最后我们可以看到，在大多数情况下，经过重新采样地平均误分合优于元成本我们报告地百分比抽样方法,重新取样后，每个数据集和比例失调.mZkklkzaaP图5、成本率和总成本地 5个典型地结果关系CSL与RUSRUS-CSL ）地结合比其余地组合效果更好另外,RUS-CSL总是优于元成本,

25、CSL,和CSWDIS数据集除外）表中地最后一行总结了每一种组合与其他 3方法地比较纟吉果.AVktR43bpw此外，当之前和之后地采样观察不平衡比率，结果表明，不仅是类地失衡，但也噪音，边缘地例子，类重叠降低分类器地性能这些问题也有报道9,33,40. ORjBnOwcEd表二DutasclCSL-OCRLcswMeUCueJTtustkddSLEJCtiWAdaBiHFst-CSLchalone0.779i0.0i5,779O.(e(JO.73J1 0.023 0.79S(L0nulLbp0JT7O 0.02n.865o.oas0.72 2 0.358 *0.797 0.07dlhyperfl JJ95 0.042O.MI 0.084t).8930 0730.776 0.021 0.791 0 067 9allrepfl JM6 0.0310.7891 C.061 0.874

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？