直推式学习应用于乳腺癌数据建模.docx

上传人:b****7 文档编号:10601841 上传时间:2023-02-21 格式:DOCX 页数:24 大小:174.20KB
下载 相关 举报
直推式学习应用于乳腺癌数据建模.docx_第1页
第1页 / 共24页
直推式学习应用于乳腺癌数据建模.docx_第2页
第2页 / 共24页
直推式学习应用于乳腺癌数据建模.docx_第3页
第3页 / 共24页
直推式学习应用于乳腺癌数据建模.docx_第4页
第4页 / 共24页
直推式学习应用于乳腺癌数据建模.docx_第5页
第5页 / 共24页
点击查看更多>>
下载资源
资源描述

直推式学习应用于乳腺癌数据建模.docx

《直推式学习应用于乳腺癌数据建模.docx》由会员分享,可在线阅读,更多相关《直推式学习应用于乳腺癌数据建模.docx(24页珍藏版)》请在冰豆网上搜索。

直推式学习应用于乳腺癌数据建模.docx

直推式学习应用于乳腺癌数据建模

分类号TP181单位代码

密级学号

 

信息工程学院学生毕业论文

 

题目

直推式学习应用于乳腺癌数据建模

学生姓名

学号

专业

指导教师

 

 

毕业论文诚信责任书

 

本人郑重声明:

所呈交的毕业论文,是本人在导师的指导下独立进行研究所取得的成果。

毕业论文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。

尽我所知,除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果。

对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。

本人毕业论文与资料若有不实,愿意承担一切相关的法律责任。

 

论文作者签名:

年月日

摘要

海量的数据中存在着大量易获得的无标签数据,无标签数据有助于训练具有更优推广能力的模型,有大量研究表明,无标签样本在机器学习领域中具有巨大的潜力和价值。

首先从UCI数据库获得乳腺癌数据,对数据进行了标准化处理与分析。

其次,将直推式向量机(TransductiveSupportVectorMachines,TSVM)算法应用于乳腺癌数据的建模,研究了无标签样本的选择对模型预测能力的影响。

最后,本文方法与归纳式支持向量机(InductiveSupportVectorMachines,ISVM)在此数据上的预测结果进行比较,实验结果表明直推式学习训练得到的半监督分类器在推广能力上具有一定的竞争力。

同时分析研究了不同比例的无标签样本建模对分类器预报精度的影响。

结果表明无标签样本有助于训练更优化的模型,在机器学习过程中表现出相应的应用潜力和价值。

关键字:

非标签样本;半监督学习;直推式支持向量机;

Abstract

Mucheasilyobtainedunlabeleddataexistsinthevastamountsofdata.Theunlabeleddatacanhelptotrainthemodelwithbettergeneralizationability.Therearealotofresearchshownthatunlabeledsampleshavegreatpotentialandvalueinthefieldofmachinelearning.Firstofall,breastcancerdataareobtainedfromtheUCIdatabasewhichhasbeenanalysedwithstandardization.Secondly,TheTransductiveSupportVectorMachinesalgorithmisappliedtothemodelingofbreastcancerdata,throughwhichthepaperstudiedtheeffectofunlabeledsamplesonmodelpredictiveability.Atlast,thispapercomparesthepredictiveresultsofInductiveSupportVectorMachineswithTransductiveSupportVectorMachine.Theexperimentalresultsshowthatthesemi-supervisedclassifierhasacertaincompetitivepoweronthegeneralizationability.Atthesametime,theinfluenceofthedifferentproportionofunlabeledsamplemodelingontheclassifierpredictionaccuracyisanalyzedandstudied.Theresultsshowthattheunlabeledsamplesarehelpfultotrainthemoreoptimizedmodel.Intheprocessofmachinelearning,thecorrespondingapplicationpotentialandvalueareshown.

Keywords:

Unlabeledsamples;Semi-supervisedlearning;TSVM

目录

摘要I

AbstractII

1前言1

1.1背景1

1.2主要工作3

2方法与数据4

2.1直推式支持向量机4

2.2分类器性能指标5

2.3数据6

2.3.1乳腺癌简介6

2.3.2数据来源及其特征6

2.4小结8

3直推式学习应用于乳腺癌数据建模9

3.1参数选择与优化9

3.2无标签样本对模型预测能力的影响10

3.3不同比例的无标签样本建模14

3.4小结16

4总结与展望18

参考文献19

致谢20

 

1前言

1.1背景

从进入信息化时代以来,世界各领域凭借数据的大量积累取得了快速发展。

数据是当今世界科技发展的基本元素,它可以为各行业领域提供大量有益于企业决策的重要信息。

然而当人们不能从大量的观测数据中获取某种潜在的规律时,无疑会给人们带来巨大的信息资源浪费。

对于如此庞大的数据量,人们需要一种分析大量观测数据的方法。

由此机器学习技术应运而生。

机器学习提供了获取观测数据内部潜在规律、用经验学习某种任务并且改善任务功能的方法。

半个世纪以来,机器学习技术已经发展到多个领域,如卫星图像、人脸识别[1]、文本分类[2]、数据挖掘[3]、计算机视觉及模式识别等。

在应用机器学习的各领域中,机器学习技术都起着关键性作用。

由于它本身挖掘事物内部规律的优点,现在已经受到越来越多研究者的青睐。

在实际的研究过程中,研究者们研究的数据一般由两部分组成,分别为有标签数据和无标签数据。

根据数据的这一特性,研究者们将机器学习分为有监督学习和无监督学习两种不同的方法。

如果研究对象中的样本数据是已知的或者说是它有固定的分布函数,即样本数据都是有标签的,则对于这类样本的学习称为有监督学习。

相反,如果研究对象中的样本数据是未知的或者说是数据的分布函数未知,即样本数据都是没有标签的,则称为无监督学习。

在现实生活中,人们获取有标签的样本数据所费时间和代价比较大,所以收集的数据中只有一少部分是有标签的,而大部分的数据没有标签。

依据有标签样本数据稀少这一特点,传统的有监督学习在训练过程中存在一定的缺陷。

而对于无监督学习,它只利用了无标签数据进行训练学习,使得训练所得模型缺乏先验知识的支撑,造成自身局限性。

所以研究者们又纷纷提出了吸取有监督学习和无监督学习优点的半监督学习方法。

半监督学习是在有标签样本数据稀少的情况下,为了增强分类器推广能力而加入大量无标签样本数据的学习方法。

它在一定程度上克服了有监督学习和无监督学习的缺点,运用了无标签数据辅助有标签数据的训练,增强目标函数的准确性;运用了有标签样本数据蕴含的先验知识指导无监督学习,以此达到较强的学习性能。

现实中,收集的样本数据并非都是完整的,例如属性缺失。

半监督学习能从这类样本数据中训练出良好的模型,使得该模型具备较强的学习能力和泛化能力。

当代,半监督学习已成为机器学习领域中重要的研究方向。

面对计算机技术的不断发展和进步,半监督学习更加成为各个领域共同的需求。

根据目前文献记载,半监督学习技术主要有半监督分类研究、半监督聚类算法、半监督回归分析和半监督降维[4,5]。

对于分类研究和聚类算法是近年来研究最为普遍的,它广泛应用于文本分类、图像分割与增强、目标识别和信息检索等研究领域[5]。

由于半监督降维技术其研究数据的空间复杂性和处理过程的灵活性,目前对于它的研究是相对较少的。

但是,在机器学习领域将高维问题转化为低维问题处理的思想却是非常重要的。

半监督学习的深入研究,对于现代机器学习研究具有重要的指导意义,对于推进相关理论的形成也具有十分重要的启发作用。

半监督学习的思想是在上世纪60年代逐渐形成的,目前已有的方法是自训练算法、高斯混合期望最大算法、协同训练算法[6]、直推式支持向量机算法[7]和基于流形或图谱的一些半监督方法[8]等等。

这些各有其优缺点。

如自训练法可以重新训练已有比较复杂而难以修正的有监督分类器,但当分类出错时,将会加强错误的学习,导致分类器推广能力减弱。

高斯混合期望最大算法是通过假设概率模型,同样其错误的概率模型也会导致其推广能力变小。

相比自训练算法和高斯混合期望最大算法来说,协同训练法、直推式支持向量机算法和基于流形或图谱的一些半监督方法在训练分类器时,其推广能力能高一点,但是其缺点却是不可忽视的。

针对这些缺点,目前国内文献有如下改进:

兰霞[6]在2011年针对协同训练算法中分类器的差异性小提出基于集成学习的原理,使得分类效果提升。

并且针对没有有效的无标记数据挑选方法提出基于图的显式置信度估计半监督协同训练算法。

袁凯[9]在2013年为了提高标准协同训练的普遍性,将支撑矢量机与协同训练算法结合起来,使得算法的广泛性增强。

陈善学,尹修玄[10]等人在2015年提出基于码字匹配的协同训练分类算法,提高该训练模型的整体泛化能力。

薛贞霞[11]等人在2009年提出改进的渐进直推式向量机,它克服了原有算法性能不稳定、回溯步骤多和训练速度慢等缺点。

廖东平和姜斌[12]等人在2007年针对渐进直推式向量机每次标注的无标签样本数少,提出一种快速标记的渐进直推式向量机。

赵英刚[13]等人在2006年针对训练样本中有无标签的比例提出改进的直推式支持向量机算法,解决了训练时标识非标签样本中正样本的个数。

总之,目前的半监督学习是一个热门的研究课题,备受众多研究者们青睐。

国内越来越多研究院或者研究所都在细化半监督学习的方向,各个学术文献库关于这方面的文章也在快速增多。

半监督学习在其它领域的应用,更是起着非常重要的作用,促进着各个领域向着全面智能化和自动化的方向发展。

1.2主要工作

本文主要应用直推式学习对乳腺癌数据建模,分析训练集中最合适的无标签样本数据的比例。

现将本文主要工作叙述如下:

首先,在UCI数据集中获取本文所需的乳腺癌数据,描述乳腺癌数据的特征,并且利用C语言或者其它方法将初始的数据格式转化为与Libsvm和SVMlight软件数据输入格式一致的格式。

其次,划分乳腺癌数据,利用留一法在Libsvm中建立模型,选择并且优化以下实验所需参数。

最后,根据需要,在训练集中置不同比例的有标签数据为零(无标签数据)训练不同分类器,用留一法验证其分类器的学习性能,在预测集上得到预测精度,用以分析所建模型的推广能力。

 

2方法与数据

模型是实现机器学习必备的要素,既是训练模式的终点,也是预测模式的起点。

直推式学习是半监督学习方法中比较典型的一种,本章将具体介绍直推式学习建立模型的过程。

同时,介绍乳腺癌数据及其来源,并且描述其数据特征。

2.1直推式支持向量机

直推式支持向量机是一种半监督学习方法,是T.Joachims在1999年发表的论文中提到的[13]。

和其他半监督学习方法相同,TSVM也是利用有标签样本和无标签样本进行学习的,它首先利用有标签样本建立分类模型,预测全部没有标签的样本数据,使其得到标签,然后通过适当的方法加入到总体样本中,最终得到分类器。

通过半监督学习方法得到的分类器,不仅避免了由于有标签样本数少而使得分类精度不足的问题,而且使得无标签样本得到了好的分类。

直推式支持向量机是利用扩展的标准SVM,使得无标签样本在学习过程中起到提升分类器分类精度的作用。

下面将通过统计学理论知识及数学知识,介绍直推式向量机算法的原理。

给定样本空间,设独立同分布有标签样本为

来自同一样本空间的无标签样本设为

在寻找最优分类超平面须满足错分率小且分类间隔大的条件,即

其中

为有标签样本的松弛因子,C为其可调节参数;

为无标签样本的松弛因子,C*为其可调节参数。

直推式向量机算法属于半监督学习方法,在求解最优超平面时,需要一系列的迭代过程,现将TSVM求解步骤叙述如下:

(1)设置适当的C和C*参数,利用训练集中有标签样本进行归纳式标准SVM学习,得到初始分类器。

通过适当的方式获得训练集中无标签样本数据的个数Nn;

(2)用

(1)中得到的分类器预测训练集中所有无标签样本,将所有预测输出的样本数据按降序排列,选取前Nn个作为正样本,剩余的作为负样本。

同时设置一个临时的影响因子Ctemp;

(3)重新训练集合中所有的样本得到新分类器,在新分类器中,按照特定的规则不断交换训练集中的两个不同标签的样本,使2-1式中的目标函数值有大的降低,直到交换的条件不满足为止。

(4)有规则的增大Ctemp值,然后返回到步骤(3),直至Ctemp

C*,整个算法结束。

在这个迭代过程中,每一次交换后的解都比前一次的更准确,而且有规则增加Ctemp,使得无标签样本的惩罚不断增加,这样就保证了在无标签样本分类过程中误差尽可能的小,最终分类器的推广性能也将最优。

由拉格朗日乘子法,列出拉格朗日方程,对w和b求取偏导数,转化为对偶问题后,可求得其决策函数为:

当样本数据为线性不可分时,引入核函数后,决策函数为:

对于上述TSVM算法,无标签样本可以作为训练集,配合有标签样本训练,而且有效地解决了有标签样本不足而导致的分类精度不足问题。

由于非标签样本有更好的决策性能,使得最终分类器的推广性能更加稳定。

本文中,采用的直推式支持向量机算法是由ThorstenJoachims开发,名为SVMlight[14]的软件,来源网站为(http:

//svmlight.joachims.org/)。

2.2分类器性能指标

分类器性能评价对于机器学习来说是至关重要的,它是衡量机器学习形成模型的好与坏的指标。

对于不同参数的模型,我们需要知道哪组参数会使分类器推广性能最高。

而对于不同的支持向量机算法,无论是监督方法、无监督方法还是半监督方法,分类器性能指标是决定我们应该采用哪种方法训练数据,才能使得推广性能最好参考量。

本文主要引入三种常用的性能指标,分别是准确率(Accuracy,A)、精确度(Precision,P)和召回率(Recall,R),计算方法如下:

其中TP是预测正确的正标签样本,TN是预测正确的负标签样本,FP是预测错误的负标签样本,FN是预测错误的正标签样本。

2.3数据

2.3.1乳腺癌简介

乳腺癌(breastcancer)是当今社会所关注的问题,它是发生在人体乳腺中的腺上皮组织的恶性肿瘤。

乳腺是由皮肤、脂肪、纤维组织和乳腺腺体组成的,它不属于人体生命活动的重要器官,所以位于原位的乳腺癌不会使人致命[15]。

当乳腺癌细胞失去了它原有的细胞特性,那么就会使得细胞之间的松散程度改变。

一旦脱落的细胞随血液或者是淋巴液散播到全身,将会影响人体内功能活动,甚至是危及到生命。

据统计,在乳腺癌患者中,有99%发生在女性,男性占剩余的比例[16]。

在美国,8名女性中,一生中会有1名女性患有乳腺癌;而在中国,虽然没有那么多,但是乳腺癌发病率却不宜乐观。

在我国,乳腺癌的诊断除了利用人体外部特征判别外,内科中检验细胞特性的方法也是一种重要的判别方法。

乳腺癌细胞有良性和恶性之分,对于乳腺癌患者来说,检验出其乳腺内的细胞的性质(良性或者恶性)才能够制定合适的治疗方案对患者进行治疗。

这样就对医院的医疗技术和医生经验提出了一种挑战。

随着计算机技术的快速发展,它在医学上的应用也逐渐成熟,给医生诊断疾病带来了巨大帮助。

但是目前的情况是有标签样本数据稀少,存在大量非标签样本数据,用人力与物力标签数据,成本很大,不适合大量标签。

半监督学习的特点是运用小量有标签样本和大量无标签数据进行训练学习,所以半监督学习方法应用于癌症检测,具有良好的效果。

2.3.2数据来源及其特征

在本文中,所用数据来源于机器学习标准数据库(UCIRepositoryofMachineLearningDatabases),名称为WisconsinBreastCancerDatabase(威斯康星乳腺癌数据库)。

这些乳腺癌数据是由WilliamH.Wolberg博士在美国麦迪逊的威斯康星大学医学院收集得到。

这些数据从1989开始收集,直到1992年才形成此标准数据集。

威斯康星乳腺癌数据库(网址为http:

//archive.ics.uci.edu/ml/datasets/)共含有569条数据,部分初始数据如图2-1所示,其中有357条来源于良性乳腺细胞的测试数据,占总体的62.74%;有212条来源于恶性乳腺细胞的测试数据,占总体的37.26%。

每条数据由32个属性组成,其中第一列为细胞id,第二列为细胞的性质,M为恶性,B为良性,最后30列为细胞特征。

在本文中,我们将良性乳腺细胞定义为正样本(Positivesamples),恶性乳腺细胞定义为负样本(Negativesamples)。

为了进一步了解数据信息,现将30列细胞特征数据简单统计,如表2-1为30列细胞特征统计信息。

图2-1乳腺癌初始数据

表2-1BreastCancerWisconsin数据统计信息(总569条)

Datafeature

Average

Stdev

Datafeature

Average

Stdev

Feature_1

14.13

3.52

Feature_9

0.18

0.03

Feature_2

19.29

4.30

Feature_10

0.06

0.01

Feature_3

91.97

24.30

Feature_11

0.41

0.28

Feature_4

654.89

351.91

Feature_12

1.22

0.55

Feature_5

0.10

0.01

Feature_13

2.87

2.02

Feature_6

0.10

0.05

Feature_14

40.34

45.49

Feature_7

0.09

0.08

Feature_15

0.01

0.00

Feature_8

0.05

0.04

Feature_16

0.03

0.02

表2-1BreastCancerWisconsin数据统计信息(续)(总569条)

Datafeature

Average

Stdev

Datafeature

Average

Stdev

Feature_17

0.03

0.03

Feature_24

880.58

569.36

Feature_18

0.01

0.01

Feature_25

0.13

0.02

Feature_19

0.02

0.01

Feature_26

0.25

0.16

Feature_20

0.00

0.00

Feature_27

0.27

0.21

Feature_21

16.27

4.83

Feature_28

0.11

0.07

Feature_22

25.68

6.15

Feature_29

0.29

0.06

Feature_23

107.26

33.60

Feature_30

0.08

0.02

2.4小结

本章主要对乳腺癌数据模型的数据、方法与衡量标准作介绍。

首先介绍直推式方法的原理及其决策函数,直推式学习与传统的监督学习方式不同,传统的监督学习是通过训练集建立模型,然后预测测试集,而直推式学习是从预测集开始,利用预测集的信息,是一种从特殊到特殊的方法。

其次介绍分类器的性能指标,分别为准确率、精确度和召回率。

准确率是分类器分类正确的样本数占总样本的百分比,具有直接衡量分类器分类能力的指标;精确度是被分类器分为正样本是其正确样本的比例,衡量了分类器判正的准确率;召回率是被分类器判为正的样本比例占其总的预测正样本的比例,它反映了分类器对正样本分类的正确率。

最后对模型所需的原材料乳腺癌数据进行简单描述与处理。

 

3直推式学习应用于乳腺癌数据建模

实验的目的是分析不同比例的无标签样本数据对分类器推广能力的影响作用。

首先,利用libsvm软件建模,并且选择最优参数。

其次,在SVMlight软件中利用最优参数验证无标签样本的决策性能。

最后,通过不同比例无标签样本数据建立乳腺癌数据模型。

Libsvm软件包和SVMlight软件输入数据的格式是一样的,如以下标准数据格式,其中每行对应一条数据,每行第一列表示标签,后面各列表示属性,每一属性前面须有索引号。

所以在进行实验前,我们应该转换其数据格式,如将乳腺癌原始数据转换为Libsvm软件包和SVMlight软件需要的输入格式。

标准数据格式:

Classindex1:

value1index2:

value2……

比如乳腺癌数据:

842302,M,17.99,10.38,122.8,1001,0.1184,0.2776,0.3001,0.1471,0.2419,……

转换为:

-11:

17.992:

10.383:

122.84:

10015:

0.11846:

0.27767:

0.3001……

3.1参数选择与优化

在分类器训练时,对于不同的算法、不同的数据,其参数会有所不同的。

选择与优化参数是提高分类器分类性能的必要工作。

SVMlight算法中有三种可用的模式分别为归纳式(Inductive)、直推式(Transductive)和等级式(Ranking)。

归纳式属于监督学习方法,直推式属于半监督学习方法,而等级式则属于比较特殊的监督学习方法,本实验主要用到归纳式和直推式。

在直推式与归纳式参数类别中,除了直推式特有的参数p,其余参数都是相同的。

下面我们详细给出相关参数的选择方法:

参数p:

p为控制训练集中非标签样本转化为正样本的比例(只限于直推式模式);

参数c:

c为惩罚因子。

如果c设置偏小会导致机器学习精度不高,如果偏高又会导致过拟合现象出现,所以模型建立时,对c的控制是至关重要的;

参数t:

t为建模用到的核函数类型。

算法提供的类型有linear核函数、rbf核函数、polynomial核函数和sigmoid核函数。

实验证明,径向基核函数rbf用于模型建立具有更好的分类效果,因此该实验选择径向基核函数rbf;

参数

为rbf核函数的参数,其值对分类器的推广能力具有显著的调节作用,所以优化

值也是必然的。

所以本实验选择Libsvm软件包对参数c和

进行选择优化。

Libsvm软件包是监督学习方法,利用Grid方法训练数据,默认使用径向基核函数,并且对惩罚因子c和参数

具有优化作用,现将其优化参数c和

的伪代码书写如下:

begin

c[N]={2^-5,2^-4,…,2^15}

[M]={2^-15,2^-14,…,2^13}

acc=0

optimal_c=c[0]

optimal_

=

[0]

for(i=0;i

for(j=0;j

{

accuracy=Libsvm(_train,_predict,c[i],

[j

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1