直推式学习应用于乳腺癌数据建模.docx-资源下载

直推式学习应用于乳腺癌数据建模.docx

1、直推式学习应用于乳腺癌数据建模分类号 TP181 单位代码密级学号信息工程学院学生毕业论文题目直推式学习应用于乳腺癌数据建模学生姓名学号专业指导教师毕业论文诚信责任书本人郑重声明：所呈交的毕业论文，是本人在导师的指导下独立进行研究所取得的成果。毕业论文中凡引用他人已经发表或未发表的成果、数据、观点等，均已明确注明出处。尽我所知，除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人毕业论文与资料若有不实，愿意承担一切相关的法律责任。论文作者签名: 年月日摘要海量的数

2、据中存在着大量易获得的无标签数据，无标签数据有助于训练具有更优推广能力的模型，有大量研究表明，无标签样本在机器学习领域中具有巨大的潜力和价值。首先从UCI数据库获得乳腺癌数据，对数据进行了标准化处理与分析。其次，将直推式向量机（Transductive Support Vector Machines, TSVM）算法应用于乳腺癌数据的建模，研究了无标签样本的选择对模型预测能力的影响。最后，本文方法与归纳式支持向量机（Inductive Support Vector Machines, ISVM）在此数据上的预测结果进行比较，实验结果表明直推式学习训练得到的半监督分类器在推广能力上具有一定的竞争

3、力。同时分析研究了不同比例的无标签样本建模对分类器预报精度的影响。结果表明无标签样本有助于训练更优化的模型，在机器学习过程中表现出相应的应用潜力和价值。关键字：非标签样本；半监督学习；直推式支持向量机；AbstractMuch easily obtained unlabeled data exists in the vast amounts of data. The unlabeled data can help to train the model with better generalization ability. There are a lot of research shown th

4、at unlabeled samples have great potential and value in the field of machine learning. First of all, breast cancer data are obtained from the UCI database which has been analysed with standardization. Secondly, The Transductive Support Vector Machines algorithm is applied to the modeling of breast ca

5、ncer data, through which the paper studied the effect of unlabeled samples on model predictive ability. At last, this paper compares the predictive results of Inductive Support Vector Machines with Transductive Support Vector Machine. The experimental results show that the semi-supervised classifier

6、 has a certain competitive power on the generalization ability. At the same time, the influence of the different proportion of unlabeled sample modeling on the classifier prediction accuracy is analyzed and studied. The results show that the unlabeled samples are helpful to train the more optimized

7、model. In the process of machine learning, the corresponding application potential and value are shown.Key words: Unlabeled samples; Semi-supervised learning; TSVM目录摘要 IAbstract II1 前言 11.1背景 11.2主要工作 32 方法与数据 42.1直推式支持向量机 42.2分类器性能指标 52.3数据 62.3.1乳腺癌简介 62.3.2数据来源及其特征 62.4小结 83 直推式学习应用于乳腺癌数据建模 93.1参

8、数选择与优化 93.2无标签样本对模型预测能力的影响 103.3不同比例的无标签样本建模 143.4小结 164 总结与展望 18参考文献 19致谢 201 前言1.1背景从进入信息化时代以来，世界各领域凭借数据的大量积累取得了快速发展。数据是当今世界科技发展的基本元素，它可以为各行业领域提供大量有益于企业决策的重要信息。然而当人们不能从大量的观测数据中获取某种潜在的规律时，无疑会给人们带来巨大的信息资源浪费。对于如此庞大的数据量，人们需要一种分析大量观测数据的方法。由此机器学习技术应运而生。机器学习提供了获取观测数据内部潜在规律、用经验学习某种任务并且改善任务功能的方法。半个世纪以来，机器学

9、习技术已经发展到多个领域，如卫星图像、人脸识别1、文本分类2、数据挖掘3、计算机视觉及模式识别等。在应用机器学习的各领域中，机器学习技术都起着关键性作用。由于它本身挖掘事物内部规律的优点，现在已经受到越来越多研究者的青睐。在实际的研究过程中，研究者们研究的数据一般由两部分组成，分别为有标签数据和无标签数据。根据数据的这一特性，研究者们将机器学习分为有监督学习和无监督学习两种不同的方法。如果研究对象中的样本数据是已知的或者说是它有固定的分布函数，即样本数据都是有标签的，则对于这类样本的学习称为有监督学习。相反，如果研究对象中的样本数据是未知的或者说是数据的分布函数未知，即样本数据都是没有标签的，

10、则称为无监督学习。在现实生活中，人们获取有标签的样本数据所费时间和代价比较大，所以收集的数据中只有一少部分是有标签的，而大部分的数据没有标签。依据有标签样本数据稀少这一特点，传统的有监督学习在训练过程中存在一定的缺陷。而对于无监督学习，它只利用了无标签数据进行训练学习，使得训练所得模型缺乏先验知识的支撑，造成自身局限性。所以研究者们又纷纷提出了吸取有监督学习和无监督学习优点的半监督学习方法。半监督学习是在有标签样本数据稀少的情况下，为了增强分类器推广能力而加入大量无标签样本数据的学习方法。它在一定程度上克服了有监督学习和无监督学习的缺点，运用了无标签数据辅助有标签数据的训练，增强目标函数的准确

11、性；运用了有标签样本数据蕴含的先验知识指导无监督学习，以此达到较强的学习性能。现实中，收集的样本数据并非都是完整的，例如属性缺失。半监督学习能从这类样本数据中训练出良好的模型，使得该模型具备较强的学习能力和泛化能力。当代，半监督学习已成为机器学习领域中重要的研究方向。面对计算机技术的不断发展和进步，半监督学习更加成为各个领域共同的需求。根据目前文献记载，半监督学习技术主要有半监督分类研究、半监督聚类算法、半监督回归分析和半监督降维4,5。对于分类研究和聚类算法是近年来研究最为普遍的，它广泛应用于文本分类、图像分割与增强、目标识别和信息检索等研究领域5。由于半监督降维技术其研究数据的空间复杂性和

12、处理过程的灵活性，目前对于它的研究是相对较少的。但是，在机器学习领域将高维问题转化为低维问题处理的思想却是非常重要的。半监督学习的深入研究，对于现代机器学习研究具有重要的指导意义，对于推进相关理论的形成也具有十分重要的启发作用。半监督学习的思想是在上世纪60年代逐渐形成的，目前已有的方法是自训练算法、高斯混合期望最大算法、协同训练算法6、直推式支持向量机算法7和基于流形或图谱的一些半监督方法8等等。这些各有其优缺点。如自训练法可以重新训练已有比较复杂而难以修正的有监督分类器，但当分类出错时，将会加强错误的学习，导致分类器推广能力减弱。高斯混合期望最大算法是通过假设概率模型，同样其错误的概率模型

13、也会导致其推广能力变小。相比自训练算法和高斯混合期望最大算法来说，协同训练法、直推式支持向量机算法和基于流形或图谱的一些半监督方法在训练分类器时，其推广能力能高一点，但是其缺点却是不可忽视的。针对这些缺点，目前国内文献有如下改进：兰霞6在2011年针对协同训练算法中分类器的差异性小提出基于集成学习的原理，使得分类效果提升。并且针对没有有效的无标记数据挑选方法提出基于图的显式置信度估计半监督协同训练算法。袁凯9在2013年为了提高标准协同训练的普遍性，将支撑矢量机与协同训练算法结合起来，使得算法的广泛性增强。陈善学，尹修玄10等人在2015年提出基于码字匹配的协同训练分类算法，提高该训练模型的整

14、体泛化能力。薛贞霞11等人在2009年提出改进的渐进直推式向量机，它克服了原有算法性能不稳定、回溯步骤多和训练速度慢等缺点。廖东平和姜斌12等人在2007年针对渐进直推式向量机每次标注的无标签样本数少，提出一种快速标记的渐进直推式向量机。赵英刚13等人在2006年针对训练样本中有无标签的比例提出改进的直推式支持向量机算法，解决了训练时标识非标签样本中正样本的个数。总之，目前的半监督学习是一个热门的研究课题，备受众多研究者们青睐。国内越来越多研究院或者研究所都在细化半监督学习的方向，各个学术文献库关于这方面的文章也在快速增多。半监督学习在其它领域的应用，更是起着非常重要的作用，促进着各个领域向着

15、全面智能化和自动化的方向发展。1.2主要工作本文主要应用直推式学习对乳腺癌数据建模，分析训练集中最合适的无标签样本数据的比例。现将本文主要工作叙述如下：首先，在UCI数据集中获取本文所需的乳腺癌数据，描述乳腺癌数据的特征，并且利用C语言或者其它方法将初始的数据格式转化为与Libsvm和SVMlight软件数据输入格式一致的格式。其次，划分乳腺癌数据，利用留一法在Libsvm中建立模型，选择并且优化以下实验所需参数。最后，根据需要，在训练集中置不同比例的有标签数据为零（无标签数据）训练不同分类器，用留一法验证其分类器的学习性能，在预测集上得到预测精度，用以分析所建模型的推广能力。2 方法与数据模

16、型是实现机器学习必备的要素，既是训练模式的终点，也是预测模式的起点。直推式学习是半监督学习方法中比较典型的一种，本章将具体介绍直推式学习建立模型的过程。同时，介绍乳腺癌数据及其来源，并且描述其数据特征。2.1直推式支持向量机直推式支持向量机是一种半监督学习方法，是T.Joachims在1999年发表的论文中提到的13。和其他半监督学习方法相同，TSVM也是利用有标签样本和无标签样本进行学习的，它首先利用有标签样本建立分类模型，预测全部没有标签的样本数据，使其得到标签，然后通过适当的方法加入到总体样本中，最终得到分类器。通过半监督学习方法得到的分类器，不仅避免了由于有标签样本数少而使得分类精度不

17、足的问题，而且使得无标签样本得到了好的分类。直推式支持向量机是利用扩展的标准SVM，使得无标签样本在学习过程中起到提升分类器分类精度的作用。下面将通过统计学理论知识及数学知识，介绍直推式向量机算法的原理。给定样本空间，设独立同分布有标签样本为来自同一样本空间的无标签样本设为在寻找最优分类超平面须满足错分率小且分类间隔大的条件，即其中为有标签样本的松弛因子，C为其可调节参数；为无标签样本的松弛因子，C*为其可调节参数。直推式向量机算法属于半监督学习方法，在求解最优超平面时，需要一系列的迭代过程，现将TSVM求解步骤叙述如下：（1）设置适当的C和C*参数，利用训练集中有标签样本进行归纳式标准SVM

18、学习，得到初始分类器。通过适当的方式获得训练集中无标签样本数据的个数Nn；（2）用（1）中得到的分类器预测训练集中所有无标签样本，将所有预测输出的样本数据按降序排列，选取前Nn个作为正样本，剩余的作为负样本。同时设置一个临时的影响因子Ctemp；（3）重新训练集合中所有的样本得到新分类器，在新分类器中，按照特定的规则不断交换训练集中的两个不同标签的样本，使2-1式中的目标函数值有大的降低，直到交换的条件不满足为止。（4）有规则的增大Ctemp值，然后返回到步骤（3），直至CtempC*，整个算法结束。在这个迭代过程中，每一次交换后的解都比前一次的更准确，而且有规则增加Ctemp，使得无标签样本

19、的惩罚不断增加，这样就保证了在无标签样本分类过程中误差尽可能的小，最终分类器的推广性能也将最优。由拉格朗日乘子法，列出拉格朗日方程，对w和b求取偏导数，转化为对偶问题后，可求得其决策函数为：当样本数据为线性不可分时，引入核函数后，决策函数为：对于上述TSVM算法，无标签样本可以作为训练集，配合有标签样本训练，而且有效地解决了有标签样本不足而导致的分类精度不足问题。由于非标签样本有更好的决策性能，使得最终分类器的推广性能更加稳定。本文中，采用的直推式支持向量机算法是由Thorsten Joachims开发，名为SVMlight14的软件，来源网站为（http:/svmlight.joachims

20、.org/）。2.2分类器性能指标分类器性能评价对于机器学习来说是至关重要的，它是衡量机器学习形成模型的好与坏的指标。对于不同参数的模型，我们需要知道哪组参数会使分类器推广性能最高。而对于不同的支持向量机算法，无论是监督方法、无监督方法还是半监督方法，分类器性能指标是决定我们应该采用哪种方法训练数据，才能使得推广性能最好参考量。本文主要引入三种常用的性能指标，分别是准确率（Accuracy，A）、精确度（Precision，P)和召回率（Recall，R)，计算方法如下：其中TP是预测正确的正标签样本，TN是预测正确的负标签样本，FP是预测错误的负标签样本，FN是预测错误的正标签样本。2.3数

21、据2.3.1乳腺癌简介乳腺癌（breast cancer）是当今社会所关注的问题，它是发生在人体乳腺中的腺上皮组织的恶性肿瘤。乳腺是由皮肤、脂肪、纤维组织和乳腺腺体组成的，它不属于人体生命活动的重要器官，所以位于原位的乳腺癌不会使人致命15。当乳腺癌细胞失去了它原有的细胞特性，那么就会使得细胞之间的松散程度改变。一旦脱落的细胞随血液或者是淋巴液散播到全身，将会影响人体内功能活动，甚至是危及到生命。据统计，在乳腺癌患者中，有99%发生在女性，男性占剩余的比例16。在美国，8名女性中，一生中会有1名女性患有乳腺癌；而在中国，虽然没有那么多，但是乳腺癌发病率却不宜乐观。在我国，乳腺癌的诊断除了利用人

22、体外部特征判别外，内科中检验细胞特性的方法也是一种重要的判别方法。乳腺癌细胞有良性和恶性之分，对于乳腺癌患者来说，检验出其乳腺内的细胞的性质（良性或者恶性）才能够制定合适的治疗方案对患者进行治疗。这样就对医院的医疗技术和医生经验提出了一种挑战。随着计算机技术的快速发展，它在医学上的应用也逐渐成熟，给医生诊断疾病带来了巨大帮助。但是目前的情况是有标签样本数据稀少，存在大量非标签样本数据，用人力与物力标签数据，成本很大，不适合大量标签。半监督学习的特点是运用小量有标签样本和大量无标签数据进行训练学习，所以半监督学习方法应用于癌症检测，具有良好的效果。2.3.2数据来源及其特征在本文中，所用数据来源

23、于机器学习标准数据库（UCI Repository of Machine Learning Databases），名称为Wisconsin Breast Cancer Database（威斯康星乳腺癌数据库）。这些乳腺癌数据是由William H. Wolberg博士在美国麦迪逊的威斯康星大学医学院收集得到。这些数据从1989开始收集，直到1992年才形成此标准数据集。威斯康星乳腺癌数据库（网址为http:/archive.ics.uci.edu/ml/datasets/）共含有569条数据，部分初始数据如图2-1所示，其中有357条来源于良性乳腺细胞的测试数据，占总体的62.74%；有212

24、条来源于恶性乳腺细胞的测试数据，占总体的37.26%。每条数据由32个属性组成，其中第一列为细胞id，第二列为细胞的性质，M为恶性，B为良性，最后30列为细胞特征。在本文中，我们将良性乳腺细胞定义为正样本（Positive samples），恶性乳腺细胞定义为负样本(Negative samples)。为了进一步了解数据信息，现将30列细胞特征数据简单统计，如表2-1为30列细胞特征统计信息。图2-1 乳腺癌初始数据表2-1 Breast Cancer Wisconsin数据统计信息（总569条）Data featureAverageStdevData featureAverageStdevF

25、eature_114.133.52Feature_90.180.03Feature_219.294.30Feature_100.060.01Feature_391.9724.30Feature_110.410.28Feature_4654.89351.91Feature_121.220.55Feature_50.100.01Feature_132.872.02Feature_60.100.05Feature_1440.3445.49Feature_70.090.08Feature_150.010.00Feature_80.050.04Feature_160.030.02表2-1 Breast

26、Cancer Wisconsin数据统计信息（续）（总569条）Data featureAverageStdevData featureAverageStdevFeature_170.030.03Feature_24880.58569.36Feature_180.010.01Feature_250.130.02Feature_190.020.01Feature_260.250.16Feature_200.000.00Feature_270.270.21Feature_2116.274.83Feature_280.110.07Feature_2225.686.15Feature_290.290.

27、06Feature_23107.2633.60Feature_300.080.022.4小结本章主要对乳腺癌数据模型的数据、方法与衡量标准作介绍。首先介绍直推式方法的原理及其决策函数，直推式学习与传统的监督学习方式不同，传统的监督学习是通过训练集建立模型，然后预测测试集，而直推式学习是从预测集开始，利用预测集的信息，是一种从特殊到特殊的方法。其次介绍分类器的性能指标，分别为准确率、精确度和召回率。准确率是分类器分类正确的样本数占总样本的百分比，具有直接衡量分类器分类能力的指标；精确度是被分类器分为正样本是其正确样本的比例，衡量了分类器判正的准确率；召回率是被分类器判为正的样本比例占其总的预测正

28、样本的比例，它反映了分类器对正样本分类的正确率。最后对模型所需的原材料乳腺癌数据进行简单描述与处理。3 直推式学习应用于乳腺癌数据建模实验的目的是分析不同比例的无标签样本数据对分类器推广能力的影响作用。首先，利用libsvm软件建模，并且选择最优参数。其次，在SVMlight软件中利用最优参数验证无标签样本的决策性能。最后，通过不同比例无标签样本数据建立乳腺癌数据模型。Libsvm软件包和SVMlight软件输入数据的格式是一样的，如以下标准数据格式，其中每行对应一条数据，每行第一列表示标签，后面各列表示属性，每一属性前面须有索引号。所以在进行实验前，我们应该转换其数据格式，如将乳腺癌原始数据

29、转换为Libsvm软件包和SVMlight软件需要的输入格式。标准数据格式：Class index1:value1 index2:value2 比如乳腺癌数据：842302,M,17.99,10.38,122.8,1001,0.1184,0.2776,0.3001,0.1471,0.2419,转换为：-1 1:17.99 2:10.38 3:122.8 4:1001 5:0.1184 6:0.2776 7:0.30013.1参数选择与优化在分类器训练时，对于不同的算法、不同的数据，其参数会有所不同的。选择与优化参数是提高分类器分类性能的必要工作。SVMlight算法中有三种可用的模式分别为归纳

30、式（Inductive）、直推式（Transductive）和等级式（Ranking）。归纳式属于监督学习方法，直推式属于半监督学习方法，而等级式则属于比较特殊的监督学习方法，本实验主要用到归纳式和直推式。在直推式与归纳式参数类别中，除了直推式特有的参数p，其余参数都是相同的。下面我们详细给出相关参数的选择方法：参数p：p为控制训练集中非标签样本转化为正样本的比例（只限于直推式模式）；参数c：c为惩罚因子。如果c设置偏小会导致机器学习精度不高，如果偏高又会导致过拟合现象出现，所以模型建立时，对c的控制是至关重要的；参数t：t为建模用到的核函数类型。算法提供的类型有linear核函数、rbf核函

31、数、polynomial核函数和sigmoid核函数。实验证明，径向基核函数rbf用于模型建立具有更好的分类效果，因此该实验选择径向基核函数rbf；参数：为rbf核函数的参数，其值对分类器的推广能力具有显著的调节作用，所以优化值也是必然的。所以本实验选择Libsvm软件包对参数c和进行选择优化。Libsvm软件包是监督学习方法，利用Grid方法训练数据，默认使用径向基核函数，并且对惩罚因子c和参数具有优化作用，现将其优化参数c和的伪代码书写如下：begincN=2-5,2-4,215 M=2-15,2-14,213acc=0optimal_c=c0optimal_ = 0for(i=0;iN;i+)for(j=0;jM;j+) accuracy=Libsvm(_train,_predict,ci, j

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？