机器学习.docx - 冰豆网

资源描述

机器学习.docx

《机器学习.docx》由会员分享，可在线阅读，更多相关《机器学习.docx（28页珍藏版）》请在冰豆网上搜索。

机器学习.docx

机器学习

课程现代机器学习

题目医学图像真皮区域分割算法

学号1401120522

专业电子与通信工程

姓名董文欣

医学图像真皮区域分割算法研究

摘要

图像分割是一种重要的和关键的图像分析技术，也是当今医学领域备受研究人员关注的热点问题。

其目的是把图像分成各具特性的区域并提取出感兴趣的部分，图像分割的结果是图像特征提取和识别等图像理解的基础。

本文在前人研究成果的基础上，简述医学病理切片图像中真皮区域分割的实现流程，研究并实现基于K-means算法和livewire算法的医学病理切片图像中真皮区域分割算法，引用了重合比率参数比较分析两种分类算法的优缺点。

关键词：

医学图像区域分割，K-均值聚类，重合率

1.绪论1

1.1引言1

1.2课题研究的背景及意义1

1.3医学图像分割的研究现状2

1.4论文的主要工作及结构安排3

2.颜色模型基本概念4

2.1引言4

2.2颜色模型定义4

2.3颜色模型分类4

2.4颜色模型的选择和转换6

2.5本章小结7

3.医学图像分割概述8

3.1引言8

3.1.1医学图像分割特点8

3.1.2医学图像分割定义9

3.2医学图像分割典型算法10

3.3本章小结13

4.医学病理切片中真皮组织区域分割算法14

4.1引言14

4.2基于K-means医学图像分割算法14

4.3算法评估与分析18

4.4本章小结21

5.总结与展望22

5.1总结22

5.2展望22

参考文献24

1.绪论

1.1引言

图像处理的目的应是符合对图像的正确理解，即对图像中特定物体的正确认识，以指导下一步的研究工作。

如图1-1所示，依据研究方法的不同，图像技术具体可以分为三个层次[1]：

处理、分析和理解。

在整个过程中，图像分割（ImageSegmentation）是最关键的一步。

图1-1图像技术的层次结构

图像分割是一种关键的图像技术，它不仅得到人们的广泛重视，也在实际中得到大量的应用。

图像分割能够自动或半自动描绘出医学图像中的解剖结构和其它感兴趣的区域,从而有助于医学诊断。

图像分割在不同领域中有时也用其它名称，如阈值化技术、目标轮廓技术、图像区分或求差技术、目标跟踪技术、目标识别技术、目标检测技术等，这些技术本身或核心实际上也是图像分割技术。

1.2课题研究的背景及意义

医学图像分割技术是医学图像处理与分析领域的重要课题之一，也是近些年来备受研究人员高度关注的热点问题。

医学图像分割是病变组织或者正常组织的三维可视化、图形引导手术、手术模拟等后续处理工作的基础，分割的准确性对诊断患者疾病的实际情况并给出相应的治疗方案是至关重要的。

所以图像分割在医学领域中具有特殊的重要意义，特别是对人类生命健康息息相关皮肤病变图像中真皮区域图像分割研究成为医学图像可视化研究中的一个非常重要的部分，是科学计算可视化中研究的热点难题。

医学图像分割[2]的目的是把图像分成各具特性的区域并提取出感兴趣的部分，并使分割结果尽可能的接近解剖结构，从而为临床诊疗和病理学研究提供可靠依据。

由于人体皮肤解剖结构的组织器官形状的不规则性及个体之间的差异性，一般将单一的图像分割方法应用于医学图像并不能得到理想分割效果，为此必须针对某一部分寻找一种特定有效的医学图像分割方法。

1.3医学图像分割的研究现状

医学图像分割技术一直是医学图像领域研究的一个热点课题。

如图1-2所示其发展过程经历了一个从人工分割到半自动分割到现在的自动分割。

完全的人工分割方法是由医务工作者或者专家根据经验在原始图像上直接标出期望的边界[2]，这个方法的特点是工作量非常大，而且容易让入厌烦，容易出错。

它的精确度也不容易保证。

半自动分割法是凭借医生的工作经验以及对图像知识的理解，通过一定的人机交互，由计算机完成分割，具有较快的分割速度和比较高的分割精度，与完全人工分割相比，半自动分割方法大大减少了人为因素的影响，而且分割速度快、分割精度高，但是操作者的知识和经验仍然是影响图像分割质量的一个重要因素。

而且人机交互的半自动方法费时费力、可重复性低，这就要求有一种可重复性好、高效率、高精度的自动的图像分割方法。

有鉴于此，一种可重复性好、效率高、精度高的自动图像分割方法已成为当前应用中的亟需。

图1-2图像分割技术发展过程

自从上世纪六七十年代以来，人们研制开发出了众多的医学图像分割法，这些方法主要可分为基于边界的分割法和基于区域的分割法两大类别。

基于边界的分割方法主要是利用梯度信息确定目标的边界，包括局部微分算子，如Rboert算子，Sobel算子，Laplacian二阶差分算子等。

这些方法不依赖于已处理像素的结果，适合于并行化，但缺点是对噪声敏感，而且当边缘像素值变化不明显时，容易产生假边界或不连续的边界。

基于区域的分割法依赖于图像空间的特征，如灰度、纹理及其它类型统计特征等，典型的基于区域的分割法有阈值分割、区域生长与分裂、分类器和聚类等。

1.4本文的主要工作及结构安排

本文的主要研究内容如下：

首先介绍图像分割的背景及发展现状，颜色模型。

分析了图像分割典型分割算法和评估方法，为后续的算法研究提供理论基础。

其次概述了基于K-means的医学图像分割算法，分析了算法原理及实现流程。

再次，K-means分割算法进行Matlab仿真实验，和半自动分割算法livewire比较并对结果进行分析。

2.颜色模型基本概念

2.1引言

自然界中的光根据颜色可分为彩色光和非变化光，按频率成分可分为单色光和复合光，按频率和颜色综合考虑可分为谱色光（SpectrumColor）和非谱色光，按发光方式可分为直射光，反射光和透射光。

无论是什么光，它的颜色都是取决于主观与客观两方面的因素。

主观因素是因为人的眼睛有视觉特性，不同的人对于同一功率谱的光的色感可能是不相同的，光给人的颜色感觉与人眼的视觉特性有关，客观因素是它的功率波谱分布，即光源的颜色，直接取决于它的功率谱，因此物体的颜色不仅取决于它的反射特性和透射特性，而且还与照射光源的功率谱有密切关系。

2.2颜色模型定义

颜色模型[3]就是指某个三维颜色空间中的一个可见光子集，它包含某个颜色域的所有颜色。

例如，RGB颜色模型就是三维直角坐标颜色系统的一个单位正方体。

颜色模型的用途是在某个颜色域内方便的指定颜色，由于每一个颜色域都是可见光的子集，所以任何一个颜色模型都无法包含所有的可见光。

在大多数的彩色图形显示设备一般都是使用红、绿、蓝三原色，我们的真实感图形学中的主要的颜色模型也是RGB模型，但是红、绿、蓝颜色模型用起来不太方便，它与直观的颜色概念如色调、饱和度和亮度等没有直接的联系。

2.3颜色模型分类

颜色模型主要有RGB、CMYK、LAB等。

它们在不同的行业各有所指，但在计算机技术方面运用最为广泛。

2.3.1RGB颜色模型

RGB（Red，Green，Blue）颜色模型通常使用于彩色阴极射线等彩色光栅图形显示设备中，彩色光栅图形的显示器都使用R、G、B数值来驱动R、G、B电子枪发射电子，并分别激发荧光屏上的R、G、B三种颜色的荧光粉，发出不同亮度的光线，并通过相加混合产生各种颜色；扫描仪也是通过吸收原稿经反射或透射而发送来的光线中的R、G、B成分，并用它来表示原稿的颜色。

RGB颜色模型称为与设备相关的颜色模型，RGB颜色模型所覆盖的颜色域取决于显示设备荧光点的颜色特性，是与硬件相关的。

它是我们使用最频繁，最熟悉的颜色模型。

它采用三维直角坐标系。

红、绿、蓝原色是加性原色，各个原色混合在一起可以产生复合色。

可以用单位立方体来表示。

在正方体的主对角线上，各原色的强度相等，产生由暗到明的白色，也就是不同的灰度值。

（0，0，0）为黑色，（1，1，1）为白色。

正方体的其他六个角点分别为红、黄、绿、青、蓝和品红。

2.3.2CMYK颜色模型

CMYK（Cyan，Magenta，Yellow）颜色模型应用于印刷工业，印刷业通过青（C）、品（M）、黄（Y）三原色油墨的不同网点面积率的叠印来表现丰富多彩的颜色和阶调，这便是三原色的CMY颜色模型。

实际印刷中，一般采用青（C）、品（M）、黄（Y）、黑（BK）四色印刷，在印刷的中间调至暗调增加黑版。

当红绿蓝三原色被混合时，会产生白色，但是当混合蓝绿色、紫红色和黄色三原色时会产生黑色。

既然实际用的墨水并不会产生纯正的颜色，黑色是包括在分开的颜色，而这模型称之为CMYK。

CMYK颜色空间是和设备或者是印刷过程相关的，则工艺方法、油墨的特性、纸张的特性等，不同的条件有不同的印刷结果。

所以CMYK颜色空间称为与设备有关的表色空间。

而且CMYK具有多值性，也就是说对同一种具有相同绝对色度的颜色，在相同的印刷过程前提下，可以用分种CMYK数字组合来表示和印刷出来。

这种特性给颜色管理带来了很多麻烦，同样也给控制带来了很多的灵活性。

在印刷过程中，必然要经过一个分色的过程，所谓分色就是将计算机中使用的RGB颜色转换成印刷使用的CMYK颜色。

在转换过程中存在着两个复杂的问题，其一是这两个颜色模型在表现颜色的范围上不完全一样，RGB的色域较大而CMYK则较小，因此就要进行色域压缩；其二是这两个颜色都是和具体的设备相关的，颜色本身没有绝对性。

因此就需要通过一个与设备无关的颜色模型来进行转换，即可以通过介绍的Lab色空间来进行转换。

2.3.3Lab颜色模型

Lab颜色模型是由CIE（国际照明委员会）制定的一种色彩模式。

自然界中任何一点的颜色都可以在Lab空间中表达出来，它的色彩空间比RGB空间还要大。

另外，这种模式是以数字化方式来描述人的视觉感应，与设备无关，所以它弥补了RGB必须依赖于设备色彩特性的不足。

由于Lab的色彩空间要比RGB模式的色彩空间大。

这就意味着RGB所能描述的色彩信息在Lab空间中都能得以影射。

Lab颜色模型中L表示照度（Luminance），a表示从红色到绿色的范围，b表示从蓝色到黄色的范围。

在Lab颜色模式下，图像的色彩信息和亮度信息被分开保存，调整颜色通道时亮度通道将保持不变。

这样L通道可以看作是一影像的灰度版，其中保存了图像的细节信息，因此利用L通道可容易区分自然图像中的明暗细节。

此外Lab模型具有宽阔的色域，不仅包含了RGB的所有色域,而且弥补了RGB色彩模型色彩分布不均的问题。

2.4颜色模型的选择和转换

随着印刷行业从模拟到数字的变化，色彩的准确再现问题已经变得十分重要。

因此我们需要更好、更快、更准确地获得彩色图像。

上述三种颜色模型各有特点，而Lab颜色模型相比之下有以下优点[4]：

1）Lab模式既不依赖光线，也不依赖于颜料。

2）处理速度与RGB模式同样快，比CMYK模式快很多。

3）Lab模式在转换成CMYK模式时色彩没有丢失或被替换。

因此为了避免色彩损失的方法是：

应用Lab模式编辑图像，再转换为CMYK模式打印输出。

4）Lab模式还弥补了前面两种色彩模式的不足。

RGB在蓝色与绿色之间的过渡色太多，绿色与红色之间的过渡色又太少，CMYK模式在编辑处理图片的过程中损失的色彩则更多，而Lab模式在这些方面都有所补偿。

在表达色彩范围上，处于第一位的是Lab模式，第二位的是RGB模式，第三位是CMYK。

颜色特征是在图像分割中应用最为广泛的视觉特征,在本文的医学图像分割算法中,我们采用了Lab色彩模型。

颜色模型转换[5]是指将一个颜色模型中的颜色数据转换或表示成另一个颜色模型中的相应数据，即用不同的颜色模型中的数据表示同一颜色。

在本文中要将与设备相关的RGB颜色模型转换到与设备无关的Lab颜色模型。

颜色模型转换的方法有很多种，本文主要介绍三维查表插值法。

三维查找表法是当今颜色模型转换较为常用的一种算法。

三维查找表算法的基本思想是，将源颜色模型进行分割，划分成一个个规则的立方体，而每个立方体的八个顶点的数据都是已知的，然后将所有源模型的已知点组成一张三维查找表。

当给定源模型中任意一个点时，就能够通过查表找到与之相邻的八个数据点构成一个小立方体格子的节点，通过对这个小立方体的八个顶点进行插值，得到目标模型对应的数据。

一般情况下都是将查找表法和插值法结合起来使用，使之成为带有插值法的三维查找表法，此方法步骤如图2-1所示：

图2-1颜色模型转换

1）分割：

将源色彩空间按一定的采样间隔分区，建立三维查找表；

2）查找：

对于一个已知的输入点，搜索源空间，找出包含它的由八个栅格点构成的立方体；

3）插值：

在一个立方体的栅格内，计算出非栅格点上的颜色值。

2.5本章小结

本章主要介绍各类颜色模型，Lab色彩模型它不仅包含了RGB，CMYK的所有色域，还能表现它们不能表现的色彩。

人的肉眼能感知的色彩，都能通过Lab模型表现出来。

另外，Lab色彩模型的绝妙之处还在于它弥补了RGB色彩模型色彩分布不均的不足，因为RGB模型在蓝色到绿色之间的过渡色彩过多，而在绿色到红色之间又缺少黄色和其他色彩。

本文是针对医学真皮图像，我们想在数字图像的处理中保留尽量宽阔的色域和丰富和色彩，所以选择Lab颜色模型。

3.医学图像分割概述

3.1引言

随着影像医学在临床医学的成功应用，图像分割在影像医学中发挥着越来越大的作用。

如图3-1所示，进行图像分割首先选择合适的颜色模型，形成特征向量空间；然后，在此特征空间中，应用提出的算法进行区域分割；最后抽取图像区域的特征。

图像分割是提取影像图像中特殊组织的定量信息所不可缺少的手段，同时也是可视化实现的预处理步骤和前提。

分割后的图像正被广泛应用于各种场合，如组织容积的定量分析，诊断，病变组织的定位，解剖结构的学习和计算机指导手术[6]。

医学图像分割到今天仍然没有获得圆满解决，一个重要的原因是医学图像的复杂性和多样性。

图3-1图像分割过程框图

3.1.1医学图像分割特点

随着数字图像技术的不断发展，医学图像分割方法也层出不穷，但仍然无法满足临床医学的实际要求。

与一般的自然图像比较，医学图像有以下特点[7]：

1）模糊性和不均匀性，主要来源于图像灰度上的含糊性，在同一组织中灰度值会出现大幅度的变化，即使密度值相同也会出现分布不均匀的现象。

2）不确定性，病态会导致出现一些正常组织或部位没有的结构。

3）多模态性，不同的图像模态反映了不同表现的图像。

原因是不同的医学成像设备的成像原理各不相同。

上述众多因素给医学图像分割带来了不可预知的难度，这就要求对医学图像的分割有较强的针对性。

因此，对特定的医学图像分割任务提出切实可行的分割方法是当前医学图像分割邻域的主要策略。

3.1.2医学图像分割定义

图像分割[8]是指将图像中具有特殊涵义的不同区域区分开来；这些区域是互相不交叉的，每一个区域都满足特定区域的一致性。

定义将一幅图像

，其中

x，

y,进行分割就是将图像划分为满足如下条件的子区域

...

：

（1）

，即所有子区域组成了整幅图像；

（2）

是连通的区域；

（3）

（k=1，2，...，N）；J=1，2，⋯，N；k≠7），即任意两个子区域不存在公共元素；

（4）区域m满足一定的均一性条件，均一性（或相似性）一般指同一区域内的像素点之间的灰度值差异较小或灰度值的变化较缓慢。

如果连通性的约束被取消,那么对像素集的划分就称为分类（pixelclassification），每一个像素集称为类（class）。

在下面的叙述中，为了简单，我们将经典的分割和像素分类通称为分割。

3.1.3图像分割算法评估标准

医学图像分割质量的高低直接影响着临床的诊断结果；分割速度的快慢直接影响着分割算法是否符合临床诊断对实时性的要求，从而能为临床医疗工作者提供需要的实时交互。

医学图像分割的评估标准的种类非常多，算法评价[9]对指导图像分割任务意义重大。

通过对图像分割算法的对比评价，可以针对特定的分割任务选择最优的分割算法；通过对图像分割结果进行评价，可以进一步分析所选算法的有效性，以及评判新的图像分割算法的分割性能。

一般来说，对图像分割的结果以人的主观判断作为评价准则，尽管对大多数图像处理问题而言，最后的住宿是人的视觉，但对不同图像分割方法的处理结果作一定量的比较、评价也是必需的，如何对现有的图像分割方法做一个全面系统的比较，并给出公正的评价，这是一个有意义但是比较困难的工作。

到目前为止，已经有研究专家在这方面做出了一些工作，他们认为对图像分割方法的评价可以通过分析和实验两种方式来进行。

分析法是直接分析分割算法本身的原理及性能，在实践中很少得到应用。

实验法是利用由分割算法得到的实际分割图像与参考图像进行比较，根据实际分割图像与参考图像的符合程度来评价分割算法的优劣，这是一个比较实际的方法。

实验法已经提出了不少，目前定性实验准则以及常用的定量实验准则；根据临床中的需求评估标准可以分为以下两类：

1）客观评价

图像分割结束后算法花费的时间，算法的鲁棒性等等关键性指标都是可以得到的，可以通过定性或者定量的实验给予评价，使用重合率以及错分率来评价评价图像分割的精度。

2）目标检测

目标检测是主观评价方法，可以使用一些相关领域的专家和学者进行目测检验。

这种评估方法也是很重要的。

因为做分割的最终目标就是得到他们认可的分割效果，从而在临床中使用。

3.2医学图像分割典型算法

图像分割算法的研究一直受到人们的高度重视，到目前为止，提出的分割算法已经多达上千种，由于现有的分割算法非常多，所以将它们进行分类的方法也提出了不少。

图像分割通常利用不同对象之间特征的不连续性，以及同一对象内部的特征相似性。

而基于区域的算法侧重于利用区域内特征的相似性。

例如有把分割算法[10]分成3类的：

区域生长和分裂合并法、阈值分割法、分类器和聚类。

本章从实际应用的角度考虑，详细介绍了图像分割的如下算法：

区域生长和分裂合并法、阈值分割法、分类器和聚类等。

3.2.1区域生长和分裂合并法

基于区域的图像分割算法[11]是以区域为对象依照图像纹理特征、灰度值、换图像的特征等共同属性来划分图像区域。

该方法给图像中的每一个像素都赋予一个类别属性，使具有预定义属性的像素聚集在同类别中。

最常见的基于区域分割法是区域生长和分裂合并法。

区域生长的基本思想是将具有相似特性的像素合并到某个区域。

首先为每个需要分割的区域确定一个种子像素作为生长起点（见图3-2），然后按一定的生长准则把它周围与其特性相同或相似的像素合并到种子像素所在的区域中，把这些新像素作为种子继续生长（见图3-3），直到没有满足条件的像素可被包括，这时一个区域就形成了。

区域生长法所要解决的主要问题是区域生长准则的设计。

生长准则往往和具体问题有关，直接影响最后形成的区域，如果选取不当，就会造成过分割或欠分割的现象。

区域生长法的优点是计算简单，对于较均匀的连通目标有较好的分割效果。

它的缺点是需要人为确定种子点，对噪声敏感，可能导致区域内有卒洞；另外，它是一种串行算法，当图像目标较大时，分割速度较慢，因此在设计算法时，要考虑尽量提高效率。

图3-2设定种子点图3-3生长过程

分裂合并法的基本思想是从整幅图像开始通过小断分裂合并得到各个邻域。

这种方法对较复杂图像的分割，效果比较好，但算法较复杂、计算量大，同时分裂还有可能破坏区域的边界。

3.2.2阈值分割法

阈值法[11]是一种较常见的、并行的、直接检测区域的分割方法。

该方法是基于对灰度图像的一种假设，即目标或背景内相邻像素间的灰度值是相似的，不同的目标或背景的像素在灰度上有差异的，反映在直方图上，不同的目标或背景对应不同的峰值。

阈值是指用于区分不同目标图像的灰度值。

如果图像中只有目标和背景两类，那么只需要选取一个阈值，称为单阈值分割（如图3-4），这种方法是将图像中每个像素的灰度值与该阈值进行比较，灰度值大于该阈值的像素为一类，而小于阈值的像素为另一类。

如果图像中有多个目标，就需要选取多个阈值将每个目标分开，这种方法称为多阈值分割（如图3-5）。

阈值法基于对灰度图像的一种假设：

目标或背景内的相邻像素间的灰度值是相似的，但不同目标或背景的像素在灰度上有差异，反映在图像直方图上，不同目标和背景则对应不同的峰。

选取的阈值应位于两个峰之间的谷，从而将各个峰分开。

阈值分割的优点有计算简单、算法效率较高、速度快等，当不同类物体的灰度值或其它特征值相差很大时，能有效地对图像进行分割。

该方法经常用于医学图像中目标区域和背景区域的分割，如骨骼和皮肤等不同组织的分割。

论文就是针对真皮区域图像的分割法。

图3-4单阈值分割图3-5多阈值分割

3.2.3分类器和聚类

分类[2]是模式识别领域中一种基本的统计分析方法。

分类的目的是利用已知的训练样本集在图像的特征空间找到点（一维）、曲线（二维）、曲面（三维）或超曲而（高维），从而实现对图像的划分。

用分类器进行分割是一种有监督的统计方法，它需要用手工分割得到的样本集作为对新的图像进行自动分割的参考。

分类器有两个优点：

1）不需要迭代运算，故计算量相对较小；

2）能应用于多通道图像。

但是分类器同样没有考虑空间信息，因此对灰度不均匀的图像分割效果不好，分类器还要求由手工分类生成训练集，而手工分类的工作量很大，同时用小量的训练集训练的分类器对大量的样本空间进行分类时会产生误差。

聚类法是将图像空间中的像素用对应的特征空间点表示，通过将相似的特征点聚集成团，然后再将它们映射到原图像空间，得到分割结果。

而图像分割可看成是目标对象的分类问题，可以借助于模式识别中的模式分类技术。

聚类算法与分类器算法极为类似，只是它不需要训练样本，因此聚类是一种无监督的（unsupervised）统计方法，聚类算法迭代地执行图像分类和提取各类的特征值，是一种自我训练的分类。

聚类算法包括K均值法、模糊C均值（FCM）法。

K均值算法先对当前的每一类求均值，然后按均值对像素进行重新分类（将像素归入均值最近的类），对新生成的类再迭代执行前面的步骤。

聚类分析不需要训练集，但是聚类时需要有一个初始分割提供初始参数，即聚类的数目，初始参数对最终分类结果影响较大。

此外，聚类也没有考虑空间关联信息，因此也对噪声和灰度不均匀敏感。

3.3本章小结

本章对医学应用领域中一些有代表性的图像分割方法做了一个比较全面的综述，并分析了几类方法的特点和局限性。

近几年来虽然仍然有很多研究人员致力于医学图像分割的研究，发表了很多的研究成果，但由于问题本身的困难性，目前的方法多是针对某个具体任务而言的，还没有一个通用的解决办法。

4.医学病理切片中真皮组织区域分割算法

4.1引言

图像分割即图像分类，图像分类学是人类认识世界的基础科学。

聚类分析和判别分析是研究事物分类的基本方法，广泛地应用于自然科学、社会科学、工农业生产的各个领域。

本文是对医学病理切片中的真皮组织区域进行分割，若事先已经建立类别，则使用线性鉴别分析法（LinearDiscriminantAnalysis，LDA）；若事先没有建立类别，则使用K-means聚类分析。

4.2基于K-means医学图像分割算法

K-means[12]分割算法在图像分割中得到广泛应用，属于无监督分类的一个分支。

其主要目的是对具有相同数据类型的样本数据按距离最短规则进行集合的划分,最终获取各等价类。

K-means算法是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。

算法采用

展开阅读全文