脑肿瘤的计算机辅助检测.docx
《脑肿瘤的计算机辅助检测.docx》由会员分享,可在线阅读,更多相关《脑肿瘤的计算机辅助检测.docx(16页珍藏版)》请在冰豆网上搜索。
脑肿瘤的计算机辅助检测
脑肿瘤的计算机辅助检测
1.1研究工作的背景与意义计算机辅助检测(computeraideddiagnosis,CAD)是指通过影像学、医学图像处理技术以及其他可能的生理、生化手段,结合计算机的分析计算,辅助发现病灶,提高诊断的准确率。
现在常说的CAD技术主要是指基于医学影像学的计算机辅助技术。
与所述计算机辅助检测(CAD)相区别,后者重点是检测,计算机只需要对异常征象进行标注,在此基础上进行常见的影像处理,并无需进行进一步诊断。
即,计算机辅助诊断是计算机辅助检测的延伸和最终目的,相应地,计算机辅助检测是计算机辅助诊断的基础和必经阶段。
CAD技术又被称为医生的“第三只眼”,CAD系统的广泛应用有助于提高医生诊断的敏感性和特异性。
目前,CAD研究大多局限在乳腺和胸部肺节节性病变,在CT虚拟结肠内镜(CTC)、肝脏疾病CT诊断、脑肿瘤MRI诊断等的CAD研究仍很少,乳腺及肺结节病变的CAD研究基本上可以代表目前CAD在医学影像学中的最高水平和现状。
同时,计算机辅助诊断系统在脑肿瘤上的研究还处于起步阶段,缺乏成熟的技术。
然而脑肿瘤是除脑血管病之外神经系统最常见的疾病,且是神经外科手术中最难以彻底切除的肿瘤之一。
据城市居民调查显示,颅内肿瘤患病率为32/10万,一项世界性的统计为40/10万。
说明颅内肿瘤的发病率并不低,非常值得重视。
就全身肿瘤的发病率而论,脑瘤居第五位(6.31%),仅低于胃、子宫、乳腺、食道肿瘤。
在成人,脑瘤占全身肿瘤总数的2%,儿童脑瘤在全身各部位肿瘤中所占比率相对较多,占全身肿瘤的7%。
值得庆幸的是,现在的核磁共振技术发展速度飞快,已经可以生成十分清晰的脑部图像,为医生和CAD的诊断提供了助力。
此外,正常组织和脑肿瘤的差异在适当的加权成像下显示出了巨大的差异,这对于实现计算机辅助检测更是创造了可能性。
目前,国外学者对于计算机辅助诊断在医学影像学中的含义基本达成共识,即:
应用计算机辅助诊断系统时最终诊断结果仍是由医生决定的(并不是完全的由机器进行自动诊断),只是医生在判断时会参考计算机的输出结果,这样使得诊断结果更客观更准确。
目前国外学者强调计算机的输出结果只是作为一种参考(secondopinion),这与最初六七十年代的计算机自动诊断的观念以及现在某些人对于CAD的理解是不同的。
医学影像学中,计算机的输出结果是定量分析相关影像资料特点而获得的,其作用是帮助放射科医师提高诊断准确性以及对于图像、疾病解释的一致性(consistency),另言之,计算机的输出结果只可以作为一种辅助手段,而不能完全由其进行相应的诊断。
CAD之所以能够提高医生的诊断准确性,原因在于,在传统诊断方法中,放射科医生的诊断完全是主观判断过程。
因而会受到诊断医生经验及知识水平的限制和影响;其次,医生诊断时易于遗漏某些细微改变;再次,不同医师间及同一医师间的阅片差异的影响。
而计算机客观的判断对于纠正这些错误和不足具有巨大的优势。
所以,对于计算机在脑肿瘤的辅助检测方面的研究是非常有意义的。
在MRI成像中,采用T2加权,T2加权成像对于观察组织病变的效果更好。
在T2成像下,病变区域的灰度值更高,这就是我们对区分病变区域和正常组织提供了臂助。
如果能在进行手术之前从病人的脑影像中自动地分割出脑肿瘤,并观察出它与其他组织(比如动脉血管)之间的位置关系,就可以为医生的手术前规划提供十分可靠的依据,使脑肿瘤的切除能够更彻底,并且不伤害正常组织,就有可能提高病人恢复健康的速度,同时减少复发率。
1.2国内外研究现状虽然当下对于脑肿瘤的计算机辅助检测的方法各有不同,但大致都分为以下的几个方面来进行研究:
(1)图像的预处理。
(2)特征提取及特征选择。
(3)医学图像的分割。
(4)医学图像的识别。
1.2.1图像的预处理医学图像处理的对象是各种不同成像机理的医学影像,临床广泛使用的医学成像种类主要有X-射线成像(X-CT)、核磁共振成像(MRI)、核医学成像(NMI)和超声波成像(UI)四类。
在目前的影像医疗诊断中,主要是通过观察一组二维切片图象去发现病变体,这往往需要借助医生的经验来判定。
在医学成像中,疾病的准确诊断和评估取决于医学图像的采集和图像解释。
近年来,图像采集已经得到了显着改善,设备以更快的速率和更高的分辨率采集数据。
然而,不同的仪器会有较大的差异,所以就需要对图像进行一些预处理,使计算机辅助诊断更加准确。
大概有这么几种常用的预处理方式:
因为医学图像都是黑白的灰度图像,所以我们可以通过更改图像的亮度来改变图像的对比度,能够使不同参数下的设备采集到的图像亮度和对比度差异更小。
直方图是指图像的灰度直方图,直方图会将图像的灰度从低到高排列出来,我们可以从直方图中观察出图像的灰度在那个范围内出现的最多,从而提取信息,并将这些信息用来进行图像的增强,分割,压缩等各方面。
直方图分为均衡化和规定化,我们使用直方图均衡化对图像进行增强。
直方图均衡化可以将灰度分布窄的图像进行扩大,但可能会导致细节丢失,有时候会得不偿失。
且均衡化的参数较少,不容易控制效果。
实际过程中,我们需要将直方图改造成我们需要的形状,我们让不需要部分的直方图保持不变,增强感兴趣的范围,这个过程叫直方图规定化。
如果能够正确直方图形状,就能获得比均衡化更好的效果,输出图像会更加利于识别。
图像的空间滤波是指在图像空间中使用滤波器对图像邻域处理。
空间滤波可以根据运算类型,可以分为线性滤波和非线性滤波。
非线性滤波器,就是使用非线性操作进行空间滤波。
比如,一个点邻域是m×n,我们就可以使这个点的响应等于这m×n个点中像素灰度值排在中间的点的灰度。
线性滤波器,又被称为空间卷积。
将滤波器的每个系数分别和领域中对应点的像素值相乘,然后求和,从而得到响应。
空间滤波的目的使为了使图像更加的平滑,还被用于图像的锐化。
平滑使通过低通实现的,主要使用来去噪,另一个作用是模糊图像,清除图像中小细节。
而锐化则是使用高通,增强图像细节。
在医学图像的拍摄过程中,往往会因为仪器或者环境中各种因素的影响,在图像中引入噪声。
我们应使用合适的滤波器对图像进行去噪处理。
实际运用中,我们应该根据噪声的特征,选取合适的滤波器,并结合参数的适当调整,来达到最佳的去噪结果。
1.2.2特征提取和特征选择感兴趣区域的特征提取及特征选择是计算机辅助诊断系统中十分关键的步骤。
特征提取就是对初始的输入数据进行某种变换,然后用这些结果来表征输入数据。
根据数据的特征的性质可分为定量和定性,根据提取范围又可以分为全局和局部两种。
常见的特征提取包含底层特征提取和语义特征提取。
底层特征提取属于定量特征提取,此种提取的方法主要有三种:
颜色(灰度)提取,纹理提取以及形状提取。
其中灰度特征提取应用是最广泛的。
主要是因为灰度特征对图像的旋转和缩放都不敏感,比较稳定。
纹理特征也是一种行之有效的特征提取方法,主要分为四大类:
结构化方法,统计学方法,基于模型的方法和变换方法。
形状特征更加通用并且最适用于识别的特征之一。
形状的比较和分类经常被用于对象检测,有许多方法被用来描述形状,例如轴描述,基于原语的描述,梯度方向的直方图。
更值得一提的是,基于轮廓的描述在对象识别方法里展现了很好的性能,其中被成功广泛使用的一项就是概率密度函数。
特征选取中最常用的算法是主成分分析(PCA),是一种使用最广泛的数据降维算法。
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。
另外,在文献[1]中,为了删除多余的特征,作者使用了一个简单而有效的方法,即信息增益,来衡量特征向量中每一个属性的有用性,可以选择出最具有分辨力的特征来得到更好的分类结果。
1.2.3医学图像分割医学图像的分割一直以来就是计算机辅助诊断领域的热点问题。
医学图像处理过程中,对于感兴趣区域的准确分割是至关重要的。
为了对感兴趣区域进行分割,我们首先要把感兴趣的区域给分割出来,然后再有针对性地对感兴趣区域进行提取以及选择。
在脑部的MRI方面,大部分都集中在脑部的灰质、白质以及脑脊液等组织的分割。
根据分割对象的不同,也会采取不同的方法。
大致将分割的方法分为基于区域的分割方法、基于边界的分割方法、基于阈值的分割方法、基于运动的分割方法、基于活动轮廓的分割方法和基于小波变换的方法。
其中最常用的是基于区域和基于边缘的分割方法。
基于边缘的分割方法可以说是人们最早研究的方法,基于在区域边缘上的像素灰度值的变化往往比较剧烈,它试图通过检测不同区域间的边缘来解决图像分割问题。
边缘检测分为三类:
点检测、线检测和边缘检测。
点检测是检测图像中孤立的点,线检测主要是哈夫变换,利用图像全局特性而直接检测目标轮廓,即可将边缘像素连接起来组成区域封闭边界的常用方法。
边缘检测依据两个具有不同灰度值的相邻区域之间总存在边缘,边缘检测算子很多,如梯度算子,方向算子,拉普拉斯算子,马尔算子,综合正交算子,坎尼算子等。
常用的区域分割有区域增长(区域生长)、区域分裂-合并方法等。
根据用户参与度的不同,图像分割还可以分为全自动分割,半自动分割。
全自动分割的技术有数种,包括模糊分割技术,人工神经网络分割技术,基于知识的分割技术等。
下面介绍几种比较常见的医学图像分割方法。
(1)基于活动轮廓模型的方法活动轮廓模型,又称Snake模型,由Kass在1987年提出。
由于Snake模型有着高效的数值方案以及严谨的数学基础,且应用广泛,提出后即成为图像分割领域所研究的热点。
原始的Snake模型其基本思想是通过能量最小化,将一条带有能量函数的初始曲线朝着待检测的目标轮廓方向逐步变形与运动,最终收敛到目标边界,得到一个光滑并且连续的轮廓。
原始Snake模型首先在目标区域附近手动设置一条闭合曲线作为Snake模型的初始轮廓线,初始轮廓线随时间不断演化,越来越逼近目标边界,当演化停止时即获得最终结果。
Snake算法的3个主要步骤为:
(1)读取数据;
(2)数据的预处理,如图像的去噪、求梯度,求外力场等;(3)确定模型的参数与迭代次数,然后开始迭代。
(2)模糊聚类算法大多数的医学图像具有模糊性,图像质量低、噪声大。
模糊聚类法将模糊集理论与聚类算法相结合,模糊集理论对图像的不确定性具备较好描述能力,将此特点结合到分类中,应用到医学图像分割领域。
该方法不是以“一刀切”的方式将像素点硬性分到某一区域,而是引入模糊理论中“隶属度”的概念,将像素点分到隶属程度高的区域中去,提高分割的准确率。
目前最常用的是模糊C-均值算法(FCM),该算法通过两次迭代得到最优边界。
(3)基于小波变换的方法小波变换是对Fourier分析的继承与发展,利用小波变换进行医学图像分割的基本方法是通过小波变换将图像直方图分解成不同级别的系数,用尺度控制并依照小波系数和给定的分割准则来选择阈值。
小波变换在较大尺度上由噪音引起的细小突变较少,容易描述医学图像信号的整体行为,可检测出医学图像灰度值变化较大的轮廓,因此可以通过在不同尺度下逐步确定阈值来处理医学图像。
(4)基于三维分割的方法医学图像三维分割一直是医学图像分析领域的一个研究重点,主要集中在三维CT和MRI图像的分割上,并且在脑血管分割与疾病监测的运用上相当广泛:
文献[2]中提出一种三维重建的方法。
实现的方法是结合标记控制分水岭与改进的C-V模型分割,通过标记控制改善分水岭变换的过分割现象;在对肿瘤图像进行细分割阶段采用了改进的C-V模型,避免了传统水平集分割的重新初始化过程,减少了曲线演化次数,提高了分割速度。
同时分割所采用的初始轮廓是由标记控制分水岭分割的结果得出,很大程度上提高了曲线演化速度和分割的准确性。
文献[4]使用了一种叫做MC的算法对模型进行了三维重建,该算法是将三维序列图像中的像素数据点看成离散规则的数据场进行处理的,MC算法的基本思想是把序列图像相邻图层上的8个像素点看成三维的立方体,逐个处理数据场中立方体的各个体元素,遍历出含有等值面的体元素并分离出这些体元素构成的立方体,插值计算出立方体边与等值面的交点。
通过对上述分割方法的描述和分析可以知道,在处理医学图像的过程当中,不同的人体组织有不同的结构,所以每一个组织的特征也不相同。
且不同个体之间器官也有较大的差异。
我们应灵活的选用不同的分割方法,这样才能更快更有效的进行分割。
1.3论文的主要研究工作本文的研究工作根据采取的技术主要分为以下几点:
(1)采取技术的调研本文所提出的脑肿瘤的计算机辅助检测的方法,会用到许多医学图像处理方面的方法。
因此,需要提前对这些技术进行调研,并结合实验数据进行分析及选择。
MRI图像在生成的过程中,由于仪器的原因,不可避免地会引入噪声。
我们需要通过亮度变换增强图像的对比度,利用直方图降低由于外界因素导致图像的亮度、对比度之间的差异,得到灰度分布均匀的图像。
(3)基于深度学习的图像分割首先,我们对一些当下比较火热的深度学习框架进行讨论,选择一个更加合适的模型来作为我们的训练网络。
在深度学习的算法当中,会存在许多的被称作超参数的数值。
这些超参数对于深度学习的损失有比较大的影响。
比如学习率(learningrate)、批次大小(batch_size)、优化器(optimizer)、迭代次数(epoch)、激活函数。
这些都是对于深度学习影响比较大的参数。
深度学习中的优化器有很多种,目前最常被使用的是Adam优化器,也是本次实验中采用的优化器。
Adam具有快速收敛的特性。
激活函数同样是多种多样的,常见的有Relu、Sigmoid、tanh等。
本次实验采用的是Relu函数。
算法的批次大小也需要选择合适大小,否则不仅算法会报错,设备也无法承担。
且对于最后的损失也有较大的影响。
(5)实验结果分析将实验得到的结果和预期进行对比,观察并记录实验结果,并对实验结果进行分析,并将深度学习与其他方法比较。
1.4论文解决的关键技术
(1)实验数据的预处理本实验数据来自JunCheng,该脑肿瘤数据集包含来自233例三种脑肿瘤患者的3064张T1加权对比增强图像,脑膜瘤(708张),胶质瘤(1426张)和垂体瘤(930张)。
由于存储库的文件大小限制,我们将整个数据集分为4个子集,并在4个.zip文件中实现,每个.zip文件包含766个切片。
还提供了5倍交叉验证索引。
此数据以matlab数据格式(.mat文件)进行存储。
由于数据集数量不够大,所以采用算法将数据集进行扩充。
包括横向翻转,纵向翻转和进行角度旋转(3)分割网络构建本次分割网络的框架使用torch框架中的nn进行构建,该框架包含着深度学习网络中常用的层,例如卷积层、最大池化层、反卷积层等。
也是本次算法中需要用到的层。
1.5本文的结构安排本论文一共分为X章。
每章的具体安排如下:
第一章主要是分析了脑肿瘤的计算机辅助检测目前在国内外的发展阶段,以及辅助诊断的背景。
同时介绍一些医学图像处理的相关技术。
同时描述了本论文的主要工作,以及使用的关键技术。
第二章主要介绍了目前机器学习领域中的热点问题——深度学习。
在第二章中详细介绍了深度学习的基本思想,并对目前深度学习在脑肿瘤分割方面的技术进行简单的归纳和总结。
第三章会介绍本次研究使用的基于深度学习的框架,对图像的预处理、检测和后处理对系统所使用到的技术进行分析和阐述本章首先介绍了本次研究的背景以及进行此研究的意义。
然后又介绍了图像的处理方法,特征的提取以及选择。
然后又介绍了医学图像分割的不同方法。
最后,介绍了本文的主要研究工作以及关键技术。
最后介绍了本文的章节安排。
深度学习(DL,DeepLearning)是机器学习(ML,MachineLearning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。
深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
2.1深度学习的基本思想当计算机去读取一个图像的时候,对于计算机来讲,这张图像之每一个像素点的颜色的集合,计算机并不能认识这张图象的内容到底是什么。
我们再讨论人类的思维,当人看到一张图像时,图像由瞳孔进入,由人类的神经感知到图像的每一个像素,然后通过大脑皮层的细胞对进入人脑的图像的进行初步的处理,发现图像的边缘,以此来判断图像的形状,进一步抽象过后,才能识别出物体。
图2-1人脑思维的抽象过程我们可以看出,人脑识别物体的过程可以看成一个不断迭代,不断抽象的过程。
从最开始的由人脑细胞对图像边缘的提取,再到抽象出形状,以至于更高层。
其实也就是通过将低层特征组合得到高层特征,从低到高特征越来越抽象。
且特征越是抽象,就越接近实际,也就是更加的准确,其他的可能就越小。
深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。
深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
从一个输入中产生一个输出所涉及的计算可以通过一个流向图(flowgraph)来表示:
流向图是一种能够表示计算的图,在这种图中每一个节点表示一个基本的计算以及一个计算的值,计算的结果被应用到这个节点的子节点的值。
考虑这样一个计算集合,它可以被允许在每一个节点和可能的图结构中,并定义了一个函数族。
输入节点没有父节点,输出节点没有子节点。
传统的前馈神经网络能够被看作拥有等于层数的深度(比如对于输出层为隐层数加1)。
SVMs有深度2(一个对应于核输出或者特征空间,另一个对应于所产生输出的线性混合)。
人工智能研究的方向之一,是以所谓“专家系统”为代表的,用大量“如果-就”(If-Then)规则定义的,自上而下的思路。
人工神经网络(ArtificialNeuralNetwork),标志着另外一种自下而上的思路。
神经网络没有一个严格的正式定义。
它的基本特点,是试图模仿大脑的神经元之间传递,处理信息的模式。
2.2深度学习的常见模型2.2.1卷积神经网络模型在无监督预训练出现之前,训练深度神经网络通常非常困难,而其中一个特例是卷积神经网络。
卷积神经网络受视觉系统的结构启发而产生。
第一个卷积神经网络计算模型是在Fukushima(D的神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。
后来,LeCun等人在该思想的基础上,用误差梯度设计并训练卷积神经网络,在一些模式识别任务上得到优越的性能。
至今,基于卷积神经网络的模式识别系统是最好的实现系统之一,尤其在手写体字符识别任务上表现出非凡的性能。
在CNN的应用中,文字识别系统所用的LeNet-5模型是非常经典的模型。
LeNet-5模型是1998年,YannLeCun教授提出的,它是第一个成功大规模应用在手写数字识别问题的卷积神经网络,在MNIST数据集中的正确率可以高达99.2%。
2012年Imagenet图像识别大赛中,Alext提出的alexnet网络模型一鸣惊人,引爆了神经网络的应用热潮,并且赢得了2012届图像识别大赛的冠军,这也使得卷积神经网络真正意义上成为图像处理上的核心算法。
上文介绍的LeNet-5出现在上个世纪,虽然是经典,但是迫于种种复杂的现实场景限制,只能在一些领域应用。
不过,随着SVM等手工设计的特征的飞速发展,LeNet-5并没有形成很大的应用状况。
随着ReLU与dropout的提出,以及GPU带来算力突破和互联网时代大数据的爆发,卷积神经网络带来历史的突破,AlexNet的提出让深度学习走上人工智能的最前端。
在图像识别中,卷积神经网络会直接将图像作为整个网络的输入。
从而可以跳过特征提取的阶段。
但是CNN的训练方式相较于自动编码器会更加的复杂,每一层都需要通过卷积核采样。
图2-1卷积神经网络过程如上图所示,输入图像首先与一个已训练的滤波器进行卷积,加偏置,再压缩,并进行特征归一化等,得到特征图CX。
然后,对CX进行下采样,下采样的过程即对相邻四个像素求和,乘以一个可训练参数之后再加上一个可训练偏置,最终通过激活函数进行计算,得到特征映射图SX。
假设我们的输入图像是32×32像素的图像,卷积核是5×5大小的。
我们每次都使用一个卷积核去卷积输入图像,并加上一个偏置,就能够得到如上图的三个特征图。
我们由此运算得出的特征图的大小为为28×28。
卷积神经网络的优势就可以显现出来,在同一个特征图中,所有的神经元都共享同一个卷积核,也因此,卷积神经网络的参数个数会大大的减小。
我们从该例子可以看出,第一层共有(5×5+1)×3=78个参数,这相对与其他的深度学习模型来讲,极大的降低了网络参数的复杂度。
然后是进行下采样,可以得到三个14×14的特征图。
下采样的过程就是将C1中每个2×2的领域的4个像素求和,乘以某个参数后加上偏置,通过一个激活函数,产生一个长宽都只是原来特征图一半的特征图。
进一步的减少了数据量并同时保留了信息。
S2的特征图再次卷积得到C3层,再下采样得到S4.最终数据形成向量作为传统神经网络的输入。
卷积神经网络十分巧妙地利用了人类通过局部感受视野来观察图像这一重要特点,使卷积核每次只对图像的一个邻域进行计算,从而可以使用不同的卷积核来获得不同的特征图。
深度信念网络(DeepBeliefNetwork,DBN)由GeoffreyHinton在2006年提出。
它是一种生成模型,通过训练其神经元间的权重,我们可以让整个神经网络按照最大概率来生成训练数据。
我们不仅可以使用DBN识别特征、分类数据,还可以用它来生成数据。
下面的图片展示的是用DBN识别手写数字:
DBN由多层神经元构成,这些神经元又分为显性神经元和隐性神经元(以下简称显元和隐元)。
显元用于接受输入,隐元用于提取特征。
因此隐元也有个别名,叫特征检测器(featuredetectors)。
我们首先必须了解受限玻尔兹曼机(RestrictedBoltzmannMachines,RBM)。
RBM是DBN的组成元件。
事实上,每一个RBM都可以单独用作聚类器。
RBM只有两层神经元,一层叫做显层(visiblelayer),由显元(visibleunits)组成,用于输入训练数据。
另一层叫做隐层(Hiddenlayer),相应地,由隐元(hiddenunits)组成,用作特征检测器(featuredetectors)。
应注意到,显层和隐层内部的神经元都没有互连,只有层间的神经元有对称的连接线。
这样的好处是,在给定所有显元的值的情况下,每一个隐元取什么值是互不相关的。
也就是说,同样,在给定隐层时,所有显元的取值也互不相关:
有了这个重要性质,我们在计算每个神经元的取值情况时就不必每次计算一个,而是同时并行地计算整层神经元。
每次训练首先将可视层的输入映射给隐层,然后通过隐层重建可视层,得到新的可视层,将新的可视层再次映射称为新的隐层,这样的反复操作称为吉布斯采样。
RBM是基于基于能量的概率分布模型。
分两部分理解,第一部分是能量函数,第二部分是基于能量函数的概率分布函数。
对于给定的状态向量h和v,则RBM当前的能量函数可以表示为:
(2-1)有了能量函数,则我们可以定义RBM的状态为给定v,h的概率分布为:
(2-2)其中Z为归一化因子,类似于softmax中的归一化因子,表达式为:
(2-3)现在我们来看看RBM的激活函数,提到神经网络,我们都绕不开激活函数,但是上面我们并没有