基于深度学习的点云分割的研究Word文档格式.docx

上传人:b****6 文档编号:16249504 上传时间:2022-11-21 格式:DOCX 页数:25 大小:771.48KB
下载 相关 举报
基于深度学习的点云分割的研究Word文档格式.docx_第1页
第1页 / 共25页
基于深度学习的点云分割的研究Word文档格式.docx_第2页
第2页 / 共25页
基于深度学习的点云分割的研究Word文档格式.docx_第3页
第3页 / 共25页
基于深度学习的点云分割的研究Word文档格式.docx_第4页
第4页 / 共25页
基于深度学习的点云分割的研究Word文档格式.docx_第5页
第5页 / 共25页
点击查看更多>>
下载资源
资源描述

基于深度学习的点云分割的研究Word文档格式.docx

《基于深度学习的点云分割的研究Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于深度学习的点云分割的研究Word文档格式.docx(25页珍藏版)》请在冰豆网上搜索。

基于深度学习的点云分割的研究Word文档格式.docx

下面的工作步骤,表面重建和特征提取提供重要信息,使得三维模型更加准确,本设计拟采用更佳的模型,来达到更高的准确率。

在现实生活中,几乎所有的物体比如高楼大厦、汽车、树木乃至是一张纸都是一个三维目标,面对如此庞大的三维数据的规模,如何从海量的数据中去除无用的信息,并且获得有价值的内容已经当前三维视觉领域的一个核心研究方向。

现有的传统方法虽然可以解决图像方面的问题,但是他们都是在数据底层特征(比如三维数据的空间坐标、颜色、位置信息)上的分割,效果并没有达到预期状态。

近年来随着深度学习技术的不断完善,尤其是卷积神经网络在图像领域的也取得了可观的成果,使得了图像识别、检测和分割等领域也得到了长远的发展,越来越多的学者已经着眼于用深度学习的方法对点云数据直接进行分类和分割。

由于深度学习发展的总体趋势是从二维到三维,从转换数据到对数据进行直接处理。

由于处理思路的不同从而演变出以下几种发展方向:

第一种是基于体素化的卷积神经网络模型,这种方法虽然能将不规则的点云转换成规则的3D体素化表示,但是最大缺点就是随着体素化分辨率的提高,内存和计算消耗越来越高,甚至导致划分的很多体素网格是空的。

第二种就是基于多视图的卷积神经网络模型。

尽管这种模型相对于体素化方法来说降低了计算消耗量,但是会受到渲染参数、关联视图、无法捕捉3D模型内部结构等因素的限制。

第三种就是本文所研究的基于点云的深度神经网络模型。

由于点云数据具有有着数据量小而且不用其他形式转换的优点,直接使用点云数据可以很大程度的提高算法的效率和准确率。

1.2国内外发展(应用)现状

深度学习的研究现状

深度学习技术不仅是一个复杂的机器学习算法,它也是人工神经网络在某种意义上分支之一,它从有着深厚的网络结构和人工神经网络其最早的网络模型首次提出大约60年前。

早在19世纪50年代,研究人员在美国显示皮茨的是沃伦·

麦卡洛克和心理学家沃尔特的数学家讨论可能的数学模型。

网络中的神经元,从而进行理论建模这就是后来的MP模式,这个想法的提出已经引起了人们的注意研究人工智能,这导致非数学开展研究它。

1956年,人工智能专家弗兰克·

罗森布莱特M-P型机的基础上,跃升二进制值的极限了,并提出了人工神经网络模型的概念感知,此外,感知的参数使用赫布学习规则或最小二乘法,来记录的训练数据感知精度的训练,也已经提出了取决于准确的权重。

由于只有输入层和网络结构的输出层,分类能力是有限的,并且只能处理简单的二进制线性分类,如不能分开(异或物质)线性问题不能被处理。

但是它的出现,首次给人类带来了神经网络的概念,并在学术界引发了一阵持续到1963年的研究热潮。

在接下来的十几年研究过程中,神经网络并没有取得什么突出的研究成果,因此,神经网络可能会逐渐减弱。

直到20世纪20年代初,结果在高潮的神经网络研究的两只眼睛,已经提出了反向传播算法。

反向传播方法根据所述神经网络的输出层误差收敛计算误差调节网络的权重。

但是由于反向传播方法中,具有多个隐藏层的深网络的网络参数的学习性能是不好的,另外,有反向传播训练网络参数许多实际问题。

例如,需要大量的标签样品训练网络的权重。

具有多个隐藏层的神经网络权重的训练速度非常慢。

传播层数量的增加逐渐减弱。

经过近十年的研究,研究人员发现这种反向传播算法在深度神经网络训练的计算中不能取得很好的效果。

训练时间过长,网络训练中的优化问题将导致局部优化甚至梯度消失,神经网络的性能受到极大限制。

同时,皮里克等人提出的无需调整参数即可获得最佳SVM算法使得神经网络再次陷入低谷。

直到2006年,一个叫杰弗里·

辛顿学者提出了深刻的信念网络的概念,并给了一个高效的半监督算法,与之前不同的是,在正常训练环节之前加入了一个预训练环节来对整个网络进行优化,从此深度网络训练消耗时间过长的僵局被打破,训练效率大大提高。

从此,基于深层神经网络训练的深度学习得到了学术界的广泛认可。

深度学习的出现极大地推动了人工智能计算机视觉和其他研究方向的发展,在自然语言和图像分类与识别等任务上也取得了出色的成绩。

随着经济、工业等的飞速发展,人们对机器人的智能研究寄予了厚望,如何使机器人具有学习和分析的能力,实现真正的人工智能已成为研究人员不断关注的问题。

与传统的机器学习算法相比,深度学习技术有两个优点。

首先,深度学习技术可以根据数据规模的增加而不断提高自身性能,而传统的机器学习算法几乎无法使用大量数据来不断提高其性能。

其次,深度学习技术可以直接对大量的数据直接进行训练学习,自动从数据中提取特征,然后找到它们所蕴含的特征,这减少了设计对每个问题的特征提取工作,而传统的机器学习算法需要手动特征提取。

尤其是在卷积神经网络出现后,深度学习和机器视觉的结合得到了更加快速的发展,人们对机器人、自动驾驶、无人机、空天信息化以及立体化等方面研究的期望变得更加容易实现。

卷积神经网络的研究现状

卷积神经网络(CNN)在深学习深层神经网络的概念。

这是一个深刻的学习网络架构具有特殊的结构层。

它是由生物自然的视觉认知机制的启发。

图像领域具有较强的特征提取能力。

从广泛应用卷积神经网络到现在,通过以下三个阶段理论发芽阶段,实验阶段,大规模应用和深入的研究阶段。

(1)理论萌芽阶段。

早在1962年,胡贝尔和威塞尔生物学家,已经通过研究发现,从视网膜向大脑传送人的视觉信息是由多个层次的感受刺激完成的。

到了1980年,日本学者提出的视觉认知机的概念,在此基础上。

这是一个自组织多层次的视觉网络模型。

上层的局部感受刺激,以获得下一层的响应。

它不受位置大小和视觉小形状变化的影响。

在某种意义上,这神经认知机是一个卷积神经网络的第一原型。

(2)实验阶段。

在1990年至2000年间,美国多位计算机科学家LeCun就已经提出了LeNet-5,在他们的论文中确立了CNN的现代结构,他们也分类手写的数字任务中取得了突破性进展。

与之前的神经网络相似的是,LeNet-5是调整时的训练参数使用反向传播算法以监视由训练网络,但是由于当时的计算机处理数据能力有限,在一些复杂的问题处理方面LeNet-5并未能达到预期效果。

(3)规模性应用和深入研究阶段。

后来Krizhevsky在LeNet-5基础上提出一种名为AlexNet的网络结构,与LeNet-5结构类似,但它在结构上得更深一些,并且使用非线性激活功能RELU和Dropout方法,能较好地克服深层CNN网络在解决复杂问题上遇到的障碍,在图像识别领域取得了突破性进展。

AlexNet的成功,在学术界再一次掀起了研究卷积神经网络的热潮,期间研究人员不断改进方法,最出名的要数牛津大学得VGGNet、谷歌的GoogleNet和微软的ResNet这三种。

从结构上看,CNN层的数量已经变得越来越发展的一般方向,直到在2015年提出的全卷积神经网络,人们才对图像语义分割的研究有了更加全面深入的了解。

从目前的发展趋势来看,卷积神经网络依然还有很多可研究之处,并且发现许多适合各种应用环境的卷积神经网络,事实也恰巧印证了如此,人们在其基础上进行不断改进,如搭建解码架构的网络框架RefineNet、带有大维度卷积核的Encoder-decoder结构的网络框架。

点云分割算法的研究现状

图像分割技术是计算机视觉领域的一个重要研究方向,以及图像语义理解和场景理解的重要组成部分。

图像分割是指将图像分割成具有相似特征的多个不相交的区域。

近年来,随着深度学习研究,图像分割技术的深化开辟了一个新的浪潮,智能机器人无人操作,已经在行业如VR(虚拟现实)被广泛使用。

从演化算法,图像分割技术的方法中基于图形的,它可以被广泛地分为三类聚类的基于像素的方法以及基于深学习的方法分割算法。

1989年,由GreigDM、PorteourBT等人提出了图的最小割理论。

NormalizedCut、GraphCut和GrabCut等是基于图论图像分割的代表方法。

随着机器学习的不断发展,聚类方法也被用来进行解决图像问题。

2002年,ComaniciuD,MeerPMean等人提出的Meanshift算法,它首先找到图中数据分布的稳定点,并称为模点,然后把具有相同模点的像素聚类到同一区域。

2010年,Achanta等人提出了一种思想简单,实现方便的算法SLIC,该算法将彩色图像转换,使得它存在于的CIELAB颜色空间中的形式和一组5维的特征向量,然后构建距离度量,对象轮廓保持性或超像素形状具有良好的整体效果。

基于群集的分割方法来处理图像划分为块的超像素与均匀的尺寸和紧凑性合适,更有利于有关下一个任务。

但在现实中,可能存在物体构造复杂、差异较大等因素,仅在较低级别的信息,诸如颜色,亮度和像素的纹理依靠可能不具有良好的分割效果,所以需要由图像提供多个较高级别的信息相结合,实现图像分割,这就是所谓图像语义分割。

2013年,LeCun的学生Farabet等人使用有监督的方法训练一个多尺度的深度卷积分类网络。

在实际操作中,作者首先执行对图片超象素聚类,然后分类的每个超像素,以获得最终的分割结果,这增加了分割速度在一定程度上。

虽然这种方法取得了良好的效果,但由于逐像素的窗口总是采样获得本地信息,整体语义上仍然不够丰富,因此研究人员不断改进和创新。

FCN是深度学习的图像分割领域的开创性工作。

作者设计了任何尺寸的图像分割的问题的输入图像经过培训的端至端充分卷积网络架构来实现逐像素分类,对于使用深网络的基本框架来解决奠定了基础图像语义分割的问题。

FCN会失去很多的详细资料由于采用的技术采样,以及一系列后续方法也作出了相应的改进策略,如赛格网和细化网络。

深度学习是计算机视觉,基于卷积神经网络的图像语义分割技术已取得突破取得了巨大成功,带领图像分割到新的高度。

然而,如何继续提高分割算法的精度,减少了分割算法的复杂性是值得继续研究。

与此同时如何将其应用到3D场景的语义理解也将是一个重要的研究内容。

点云分割作为图像分割的重要组成部分,它是三维点云数据处理技术中的关键环节,它在机器视觉领域也发挥着重要作用,它能对目标物进行定位识别,然后实现分类、特征提取。

甚至是在对大型建筑物的重建上,往往也是需要点云分割技术来对不同属性的目标进行分类分割提取,从而实现快速高质量的重建。

在获得的点云数据的过程中,点群数据的我们所收集的质量将不可避免地被一些外部因素,诸如扫描装置的误差的影响,从而导致在不同区域中的数据可以显示不同的密度。

因为对现实场景采集的点云数据具有很大的随机性、复杂性,而且三维点云的本身结构就是一个不具有规律性的拓扑结构,这些都增加了点云分割的难度。

所以,如何对三维点云数据进行快速有效的分割便成了三维点云数据处理技术中的研究热点。

随着时代的进步,由于价格不上很昂贵,三维点云采集传感器也逐渐走进人们的日常生活,人们对三维点云图像的获取越来越方便,这无形中推动了对点云分割算法的研究。

现阶段根据不同的分割需求,产生的大量的分割算法比如说基于边缘方法的分割、基于区域方法的分割、基于属性的分割,基于模型的分割,基于图形的分割,深基于神经网络的分割等这些算法的提出,使得点云分割技术得到了长足的发展。

对提取分割得到的点云数据又可以进一步进行标签划分,比如可以分为监督学习分类、非监督学习分类、半监督学习分类。

1.3论文所做工作及思路

经过几十年的发展,深度学习技术已经取得了良好的性能和技术,在目标识别检测和语义分割相当成熟。

本文将会采用深度学习的方法来预测目标图像的深度,从而获取物体的三维空间几何数据,然后,当点云深度学习算法进行训练,所述三维图像由卷积神经网络提取的特征被添加到获得的训练模型,然后划分语义信息并将其添加到点云以提取在不同的对象的点云,从而达到分而治之的突出焦点,并为随后的表面重建和特征提取的重要信息使得三维模型更加准确,本设计拟采用更佳的模型,来达到更高的准确率。

1.4论文章节安排

论文共分4章。

第1章:

绪论。

介绍深度学习、卷积神经网络、点云图像分割技术的研究现状

第2章:

相关技术。

包括点云、点云分割的基本概念,卷积神经网络的结构和工作原理。

第3章:

基于深度学习的点云分割算法。

将从PointNet网络模型、DLPSNet网络模型、算法概述、环境配置、数据集描述、结果分析等方面进行入手。

第4章:

总结与展望。

……

第2章相关技术

2.1点云及点云分割

点云的基本概念

点云是指一组表示该组表示空间分布的特征和目标的同一空间参照系下与靶表面,所获得的表面上的每个采样点的空间坐标点的集合。

点云是由X、Y和Z轴坐标定义的一组数据点,它包含着物体简单的坐标、颜色、距离以及其他几何信息。

正常情况下,我们可以通过3D扫描设备来获取点云信息。

与二维数据相比较,点云有着很多的优势,但是点云也有以下三个无法避免的问题:

一是点云的稀疏性,因此我们并未将点云转换为多视图或是体素网格,而是对点直接进行处理;

二是点云的置换不变性,因此在处理点云数据模型的时候采用多层感知机(MLP)对每个点独立的提取特征,进而使用最大池化层将所有点的信息聚合得到全局特征;

三是转换不变性,所以本文将引入转换网络,通过构造转换矩阵对输入点云和特征进行空间对齐以解决此类问题。

正是这些问题所在又让点云分割过程变得相当复杂。

点云分割的基本概念

点云分割是点云处理的本质和3D图像上的2D图像的最大优点实施例。

正如其名称所暗示的,在点云的每个点都有一个有意义的标签。

该标签可以代表一个特定的含义的相关信息。

例如,该标签表示的场景的对象类别,该点云分割过程是这样的场景的分割。

点云分割的目的是提取的各种对象中的点云,以实现分而治之,突出关键点时分别处理它们。

在实际的点云数据中,在许多情况下有场景中的对象先验知识。

点云分割是点云数据处理和分析过程中一项非常重要的研究领域,就目前来说,点云分割的算法主要有:

基于边缘方法的分割、基于区域方法的分割、基于属性方法的分割、基于模型方法的分割、基于图优化的分割、基于深度学习的分割。

本文主要研究了基于深度学习下的点云分割,通过构造出一个具有多层结构的深度神经网络(卷积神经网络CNN)以便提取便于区分的物体特征,从而实现目标物体的点云分割。

 

2.2基于点云数据的深度学习

卷积神经网络是众多深层神经网络之一,它是一种前馈型的神经网络,包含了从一维卷积神经网络,二维卷积神经网络甚至到三维卷积神经网络,其在大型的图像处理方面发挥着巨大的作用,所以经常被大范围应用于序列类的数据处理、图像特征的提取分类、场景的识别与定位、医学图像及视频类数据识别等领域中。

相比较其他的神经网络结构而言,卷积神经网络有个特别明显的优势,就是在训练的时候需要的参数相对来说比较少。

在卷积神经网络的三个极重要的概念:

局部感受野,共享权值和池化。

(1)局部感受野。

在卷积神经网络,一个隐藏的节点通常被连接到图像某一局部区域大大降低的训练参数的量,而其他的一般神经网络图像中的每个像素连接到全连接各神经元。

(2)共享权值。

对应于神经元的权重是在卷积神经网络的卷积层相同,所以可以减少训练参数的量。

共享权重和偏置也可以被称为卷积核或滤汲器。

(3)池化。

在处理图像的过程中,可以先对图像进行压缩卷积后,再通过下一个采样过程来调整图像的大小,因为在现实生活中,待处理的图像往往比较大,我们没必要对原图进行分析,因此网络模型的参数训练大大降低,并且在训练数据的量依赖关系减小。

CNN网络结构示意图如图2-1所示,通常包括以下几种网络层:

网络的第一半通常交替卷积层和池化层之间。

每个卷积层具有多个卷积核,并且在每个卷积核信道的数目等于输入图像的信道数这个卷积层的输出图像的通道数等于这层卷积核的数量。

汇集操作对每个卷积输出图像分别进行。

交替后,将全连接层接收从最后一个全连接层或汇集层输入图像,并通过其稠密链路,得到的输出结果后的映射是输出层。

经过多次卷积池化操作后,缩小图像尺寸,再把有用的特征提取出来,便于后面处理,降低了数据量。

CNN网络原理示意图如图2-2所示。

图2-1CNN网络结构示意图

图2-2CNN网络原理示意图

(1)输入层的卷积神经网络主要处理多维数据,所使用的主要方法是去均值、归一化,PCA/SVD降维等。

常见的在对语音数据进行学习时一维卷积神经网络的输入层接收的是一维数组、对RGB图像进行学习的时候接收的是二维或三维数组、对视频数据学习的时候接收的是四维数组。

卷积神经网络在使用的时候采取了梯度下降的算法,所以需要对输入的物体特征进行标准化处理,比如输入的数据是像素的话,就需要把原始像素值归一到区间,这样将会大大提升算法的效率。

(2)卷积层(convolutionallayer)。

卷积层主要提取输入信息的功能,然后向下发送。

使用的权值共享的理念,每个层的神经元被连接到多个神经元,再通过所述局部感受野,它是卷积网络的核心。

大多数计算都是在卷积层中进行的,根据不同的网络设置,每层卷积层内部都可能包含一个或者多个卷积核。

每个卷积核在训练的时候都会对图片进行卷积处理,构造和神经网络的神经元类似。

当卷积内核工作时,它将扫描输入特征,然后在感受野上对所输入的特征要素执行矩阵元素相乘法、求和叠加偏差,如式(2-1)所示:

(2-1)

式(2-1)中,Rl和Rl+1表示第l+1层的卷积输入和输出,也叫做特征图,Li+1为Rl+1的尺寸,假设特征图长宽相同。

R(i,j)表示特征图的像素,K为通道数,f、s0和p是卷积层参数分别表示卷积核大小、卷积步长、填充层数。

如图2-3所示为尺寸3*3的卷积核在5*5的图像上以s0=1进行卷积的过程:

图2-3卷积过程

(3)激励层(incentivelayer)。

激励层的作用在某种意义上可以理解为把卷积层的结果做非线性映射。

类似于其他深度学习算法,卷积神经网络在这一层通常采用了ReLU激励函数(表现形式如式2-2所示),这种函数操作通常在卷积核之后,具有收敛快、求梯度简单的优点。

(2-2)

(4)池化层(poolinglayer)。

池化层减少了特征的数据的维度,压缩数据通过将数据的一个大的尺寸成若干区域,以获得最大值或平均值,从而得到小维度的新特征。

池化层夹在连续的卷积层之间,它并没有参数,只是把上一层的结果做了一个数据压缩(下采样)。

下采样通常有两种常用的方式:

Maxpooling:

最大池化,我们先定义一个空间领域,如一个2×

2的窗口,过程如图2-4所示:

图2-4Maxpooling过程

Averagepooling:

取平均值,均值化过程如图2-5所示:

图2-5Averagepooling过程

(5)全连接层(fully-Connectedlayer)。

所有在完全连接层神经元的,必须正确地重新连接。

通常情况下,有在卷积神经网络的端部,它只是完全连接层之间发送信号。

它会把前面多轮卷积层和池化层获得的所有局部特征结合为全局特征,特征提取完成后进行分类任务。

(6)输出层(outputlayer)。

这里的输出层是一样的,在结构和工作原理上和前馈神经网络的输出层都一样。

它经常表现为softmax函数用于图像分类问题上,其通常表示为尺寸,分类和对象识别的问题的输出对象的中心坐标等。

卷积神经网络训练

其过程原理基本概括为通过链式求导的方式来进行损失函数对各权重相关梯度的具体计算,进而按照梯度减小的相关公式来使权重被更新。

反向传播算法(BackPropagationAlgorithms)即其相应的训练算法。

该过程包含2个不同的阶段。

首先为数据从低到高进行传播,也就是所谓的前向传播阶段(Forwardpropagationstage)。

其次为若前一阶段具有和预期不同的结果,则由高至低的方向进行误差的传播训练,也就是所谓的反向传播阶段(BackPropagationPhase)。

图2-6为相关的流程图。

该拓出总结如下:

1、初始化相关的网络权值;

2、由全连接层、下采样层及卷积层传播相关输入数据而形成相关的输出值;

3、对目标值以及输出值间误差进行求算;

4、若误差比期望值高则把它传回到网络里,按顺序算上述三种类型的层间的误差值的大小。

如误差不超过期望值,则训练结束。

5、参照上述结果,更新相应的行权。

进而回到本流程的第2个步骤中。

此类网络的相关操作包含了下采样以及局部连接等,这些对于本流程的第2个步骤中计算误差一项的相关方法是有一定影响的,而权值的共享则对本流程的第2个步骤中关于权重梯度一项的相关方法有一定影响。

图2-6卷积神经网络训练流程图

损失函数

损失函数是度量神经网络的输出的预测值,与实际值之间的差距的一种方式,其中欧氏距离和交叉熵用的比较多。

欧式距离损失函数公式如下:

(2-3)

交叉熵损失函数公式如下:

(2-4)

(2-5)

一般意义上的交叉熵定义公式为

对与回归问题,用欧式距离比较好,对于分类问题是用交叉熵来做比较好。

一般情况下用欧式距离函数需要保证它是凸函数,否则会存在局部极小值点或是鞍点问题。

基于点云数据的深度学习

卷积神经网络目前是解决二维图像任务的常用方法,然而,处理3D点云数据,由于点云数据的特性,问题将变得更加复杂。

由于FCN和CNN存在网络结构设计方面的原因,输入数据的格式需要非常规则,但是又由于点云数据的不规则特性,所以它们不能直接作用于点云数据。

为了解决

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 教育学心理学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1