卷积递归深度学习在3D物体分类上的应用Word文档格式.docx
《卷积递归深度学习在3D物体分类上的应用Word文档格式.docx》由会员分享,可在线阅读,更多相关《卷积递归深度学习在3D物体分类上的应用Word文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
物体识别是计算机视觉中最困难的问题之一,并对于实用化家庭环境下的机器人十分重要。
新的传感技术(如Kinect)可以记录高品质RGB和深度图象(RGB-D)信息,并且现在已经结合标准视觉系统在家用机器人中运用了。
深度模式为复杂问题的总体目标检测提供有用的额外信息,由于深度信息是不随亮度或颜色的变化而变化的,并提供了几何线索使得可以更好地从背景中分离。
目前,大多数基于RGB-D图像的物体识别使用手工设计的特征集,如二维图像的SIFT[2],三维点云的旋转图片[3],或特定的颜色,形状和几何特征[4,5]。
本文介绍了用于对象识别的第一卷积递归深度学习模型,该模型可以借鉴原始RGB-D图像。
相比近期其他3D特征学习方法[6,7],我们的做法具有更快速度、不需要额外的输入渠道(如表面法线)、艺术性地检测家用物品的特点。
图图1列出了我们的做法。
训练和测试代码在www.socher.org上可以找到。
模型采用原始的RGB和深度图像进行分析,并首次分别从中提取特征。
每一种模式首先输入一个卷积神经网络层(CNN,[8]),这个网络层提供了低层特征(如边缘)上有效的平移不变性,并且允许对象在一定程度上变形。
汇集的滤波器相应随后传送给一个递归神经网络(RNN,[9]),它可以学习成分特征和部分交互作用。
通过绑定权重和非线性的多个层次,将RNN分层地投入到低维空间中。
本文也探索了计算机视觉中新的深度学习架构。
之前,RNN在自然语言处理和计算机视觉[9,10]方面的工作中,(i)为每组输入使用了不同的树型结构,(ii)采用具有一组权重的单一RNN,(iii)限制树状结构为二叉树,及(iv)通过结构的反向传播训练RNN[11,12]。
在本文中,利用固定树结构、输入多个BNN和N叉树的方法,针对这四个方面拓展基于RNN结构的可能性。
由此表明,由于CNN层中固定的树结构不仅不会降低性能,而且提高了识别速度。
类似于近期的工作[13,14]可见,随着特征数量的增加,RNN模型的性能也随之提高。
每种模式分层组成的RNN特征相互连接,作为联合SOFTMAX分类器的输入
图1:
模型概述:
一个从RGB和深度图像信息中提取低层特征的单一CNN层。
这两种表示法都作为一组随机加权RNN的输入。
若干个RNN(每个模式约100个)将特征递归映射到一个较低的维空间中,所有结果向量的串联形成最终的SOFTMAX分类器特征向量。
最重要的是,经证实,随机权重的RNN也可以得到高质量的特征。
到目前为止,随机权重仅被证明可用于卷积神经网络[15,16]。
由于监督训练减少了最终SOFTMAX分类器的权重的优化,可以很快地发掘大量的RNN结构。
综上所述,得到了一个既能快速训练,又能在测试阶段高度并行的3D物体分类艺术系统。
首先,本文简要介绍了过滤器权重及其卷积的无监督学习,由此得到低级的特征。
其次,详细描述了如何用多个随机RNN用来获得整幅图像的高水平特征。
最后,讨论了相关工作。
实验中,定量比较了不同的模型,分析了模型的消融,描述得到Lai[2]等人的RGB-D数据集结果
2.卷积递归神经网络
本节描述了新建立的CNN-RNN模型。
首先,利用随机曲面的聚类使CNN过滤器进行无监督学习,然后将这些曲面转化成CNN层。
将所得低级别、平移不变的特征传递给递归神经网络。
由高阶特征组成的RNN可被用于图像分类。
2.1CNN过滤器的无监督预训练
根据Coates[13]等人描述的过程,学习在卷积中要使用的过滤器。
首先,根据模式(RGB和深度)提取随机曲面到两个集合中,然后对每组曲面进行规范化和白化。
预处理后的曲面用简单k-means方法进行聚类操作,图2展示了两种方法得到的过滤器,他们捕获了标准边缘和颜色特征。
在深度通道应用此方法的一个结果是锐化物体边界,这是因为物体边界和背景较大的不连续性,虽然深度通道往往有很多噪声,但是大部分特征依然平滑。
图2:
非监督预训练后CNN层中k-means过滤器的可视化:
(左)标准RGB过滤器(颜色显示效果最好)捕获边缘和颜色。
当此方法适用于深度图象(中),由于物体边界强烈的不连续性,所得到的过滤器具有较明显的边缘。
与使用图像的灰度信息训练得到的过滤器(右)相比,得到的结果是类似的,尽管边缘锐化程度较小。
2.2单层CNN
由于CNN结构具有平移不变性特点,选择CNN生成RNN层的特征。
CNN的主要思想是,将输入图像卷积过滤,从而提取特征集。
文中使用的单层CNN与Jarrett[17]等提出的类似,在矫正和局部对比度标准化(LCN)后包含一个卷积过程。
LCN的设计灵感来自于计算神经科学,被用于在一个特征映射内对比特征以及相同空间位置的跨特征映射[17,18,14]。
将每个图像的大小(高和宽)dI与K方形过滤器的大小dp进行卷积,每个维度大小为dI-dp+1,得到K滤波器的响应。
然后用方形区域大小dl和步幅大小s取均值,汇集得到一个宽和高都等于r=(dI-dl)/s+1的响应。
因此,一幅图像通过CNN层得到的输出X是一个K×
r×
r的三维矩阵。
分别在颜色和深度图像信息中进行以上步骤。
2.3固定树递归神经网络
递归神经网络[19,10]的思路是在一个树状结构中递归地应用相同的神经网络,学习分层特征表示形式。
本例中,树的叶节点是K维向量(一张图像切片的CNN汇集结果在所有K过滤器上重复),一共有r2个。
在我们之前的递归神经网络的工作[9,10,20]中,树的结构取决于输入。
虽然这样做有更大的灵活性,但是对于在关联CNN层的物体分类任务中获得高性能是不必要的。
此外,在最优树上的搜索大大降低了这个方法的速度,因为并行搜索和并行化大矩阵产品不容易实现。
后者可以从新的多核硬件(如GPU)中获益匪浅。
在这项工作中,重点在于设计出平衡的固定树结构。
之前的工作只是合并了向量对,本文将RNN结构由合并向量对推广到允许合并各层邻向量块。
由每个图像的3D矩阵X∈RK×
r开始(列是K维的),定义一个全为相邻列向量的块,合并为一个父向量p∈RK。
为方便起见,下文只使用方形块,块的大小为K×
b×
b。
例如,如果以b=3合并一个向量组为一个块,最终得到大小为128×
3×
3的块和一张向量组结果列表(x1,…,x9)。
一般情况下,在每个块中有b2个向量,神经网络中计算父向量的公式是
(1)
其中,参数矩阵W∈RK×
b2K,f是非线性的(如tanh),由于偏置对下面的实验没有影响,省去这个术语。
式1以相同权重W,应用于X中所有向量的块。
一般而言,有(r/b)2个父向量p组成一个新的矩阵P1。
正如在矩阵X中运用公式1一样,P1中的向量以同样固定的权重合并成块,形成矩阵P2。
重复以上步骤直到只剩一个父向量位置。
图3给出了一个从K×
4×
4合并输出CNN及有4个子块的RNN树结构的例子
图3:
块中应用递归神经网络:
对于每个节点,运用相同的神经网络计算一组子向量的父向量。
原始输入矩阵是卷积合并的输出。
目前为止,模型是非监督的。
但是,最初的任务是将每个块分类成许多对象类别。
因此,选取顶层向量Ptop作为softmax分类的特征向量。
为了尽量减小softmax的交叉熵误差,可以通过递归神经网络[12]和卷积层[8]反向传播。
实践证明,该操作速度较慢,将在本文下一节中讨论其他方法。
2.4多元随机RNN
以前的工作只使用了一个RNN,实际上可以采用3D矩阵X作为一组RNN的输入,每N个RNN输出一个K维向量。
在通过所有RNN向前传播后,将所有输出串联成N个K维向量,随后传递给softmax分类器。
采用RNN中W矩阵的导数需要通过结构反向传播,实验发现,随机权重的RNN能够得到高质量的特征向量组,类似的结果在随机权重密切相关的CNN中也存在。
在对比其他方法前,先简要回顾一下相关工作。
3.相关工作
使用RGB-D数据进行目标识别和场景理解一直是研究热点,Silberman和Fergus已经发表了关于全场景理解的三维数据[21],Koppula等人近期也整理出了室内场景分割的新数据集[4]。
如今在标准对象识别方面最常用的方法是利用基于方向直方图设计的特征集,如SIFT、SURF和纹理基元,将他们作为分类器(如随机森林)的输入。
尽管这些方法有成功的方面,但是,也有一些缺点:
如只能适用于一种模式(SIFT只能用于灰度图像);
不容易适应新的模式,如RGB-D或不同的图像域。
本研究尝试以下方法:
通过颜色直方图修改这些特征以适应彩色图像,干脆将SIFT方法拓展到深度通道中[2]。
内核描述符[5]作为一种更先进的方法可以概括这些想法,并且可以结合几个重要的RGB-D图像特性(如大小、三维形状和深度边缘)。
另一条相关工作线是对象分类中的空间锥体,特别是与内核匹配的锥体[24]。
相似之处在于,设计的模型也学习了分层图像表示,可用于对象分类。
上述问题的另一种解决方案,是(在其他方面)采用无监督的特征学习方法[25,26,27],这个方法在对象识别方面已经取得了很大的进展。
目前,许多深度学习的方法是从RGB图像中学习得特征,几乎没有研究三维图像的深度结构。
最近,Blum等[6]在RGB-D数据中引入卷积k-means描述符(CKM)。
他们采用了SURF相关的点,与[28]类似以k-means学习特征。
在用非监督方法学习特征方面,他们的工作跟我们是类似的。
Bo[7]等最近的工作,是采用基于稀疏编码的非监督学习的特征,从包括灰度强度、RGB、深度标量和表面法线的8个不同渠道中学习词典。
这些特征随后用于包含两层的分层匹配追踪,每层由三个模块:
批处理正交匹配追踪,合并最大锥体和标准化对比度。
最后得到一个非常大的用于分类的特征向量,这个向量的维度大小是188300。
最后,Pollack[19]和Socher[10]等为在实验环节中定量对比,引入递归自编码。
递归神经网络已经被用于全场景分割[9],但是他们使用的是手工设计特征。
Farabet[29]等也在场景分割中引入了一个模型,这个模型基于多标度卷积神经网络和学习特征表示形式。
4.实验
实验基于Lai等人[2]最近的RGB-D数据集。
其中,有51个不同类别的家用物品和300个这些类别的实例,每个对象实例从3个不同的角度成像,每个实例获得将近600幅图像,数据集包含一共207920张RGB-D图像。
在600张图像中以每5帧的间隔进行二次抽样,对每个实例汇总成120张图像。
此项工作注重于类别识别的问题,采用与[2]相同的设置以及他们所提供的10个随机分割。
所有的动向在一个单独的分割上进行,模型消融在这10个分割中的一个中进