基于图像大数据的目标识别算法及在智慧旅游中的应用研究Word格式文档下载.docx

资源描述

基于图像大数据的目标识别算法及在智慧旅游中的应用研究Word格式文档下载.docx

《基于图像大数据的目标识别算法及在智慧旅游中的应用研究Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《基于图像大数据的目标识别算法及在智慧旅游中的应用研究Word格式文档下载.docx（12页珍藏版）》请在冰豆网上搜索。

基于图像大数据的目标识别算法及在智慧旅游中的应用研究Word格式文档下载.docx

目前，国内外的很多研究机构都开展了图像目标识别的研究。

斯坦福大学的李菲菲教授领导的团队创建了一个公开的图像数据集ImageNet[1],该数据集收集了1500万张图片，这些图片总共有22000个类别。

从2010年开始，在该数据集上开展了名为ILSVRC（ImageNetLarge-ScaleVisualRecognitionChallenge）的公开评测。

ILSVRC从ImageNet中选取了1000个类，每个类有大约1000张图片。

所用于训练的图片有120万张，5万张验证图片，15万张测试图片。

这1000个类涵盖了各种动物、各种自然场景等，每个类的图片尽可能的覆盖了光照、角度、姿态、遮挡的变化。

ILSVRC是国际公认的权威测试比赛，吸引了很多著名的研究机构参与。

2011年最好的成绩是74.3%的识别率，由欧洲的xerox研究中心取得[2]。

所用的方法是用压缩Fisher矢量对特征进行压缩，并用随机梯度下降的方法来训练线性SVM，所用的特征是著名的SIFT特征[16]和颜色特征。

2012年，多伦多大学的Hinton教授和他的学生用GPU（图像处理单元）训练的卷积神经网络模型，在ILSVRC取得了85%的识别率[3]。

和2011年的结果相比，识别率整整提高了10个百分点，这一结果不仅震动了学术界，也震惊了工业界。

Google由此启动了著名的GoogleBrain计划，专门研究深度学习技术。

卷积神经网络是由LeCun在1998年提出的模仿人类大脑所具备的高效表达信息的结构[5]，并成功应用于美国各个银行的支票上的数字识别。

卷积神经网络的基本结构如图1所示，对于一张32x32像素的输入图像，采用6个5x5的模板对输入图像分别进行卷积，得到6个28x28的特征映射（featuremaps），即图中的C1,每一个特征映射内的权值是相同的；

然后对这6个特征映射层分别进行下采样,即图中的S2；

然后

对S2再进行卷积和下采样（对应于图中的C3和S4）；

然后对S4做两次全连接（对应于图中的

图1.卷积神经网络的基本结构，图片来源于[5]

C5和F6）；

最后的输出层采用的是高斯连接的方式。

卷积神经网络中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解，并且能够自动的从图像中抽取出丰富的相关特性，被认为是第一个真正成功的采用多层次网络结构的具有鲁棒性的深度学习方法。

近几年，针对卷积神经网络的学习结构上出现了一些改进，其中最具代表的是多伦多大学的Krizhevsky等人在2012年提出的8层卷积神经网络结构[3]，如图2所示，该结构的输入是224x224的RGB图像，共有5个卷积层和5个Maxpooling层，然后是两个全连接层，最后是一个softmax输出层。

和图1所示的基本结构相比，图2的结构多了3个卷积层和3个采用Maxpooling方式的下采样层，这个结构更适合于像素比较大的图像，而且层次越深，学习出来的语义信息就越丰富。

进一步，为了避免过拟合，图2中的两个全连接层还加入了Dropout技术[7]，为了加快训练速度，全连接层的激励函数改为了ReLUs函数[8]，而不是传统的tanh函数和sigmoid函数，同时还在ReLUs激励函数的基础上，增加了局部响应归一化操作，加强了模型的泛化能力。

图2所示的结构是目前在图像识别领域应用最多的卷积神经网络结构，在此基础上，香港中文大学的YiSun等人提出在第一个全连接层部分，要同时和卷积层及采样层做全连接，而不是只和采样层做全连接，这样做的目的是为了避免信息的丢失[9]。

YiSun等人把这个改进的结构成功应用于人脸识别，并取得了非常好的效果。

2014年，Google公司的Christian

图2.八层结构的卷积神经网络，图片来源于[3]

等人对卷积神经网络做了比较大的改进，引入了Inception模块，一个Inception模块由多个卷积层和Maxpooling层组成，整个网络结构中有9个Inception模块，再加上常规的卷积层、采样层、全连接层和softmax输出层，总共有22层[4]。

这个网络结构在ILSVRC2014比赛中取得了93.4%的识别率，比排名第二的牛津大学的VGG团队[13]高了1个百分点，比ILSVRC2013的最好结果更是提高了4.5个百分点。

识别性能上又有了进一步的飞跃。

值得注意的是，在ILSVRC2014上，几乎所有的参赛队伍都采用了基于卷积神经网络的识别方法，只是在细节的处理上有所不同。

不管卷积神经网络的结构如何变化，其思想都是把特征提取和分类器进行有机的整合，通过随机梯度下降的方式进行反向传播，不断的对卷积模板参数和全连接层的参数进行优化，使得最终学习到的特征和分类器接近最优。

而传统的方法中，特征提取和分类器是分离的，特征提取是一个无监督的过程，这样提取的特征和训练的分类器通常是次优化的。

卷积神经网络的缺点是要学习的参数比较多，并且需要反复迭代，从而导致学习的过程很费时。

因此，尽管卷积神经网络在1998年就已被提出，但在之后的10多年间，并未引起学术界的重视。

在2012年前，主流的分类器仍然是以支撑向量机[6]为代表的这一类学习速度相对较快的机器学习框架。

近几年，由于GPU的出现，使得在一台电脑上实现大规模并行计算成为可能，大大缩短了卷积神经网络的训练时间[3],再加上其优异的识别性能，逐渐成为图像识别领域的主流算法。

Google的相似图片搜索引擎的核心算法即是卷积神经网络。

Facebook也聘请了卷积神经网络的发明人LeCun作为该公司人工智能实验室的主任。

许多著名的大学，如牛津大学、伯克利大学、东京大学等都开展了对卷积神经网络的研究。

近两年，针对卷积神经网络的研究在我国也受到了重视，开展相关研究工作的课题组包括中科院自动化所谭铁牛老师课题组、中科院计算所山世光老师课题组、华南理工大学林俊斌老师课题组、哈尔滨工业大学苏统华老师课题组、香港中文大学汤晓欧老师课题组等等。

XX公司在2012年成立了深度学习研究院，聘请了包括余凯和吴恩达在内的世界知名的科学家，专门从事包括卷积神经网络在内的深度学习的研究与开发。

腾讯、阿里巴巴这些公司也都相继开展了相关研发，并取得了较好的成果。

尽管卷积神经网络促进了图像识别领域的飞速发展，但在实际应用中，我们发现，如果测试样本与训练样本在角度、光照、姿态等方面差异较大，卷积神经网络识别错误的可能性仍然较大。

比如要识别某一建筑物，如果训练样本中对该建筑物的拍摄角度都是比较垂直正面的，那对于比较倾斜拍摄角度的测试样本，不管对训练模型如何进行优化，模型的识别结果往往还是会出错。

尽管卷积神经网络的模型具备了一定的旋转、尺度、位移不变性，但对于差异较大的测试样本依然难以识别正确。

因此，为了达到实际应用的需求，一个直接的办法就是构建一个能覆盖各种角度、光照、姿态、遮挡等变化的大规模的训练数据库，即图像大数据训练库。

而且，以卷积神经网络为代表的深度学习的特点之一就是训练数据越多，效果就越好。

这是因为卷积神经网络参数非常多（例如，图2所示的网络结构的参数个数就达到了6千万），如此规模的参数，显然需要大数据的支持，才能达到比较理想的识别效果。

如何构建一个覆盖实际变化要求的图像大数据库，这是急需解决的一个问题。

如果单纯靠人力的办法，将会非常的耗时耗力。

文献[3,10]的采取的办法有：

1）在一张256x256的图像上进行随机采样，得到多张224x224的采样图像；

2）在原有图片上加入一些微小的光照、颜色、噪音扰动；

3）利用主成分分析，在图像的主成分上加入高斯扰动，再对图像进行重构。

通过以上的步骤，图像训练库的数据增加了2000多倍，有效的提高了识别率。

但以上的方法并没有考虑如何对角度进行自动的变换。

卷积神经网络面临的第二个问题是识别效果也容易受背景变化的影响。

其原因在于卷积神经网络的输入图像本身包含了各种背景，在特征提取过程中，背景像素也参与了计算。

尽管卷积神经网络通过多次的迭代学习过程，能够不断弱化背景图像的影响[12]，但卷积神经网络本身并不具备图像分割的能力，背景图像的存在依然会对最终的识别效果造成很大的影响。

Girshic等人提出不要直接对整个图像进行识别，而是先在图像中筛选出可能包含目标物体的矩形区域，对这些候选区域再用卷积神经网络进行判别是否为要识别的目标物体，这样不仅有效的提高了识别率，还能定位出目标物体在图像中的具体位置[11]。

Girshic等人提出的方法的确在很大程度上避免了背景图像的干扰，但每一个候选区域毕竟还是一个矩形区域，不是物体本身的轮廓，因此还是有背景图像的存在，对最终的识别效果还是会产生影响。

卷积神经网络面临的第三个问题是训练过程依然比较耗时。

在前文中提到，近几年，由于GPU的出现，大大缩短了卷积神经网络的训练时间，但通常也需要几天甚至几周的时间。

比如，在ILSVRC提供的训练集上，用文献[3]所述的方法训练一个卷积神经网络模型，大概需要6天左右的时间。

为了达到比较好的的识别率，通常需要训练5个甚至更多的卷积神经网络模型。

在硬件资源有限的情况下，训练多个模型的时间将会成倍的增加。

因此，如何在有限的硬件资源条件下，有效的提高模型训练的效率也是急需解决的一个问题。

本项目将开展基于图像大数据的目标识别及应用研究。

首先研究如何自动构建一个覆盖实际变化要求的图像大数据训练库。

在文献[3,10]的提出的办法基础上，把我们提出的多摄像机之间的单应性约束方法[15]进行改进，使其适合于目标的拍摄角度变化，从而构建一个能覆盖各种角度、光照、姿态、遮挡等变化的大规模的训练数据库，使得训练出来的模型能满足实际的需求；

对要识别的目标物体，我们将借鉴语音识别的成功经验[17]，用深度信任网络[18]来代替混合高斯模型的打分机制，提高物体分割的效果，从而达到更好的识别率；

为了有效提高卷积神经网络的训练速度，我们将把网络中最后的全连接层用的线性支撑向量机[19]来替代，在卷积特征不变的情况下，训练多个线性分类器，从而有效的提高训练的时间，而且又不损失精度。

[参考文献]

[1]OlgaRussakovsky*,JiaDeng*,HaoSu,JonathanKrause,SanjeevSatheesh,SeanMa,ZhihengHuang,AndrejKarpathy,AdityaKhosla,MichaelBernstein,AlexanderC.BergandLiFei-Fei.ImageNetLargeScaleVisualRecognitionChallenge.

arXiv:

1409.0575,

2014.

[2]Sanchez,JorgeandPerronnin,Florent,High-dimensionalsignaturecompressionforlarge-scaleimageclassif-ycation.IEEEConferenceonComputerVisionandPatternRecognition（CVPR）,2011.

[3]Krizhevsky,A.,Sutskever,I.andHinton,G.E.ImageNetClassificationwithDeepConvolutionalNeuralNet-works.Advancesinneuralinformationprocessingsystems（NIPS）,MITPress,Cambridge,MA,2012.

[4]Szegedy,ChristianandLiu,WeiandJia,YangqingandSermanet,PierreandReed,ScottandAnguelov,DragomirandErhan,DumitruandVanhoucke,VincentandRabinovich,Andrew.Goingdeeperwithconvo-lutions.arXiv:

1409.4842,

[5]Y.Lecun,L.Bottou,Y.BengioandP.Haffner.Gradient-BasedLearningAppliedToDocumentRecognition.ProceedingsoftheIEEE,86（11）:

2278-2324,November,1998.

[6]C.-C.ChangandC.-J.Lin.LIBSVM:

alibraryforsupportvectormachines.ACMTransactionsonIntelligentSystemsandTechnology,2:

27:

1--27:

27,2011.

[7]G.E.Hinton,N.Srivastava,A.Krizhevsky,I.Sutskever,andR.R.Salakhutdinov.Improvingneuralnetworksbypreventingco-adaptationoffeaturedetectors.arXivpreprintarXiv:

1207.0580,2012.

[8]V.NairandG.E.Hinton.Rectifiedlinearunitsimproverestrictedboltzmannmachines.InProc.27thInternati-onalConferenceonMachineLearning（ICML）,2010.

[9]Sun,YiandWang,XiaogangandTang,Xiaoou.Deeplearningfacerepresentationfrompredicting10,000classes.IEEEConferenceonComputerVisionandPatternRecognition（CVPR）,2014.

[10]AndrewG.Howard.Someimprovementsondeepconvolutionalneuralnetworkbasedimageclassification.CoRR,abs/1312.5402,2013.

[11]Girshick,R.,Donahue,J.,Darrell,T.,Malik,J.:

Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation.IEEEConferenceonComputerVisionandPatternRecognition（CVPR）,2014.

[12]MatthewZeiler,RobFergus.VisualizingandUnderstandingConvolutionalNetworks.EuropeanConferenceonComputerVision（ECCV）,2014.

[13]Simonyan,KarenandZisserman,Andrew.Verydeepconvolutionalnetworksforlarge-scaleimagerecogniti-on.arXivpreprintarXiv:

1409.1556,2014.

[16]DavidG.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints.InternationalJournalofComputerVision（IJCV）,

60,2,pp.91-110,2004.

[17]Dahl,GeorgeEandYu,DongandDeng,LiandAcero,Alex,“Context-dependentpre-traineddeepneuralnetworksforlarge-vocabularyspeechrecognition”,IEEETransactionsonAudio,Speech,andLanguageProcessing,Vol.20,Num.1,pp30-42,2012.

[18]Hinton,G.E.andSalakhutdinov,R.R.Reducingthedimensionalityofdatawithneuralnetworks.Science,Vol.313.no.5786,pp.504-507,28July2006.

[19]R.-E.Fan,K.-W.Chang,C.-J.Hsieh,X.-R.Wang,and

C.-J.Lin.

LIBLINEAR:

Alibraryforlargelinearclassification.JournalofMachineLearningResearch,1871-1874,9,2008.

2.项目的研究内容、研究目标,以及拟解决的关键问题。

（此部分为重点阐述内容）

研究目标：

通过自动构建图像大数据训练库，分割目标物体和背景，以及加快卷积神经网络的训练过程，达到以下研究目标：

（1）有效的提高图像目标识别的精度，使其能满足实际场景的需求；

（2）能够快速的扩展要识别的目标物体的种类，从而满足用户方方面面的需求；

（3）搭建实用的移动应用系统，以智慧旅游为切入点，为拓展到交通、农业、食品等与图像相关的领域打下基础。

研究内容：

（1）图像大数据训练库的自动构建

训练数据的丰富性和多样性对模型的识别效果至关重要。

我们将研究在小样本的基础上，通过计算机合成的办法，自动对样本进行扩充，使得扩充后的样本能尽可能的覆盖光照、颜色、噪音、角度、遮挡等的变化，从而生成一套自动构建图像大数据训练库的工具。

其中，角度变化的样本扩充方面，现有的文献中很少提及，但现实生活中却大量存在，因此将是本项目研究的重点。

（2）图像中目标物体与背景的自动分割

如果要识别的物体都处在单一背景中（比如都是白色的背景），那用卷积神经网络识别的效果将会非常的好。

例如著名的MNIST数据集，包含了0到9这10个数字的各种写法，但背景都是单一的黑色。

在MNIST数据集上，卷积神经网络的识别率能达到99.8%以上，超过了人类的识别能力。

但如果在MNIST数据集上加入各种背景噪声，那识别率将会有比较明显的下降。

因此，设计一种有效的自动背景分割算法，将会对模型训练的效果产生较大的提升。

我们将在经典图像分割算法的基础上，进行改进，使分割的效果更加理性。

（3）快速的卷积神经网络模型训练方法

现有的方法中，采用一台主机4块GPU显卡，能比1块显卡的训练速度提升3.75倍。

但如前所述，卷积神经网络的学习过程是反向传播，不断迭代的过程，所以即使用4块显卡，仍然还是比较耗时。

我们将研究将卷积神经网络和各种分类器进行组合，将卷积神经网络只看成一个特征提取的过程，识别的过程将交个其他能够快速训练的分类器来完成。

这里，如何保证在加快训练速度的同时，识别的精度不会有降低将是研究的重点。

拟解决的关键问题：

（1）如何对目标物体在各种拍摄角度下的形状进行模拟，是图像大数据训练库的自动构建中的难点和关键点。

（2）快速有效的图像分割算法。

（3）如何保证在加快训练速度的同时，识别的精度不会有降低。

3.拟采取的研究方案及可行性分析。

（包括有关方法、技术路线、实验手段、关键技术等说明。

研究方案

在光照、颜色、噪音扰动处理以及随机采样上，我们将采用文献[1,2]提出的方法。

在图像重构方面，文献[1]是采用主成分分析的方式，为了达到更好的图像重构效果，我们将采用文献[3]提出的受限波尔兹曼机的方式来对图像进行重构。

受限玻尔兹曼机是一个单层的随机神经网络，本质上是一个概率图模型。

输入层与隐层之间是全连接，但层内神经元之间没有相互连接。

每个神经元要么激活（值为1），要么不激活（值为0），激活的概率满足sigmoid函数。

受限玻尔兹曼机的优点是给定一层神经元的状态时，另外一层神经元的状态是相互独立的。

这对于做随机采样来说比较方便，可以分别固定一层，采样另一层，交替进行。

将多个受限波尔兹曼机组合在一起，就构成了一个自动编码系统。

如图3所示，在第一个虚线框中，由4个受限波尔兹曼机串联组合成一个自动编码系统，输入是一幅图像，每一个矩形框代表了一个受限波尔兹曼机，矩形框中的数字代表了神经元的个数。

第一个虚线框展示了如何把一幅图像自动编码成30维向量的过程。

第二个虚线框是一个解码过程，是自动编码的一个逆向过程，仍然由自动编码的4个受限波尔兹曼机组成，只是组合顺序上颠倒了过来。

通过这样的一个过程，又把30维的编码向量还原成了一幅图像，从而实现了图像的重构。

我们将在受限波尔兹曼机各个参数上进行变化，从而构建多个图像重构器，从而生成多张重构的图像样本。

图3.利用受限波尔兹曼机来对图片进行重构的过程，图片来源于[3]

为了实现对拍摄角度的模拟，将把我们提出的多摄像机之间的单应性约束方法[15]进行改进，使其适合于目标的拍摄角度变化。

单应性约束的功能是把一个视角中的映射到另一个视角中去。

如图4-3所示，给定世界坐标系中的一点pw=（xw,yw,zw），设其在视角1和视角2中的投影点分别为p1=（x1,y1,1）和p2=（x2,y2,1），单应性约束表示了p1和p2之间的映射关系。

具有说来，我们希望找到一个单应性矩阵H，使得

，也即

H称为由世界坐标系和图像坐标系导出的单应性矩阵。

如图4所示，单应性约束可以看成两步投影的过程：

对于视角1所在的图像坐标系中的一点p1，首先将其投影到世界坐标系中的三维点pw,然后将pw投影到视角2所在的图像坐标系中的一点p2。

单应性矩阵H的计算可以通过DirectLinearTransform（DLT）算法[5]来求解，但需要给定两个视角下的四组匹配

图4.单应性约束。

其功能是把一个视角中的一点映射到另一个视角中去。

点。

也可以通过也即

展开阅读全文