计算机视觉发展报告.docx
《计算机视觉发展报告.docx》由会员分享,可在线阅读,更多相关《计算机视觉发展报告.docx(25页珍藏版)》请在冰豆网上搜索。
计算机视觉发展报告
计算机视觉发展报告
ReportofComputerVisionDevelopment
1.计算机视觉
1.1.计算机视觉概念
计算机视觉(computervision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学[3]。
即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。
确切地说,计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。
总之,计算机视觉系统就是创建了能够在
2D的平面图像或者3D的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。
计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。
由于计算机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数据信息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集成。
计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括:
物体识别和检测(ObjectDetection),语义分割(SemanticSegmentation),运动和跟踪(Motion&Tracking),视觉问答(VisualQuestion&Answering)等[4]。
●物体识别和检测
物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net,GoogLeNet,
ResNet等等,每年在imagenet数据集上面都不断有新的算法涌现,一次次突破历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点,并被改进应用到计算机视觉中的其它应用中去。
物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。
当然也就衍生出了诸如人脸检测(FaceDetection),车辆检测(ViechleDetection)等细分类的检测算法。
●语义分割
语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出来。
很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一个像素都有属于自己的类别。
●运动和跟踪
跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高,不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速度又十分之慢,因此在实际应用中也很难派上用场。
学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到被跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。
但实际上跟踪是一个不适定问题(illposedproblem),比如跟踪一辆车,如果从车的尾部开始跟踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了180度变成了侧面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型大多基于第一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本过少,所以难以得到一个良好的跟踪模型,在被跟踪物体的表观发生巨大变化时,就难以适应了。
所以,就目前而言,跟踪算不上是计算机视觉内特别热门的一个研究方向,很多算法都改进自检测或识别算法。
●视觉问答
视觉问答也简称VQA(VisualQuestionAnswering),是近年来非常热门的一个方向,其研究目的旨在根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答。
除了问答以外,还有一种算法被称为标题生成算法(Caption
Generation),即计算机根据图像自动生成一段描述该图像的文本,而不进行问答。
对于这类跨越两种数据形态(如文本和图像)的算法,有时候也可以称之为多模态,或跨模态问题。
1.2.计算机视觉发展历史
尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应该说,1982年马尔(DavidMarr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。
计算机视觉的研究内容,大体可以分为物体视觉(objectvision)和空间视觉(spatialvision)二大部分。
物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。
正像著名的认知心理学家J.J.Gibson所言,视觉的主要功能在于“适应外界环境,控制自身运动”。
适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。
计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。
即:
马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。
下面将对这三项主要内容进行简要介绍[5]。
●马尔计算视觉(ComputationalVision)
现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。
目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。
事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。
马尔的计算视觉分为三个层次:
计算理论、表达和算法以及算法实现。
由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。
马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。
从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算(Neuromorphologicalcomputing),但总体上说,“数值计算”可以“模拟神经计算”。
至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。
●多视几何与分层三维重建
上世纪90年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于以下二方面的因素:
首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。
另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。
多视几何的代表性人物首数法国INRIA的O.Faugeras,美国GE研究院的
R.Hartely和英国牛津大学的A.Zisserman。
应该说,多视几何的理论于2000年已基本完善。
2000年Hartley和Zisserman合著的书(Hartley&Zisserman2000)对这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高
“大数据下鲁棒性重建的计算效率”。
大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。
所以,如何在保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。
举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。
假如获取了1万幅地面高分辨率图像(4000×3000),5千幅高分辨率无人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。
这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。
在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。
所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。
●基于学习的视觉
基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。
基于学习的视觉研究,文献中大体上分为二个阶段:
本世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。
物体表达是物体识别的核心问题,给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。
另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。
流形学习理论认为,一种图像物体存在其“内在流形”
(intrinsicmanifold),这种内在流形是该物体的一种优质表达。
所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。
深度学习的成功,主要得益于数据积累和计算能力的提高。
深度网络的概念上世纪80年代就已提出来了,只是因为当时发现“深度网络”性能还不如“浅层网络”,所以没有得到大的发展。
目前似乎有点计算机视觉就是深度学习的应用之势,这可以从计算机视觉的三大国际会议:
国际计算机视觉会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议
(CVPR)上近年来发表的论文可见一般。
目前的基本状况是,人们都在利用深度学习来“取代”计算机视觉中的传统方法。
“研究人员”成了“调程序的机器”,这实在是一种不正常的“群众式运动”。
牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。
1.3.人才概况
●全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:
图3-1计算机视觉领域全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。
从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚
洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,计算机视觉中男性学者占比91.0%,女性学者占比9.0%,男性学者占比远高于女性学者。
计算机视觉学者的h-index分布如下图所示,大部分学者的h-index分布在中间区域,其中h-index在20-30区间的人数最多,有706人,占比34.7%,小于20的区间人数最少,有81人。
800
700
600
500
400
300
200
100
0
>6050-6040-5030-4020-30<20
h-index
图3-2计算机视觉领域学者h-index分布
●中国人才分布
图3-3计算机视觉领域中国学者分布
我国专家学者在计算机视觉领域的分布如下图所示。
通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。
同时,通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比,中国在计算机视觉领域学者数量相对较多。
中国与其他国家在计算机视觉的合作情况可以根据AMiner数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。
表3-1计算机视觉领域中国与各国合作论文情况
合作国家
论文数
引用数
平均引用数
学者数
中国-美国
1034
88585
86
1459
中国-新加坡
210
20194
96
283
中国-澳大利亚
110
6815
62
147
中国-英国
101
7769
77
148
中国-加拿大
70
7070
101
109
中国-日本
36
2093
58
69
中国-巴基斯坦
26
1933
74
35
中国-瑞士
25
2071
83
46
中国-德国
23
655
28
42
中国-韩国
22
1325
60
51
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在计算机视觉领域合作之密切;同时,中国与世界各地区之间的合作非常广泛,前10名合作关系里包含了欧洲、亚洲、北美洲以及大洋洲等;中国与加拿大合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中加合作达到了较高的水平。
1.4.论文解读
本节对本领域的高水平学术会议论文进行挖掘,解读这些会议在2018-2019
年的部分代表性工作。
会议具体包括:
IEEEConferenceonComputerVisionandPatternRecognition
IEEEInternationalConferenceonComputerVisionEuropeanConferenceonComputerVision
我们对本领域论文的关键词进行分析,统计出词频Top20的关键词,生成本领域研究热点的词云图。
其中,计算机视觉(computervision)、图像(images)、视频(videos)是本领域中最热的关键词。
论文题目:
Encoder-DecoderwithAtrousSeparableConvolutionforSemanticImageSegmentation
中文题目:
具有空洞分离卷积的编码-解码器用于语义图像分割
论文作者:
Liang-ChiehChen,YukunZhu,GeorgePapandreou,FlorianSchroff,HartwigAdam
论文出处:
ProceedingsoftheEuropeanconferenceoncomputervision(ECCV).2018:
801-818.
论文地址:
研究问题:
语义分割是计算机视觉中一项基本且重要的研究内容,它是为图像中的每个像素分配语义标签。
在深度学习语义分割任务中经常会使用空间金字塔池化和编码-解码器结构。
空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。
这可以通过空洞卷积提取更密集的特征图来缓解,但大大增加了计算资
源的消耗。
而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。
通过组合两种方法的优点,提出新的模型—DeepLabv3+。
研究方法:
如下图是DeepLabv3+的网络结构,通过添加一个简单但有效的解码器模块来优化分割结果,尤其是对象边界的分割结果,扩展了DeepLabv3。
编码器模块
(DeepLabv3)通过在多个尺度上应用空洞卷积,编码多尺度上下文信息。
空洞卷积可以明确控制由深度卷积神经网络所提特征的分辨率,并调整滤波器的感受野以捕获多尺度信息。
而简单而有效的解码器模块则沿对象边界调整分割结果。
为了进一步提高模型的性能和速度,将深度分离卷积应用于ASPP(空洞空间金字塔池化)和解码器模块。
深度分离卷积将传统的卷积分解为一个深度卷积和一个1×1的逐点卷积,在深度卷积操作时应用膨胀率不同的空洞卷积,以获取不同的尺度信息。
研究结果:
以用ImageNet-1k预训练的ResNet-101和修改的对齐Xception(更多的层、步进深度分离卷积替代最大池化、额外的BN和ReLU)为骨架网络,通过空洞卷积提取稠密特征。
在PASCALVOC2012和Cityscapes数据集上证明了
DeepLabv3+的有效性和先进性,无需任何后处理即可实现89%和82.1%的测试集性能。
但是对非常相近的物体(例如椅子和沙发)、严重遮挡的物体和视野极小的物体较难进行分割。
论文题目:
MobileNetV2:
InvertedResidualsandLinearBottlenecks
中文题目:
MobileNetV2:
反向残差和线性瓶颈
论文作者:
SandlerMark,HowardAndrew,ZhuMenglong,ZhmoginovAndrey,ChenLiang-Chieh
论文出处:
2018IEEE/CVFConferenceonComputerVisionandPatternRecognition,
CVPR2018
论文地址:
https:
//ieeexplore.ieee.org/document/8578572研究问题:
在众多计算机视觉领域中,深度神经网络正扮演越来越重要的角色。
但是优秀性能的获得通常是以高昂计算资源为代价的,从而大大限制了在计算资源严重受限的移动端或嵌入式设备中使用。
因此轻量化网络的研究在近期收到了大量关注,本文提出了一种新的移动端轻量化模型—MobileNetV2,在保持相同精度的同时显着减少了所需的操作和内存需求,关键是设计了具有线性瓶颈的反向残差模块。
将上述模型应用于移动端目标检测,介绍了一种有效的方法—SSDLite。
此外,通过简化的DeepLabv3构建移动端语义分割模型—MobileDeepLabv3。
研究方法:
MobileNetV2的关键是具有线性瓶颈的反向残差模块,该模块以低维压缩表示作为输入,首先将其扩张到高维,然后使用轻量级的深度卷积进行过滤,最后使用线性卷积将特征投影回低维表示。
其包含两个主要的技术:
深度分离卷积和残差模块。
深度分离卷积是很多有效的神经网络结构中关键的组成部分,其基本思想是将传统卷积分解为两部分:
第一层称为深度卷积,它通过对每个输入通道应用单个卷积滤波器来执行轻量化滤波;第二层是1×1卷积,称为逐点卷积,它通过计算输入通道的线性组合来构建新特征。
深度分离卷积的计算量相对于传统卷积减少了大约k2(k是卷积核大小),但是性能只有极小的降低。
我们可以认为深度神经网络中任意层的激活组成一个“感兴趣流形”,它可以嵌入到低维子空间中。
也就是说,深度卷积层中所有单个通道的像素,其中编
码的信息实际上位于某种流形中,而该流形可以嵌入到低维子空间中。
通过分析作者得到两个属性:
(1)如果感兴趣流形在ReLU变换后仍保持非零值,则对应于线性变换;
(2)ReLU能够保留输入流形的完整信息,但前提是输入流形位于输入空间的一个低维子空间中。
基于以上两个观点,帮助作者优化现有的神经网络结构:
假设感兴趣流形是低维的,可以通过向卷积块插入线性瓶颈获得该流形,即本文核心具有线性瓶颈的反向残差模块,其结构如下图所示。
先使用逐点卷积扩大通道数+ReLU激活,然后使用逐深度卷积提取特征+ReLU激活,最后使用逐点卷积降低通道数+线性激活,并且使用了shortcut连接。
研究结果:
研究者首先通过实验验证了反向残差连接和线性瓶颈的有效性,然后在图像分类、目标检测和语义分割三个任务上证明了本文网络结构的先进性。
ImageNet图像分类任务上MobileNetV2的Top1最好可达74.7,优于MobileNetV1、ShuffleNet和NASNet-A。
在目标检测任务上,MNetV2+SSDLite与
MNetV1+SSDLite的mAP很接近,但参数量和计算时间都明显减少。
在语义分割任务上保持较好性能的同时减少了参数量和计算资源的消耗。
论文题目:
TheUnreasonableEffectivenessofDeepFeaturesasaPerceptualMetric
中文题目:
深度特征作为感知度量的有效性
论文作者:
ZhangRichard,IsolaPhillip,EfrosAlexeiA.,ShechtmanEli,WangOliver
论文出处:
2018IEEE/CVFConferenceonComputerVisionandPatternRecognition,
CVPR2018
论文地址:
https:
//ieeexplore.ieee.org/document/8578166
研究方法:
对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的,但其潜在过程却被认为是相当复杂的。
视觉模式是高维且高度相关的,视觉相似性的概念十分主观。
例如在图像压缩领域,压缩图像是为了人类看来与原始图像没有很大区别,而不关注它们在像素值上可能有很大的差别。
当今最广泛使用的、传统的基于像素值的度量方法(例如L2欧式距离、PSNR)或感知距离度量(如
SSIM、MSSIM等)是简单的浅层函数,无法解决人类感知的许多细微差别,一个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2范数上却差别不大。
如下图所示,传统的评价指标与人类的感知判断是完全相反的。
近期深度学习社区发现,将在ImageNet分类中训练的VGG网络模型所提取的深度特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失”
(perceptuallosses)。
但是这些感知损失的作用有多大?
哪些要素对其成功至关重要?
本文研究者们尝试探讨了这些问题。
研究方法:
为了研究将深度神经网络提取的深度特征作为感知损失的有效性,本文研究者们构造了一个人类感知相似性判断的新数据集——Berkeley-AdobePerceptualPatchSimilarityDataset(BAPPS数据集)。
该数据集包括484K个人类判断,具有大量传统失真,如对比度、饱和度和噪声等;还有基于CNN模型的失真,例如自编码、降噪等造成的失真;以及一些真实算法的失真,如超分辨率重建、去模糊等真实应用。
论文用如下公式计算在给到一个网络F时,参考和失真图像块的距离。
首先提取特征,然后将通道维度的激活归一化,用向量w缩放每个通道,并采用2距离。
最后对空间维度的所有层取平均。
d(x,x)=∑1∑w
0
(yˆl
-yˆl)2
lHlWlh,w
lhw
0hw2
研究结果:
作者进行了大量的实验,系统地评估了不同网络结构和任务中的深度特征,并将它们与经典指标进行比较,发现深度特征是一种非常好的感知度量指标。
更令人惊讶的是,该结果不仅限于ImageNet训练的VGG提取的深度特征,而且还适用于不同的深度网络结构和不同的训练方式(监督,自监督,甚至无监督)。
论文题目:
ResidualDenseNetworkforImageSuper-Resolution
中文题目:
基于残差密集网络的图像超分辨率重建
论文作者:
YulunZhang,YapengTian,YuKong,BinengZhong,YunFu
论文出处:
2018IEEE/CVFConferenceonComputerVisionandPatte