超全深度学习在计算机视觉领域的应用一览.docx

上传人:b****6 文档编号:4845561 上传时间:2022-12-10 格式:DOCX 页数:10 大小:25.89KB
下载 相关 举报
超全深度学习在计算机视觉领域的应用一览.docx_第1页
第1页 / 共10页
超全深度学习在计算机视觉领域的应用一览.docx_第2页
第2页 / 共10页
超全深度学习在计算机视觉领域的应用一览.docx_第3页
第3页 / 共10页
超全深度学习在计算机视觉领域的应用一览.docx_第4页
第4页 / 共10页
超全深度学习在计算机视觉领域的应用一览.docx_第5页
第5页 / 共10页
点击查看更多>>
下载资源
资源描述

超全深度学习在计算机视觉领域的应用一览.docx

《超全深度学习在计算机视觉领域的应用一览.docx》由会员分享,可在线阅读,更多相关《超全深度学习在计算机视觉领域的应用一览.docx(10页珍藏版)》请在冰豆网上搜索。

超全深度学习在计算机视觉领域的应用一览.docx

超全深度学习在计算机视觉领域的应用一览

超全!

深度学习在计算机视觉领域的应用一览

11月30日,2021亚马逊云科技re:

Invent全球大会,即将浩大开启!

2021re:

Invent十周年度十分活动,内容的饕餮盛宴,涵盖产品、行业、社区等专题!

立即预约

|黄浴奇点汽车美研中心首席科学家兼总裁

转载自知乎

简单回首的话2006年度GeoffreyHinton的论文点燃了“这把火〞如今已经有不少人开场泼“冷水〞了主要是AI泡沫太大而且深度学习不是包治百病的药方。

计算机视觉不是深度学习最早看到打破的领域真正让大众大吃一惊的颠覆传统方法的应用领域是语音识别做出来的公司是微软而不是当时如日中天的谷歌。

计算机视觉应用深度学习堪称打破的成功点是2021年度ImageNet比赛采用的模型是CNN而不是Hinton搞的RBM以及DBN之类就是Hinton学生做出来以他命名的AlexNet。

注顺便提一下2020年度的ImageNet冠军是余凯/林元庆指导的NEC以及UIUCTomHuang组的合作团队当时采用的方法是基于sparsecodingSVM。

当然真正一直在研究CNN的专家是YannLeCun小扎后来拉他去FB做AIresearch的头。

第一个CNN模型就是他搞出来的即LeNet原来就是做图像数字识别。

不得不讲CNN非常合适2-D信号的处理任务RNN呢是时域上的拓展。

如今CNN在计算机视觉应用的非常成功传统机器学习方法根本被弃之不用。

其中最大的一个原因就是图像数据的特征设计即特征描绘一直是计算机视觉头痛的问题在深度学习打破之前10多年度最成功的图像特征设计(handcraftedfeature)是SIFT还有著名的Bagofvisualwords一种VQ方法。

后来大众把CNN模型以及SIFT比拟发现构造还蛮像的之后不是也有文章讲RNN以及CRF很像吗。

CNN从AlexNet之后新模型如雨后春笋每半年度就有新发现。

这里随意列出来就是ZFNet(也叫MatNet)VGGNetNINGoogleNet(Inception)HighwayNetworkResNetDenseNetSE-NetSqueezeandExcitationNet根本上都是在ImageNet先知名的。

简单回首一下

AlexNet应该算第一个深度CNN

ZFNet采用DeconvNet以及visualization技术可以监控学习经过

VGGNet采用小滤波器3X3去取代大滤波器5X5以及7X7而降低计算复杂度

GoogleNet推广NIN的思路定义Inception根本模块采用多尺度变换以及不同大小滤波器组合即1X13X35X5构建模型

HighwayNetworks借鉴了RNN里面LSTM的gaiting单元

ResNet是革命性的工作借鉴了HighwayNetworks的skipconnection想法可以训练大深度的模型提升性能计算复杂度变小

Inception-V3/4用1X7以及1X5取代大滤波器5X5以及7X71X1滤波器做之前的特征瓶颈这样卷积操作变成像跨通道crosschannel的相关操作

DenseNet主要通过跨层链接解决vanishinggradient问题

SE-Net是针对特征选择的设计gating机制还是被采用

前段时间流行的Attention机制也是借鉴于LSTM实现object-aware的context模型。

......

在详细应用领域也出现了不少成功的模型比方

detection问题的R-CNNfastRCNNfasterRCNNSSDYOLORetinaNetCornerNet等

解决segmentation问题的FCNDeepLabParsenetSegnetMaskR-CNNRefineNetPSPNetU-Net等

处理激光雷达点云数据的VoxelNetPointNetBirdNetLMNetRT3DPIXORYOLO3D等

实现激光雷达以及图像交融的PointFusionRoarNetPointRCNNAVOD等

做图像处理的DeHazeNetSRCNN(super-resolution)DeepContourDeepEdge等

2.5D视觉的MatchNetDeepFlowFlowNet等

3-D重建的PoseNetVINetPerspectiveTransformerNetSfMNetCNN-SLAMSurfaceNet3D-R2N2MVSNet等

和解决模型压缩精简的MobileNetShuffleNetEffNetSqueezeNet

......

下面我们针对详细应用再仔细聊。

图像/视频处理

先讲图像/视频处理计算机视觉的底层不低级。

图像处理还有视频处理曾经是很多工业产品的根底如今电视手机还有相机/摄像头等等都离不开是技术渐渐成熟了传统方法经历变得比拟重要而且芯片集成度越来越高根本上再去研究的人就少了。

经典的ISPA3都是现成的当然做不好的也很难以及别人竞争本钱都降不下来。

这是一个典型成像处理的流程图

经典的ISP流程图如下

图像处理根本上讲是基于一定假设条件下的信号重建。

这个重建不是我们讲的3-D重建是指恢复信号的原始信息比方去噪声内插。

这本身是一个逆问题所以没有约束或假设条件是无解的比方去噪最常见的假设就是高斯噪声内插实际是恢复高频信号可以假设边缘连续性以及灰度相关性著名的TVtotalvariation等等。

以前最成功的方法根本是信号处理机器学习也有过信号处理的约束条件变成了贝叶斯规那么的先验知识比方sparsecoding/dictionarylearningMRF/CRF之类如今从传统机器学习方法过渡到深度学习也正常吧。

1、去噪/去雾/去模糊/去鬼影

先给出一个encoder-decodernetwork的AR-CNN模型ARArtifactReduction

这是一个图像处理通用型的模型框架

2、增强/超分辨率SR

Bilateralfilter是很有名的图像滤波器这里先给出一个受此启发的CNN模型做图像增强的例子

前面讲过内插的目的是恢复失去的高频信息这里一个做SR的模型就是在学习图像的高频分量

3、修补/恢复/着色

用于修补的基于GAN思想的Encoder-DecoderNetwork模型

用于灰度图像着色8比特的灰度空间扩展到24比特的RGB空间的模型框架

图像预处理

还有计算机视觉的预处理2-D。

计算机视觉需要图像预处理比方特征提取包括特征点边缘以及轮廓之类。

以前做跟踪以及三维重建首先就得提取特征。

特征点以前成功的就是SIFT/SURF/FAST之类如今完全可以通过CNN形成的特征图来定义。

边缘以及轮廓的提取是一个非常tricky的工作细节也许就会被过强的图像线条掩盖纹理texture本身就是一种很弱的边缘分布形式分级hierarchical表示是常用的方法俗称尺度空间scalespace。

以前做挪动端的视觉平台有时候不得不把一些图像处理功能关掉原因是造成了特征畸变。

如今CNN这种天然的特征描绘机制给图像预处理提供了不错的工具它能将图像处理以及视觉预处理合二为一。

1、特征提取

LIFTLearnedInvariantFeatureTransform模型就是在模拟SIFT

2、边缘/轮廓提取

一个轮廓检测的encoder-decodernetwork模型

3、特征匹配

这里给出一个做匹配的模型MatchNet

2.5-D计算机视觉再讲2.5-D计算机视觉局部不是全3-D。

涉及到视差或2-D运动的局部一般称为2.5-D空间。

这个局部以及前面的2-D问题是一样的作为重建任务它也是逆问题需要约束条件求解优化解比方TVGraphCut。

一段时间十分是Marr时代计算机视觉的工作就是解决约束条件下的优化问题。

后来随机概率以及贝叶斯估计大行其事约束条件变成了先验知识prior计算机视觉圈里写文章要是没有P(Probability)以及B(Bayes)都不好意思发。

像SVMBoostingGraphicalModelRandomForestBPBeliefPropagationCRFConditionalRandomFieldMixtureofGaussiansMCMCSparseCoding都曾经是计算机视觉的宠儿如今轮到CNN出彩。

可以讲深度学习是相当“暴力〞的以前分析的什么约束呀先验知识呀在这里统统扔一边只要有图像数据就可以以及传统机器学习方法拼一把。

1、运动/光流估计

传统的方法包括部分法以及全局法这里CNN取代的就是全局法。

这里是一个光流估计的模型

2、视差/深度图估计

深度图估计以及运动估计是类似问题唯一不同的是单目可以估计深度图而运动不行。

这里是一个双目估计深度图的模型

而这个是单目估计深度图的模型巧妙的是这里利用双目数据做深度图估计的非监视学习

另外一个单目深度估计的模型也是利用双目的几何约束做非监视的学习

3、视频去隔行/内插帧

Deinterlacing以及Framerateupconversion视频处理的经典问题当年度Sony以及Samsung这些电视消费商这方面下了很大功夫著名的NXP从Philips公司spin-off当年度有个牛逼的算法在这个模块挣了不少钱。

根本传统方法都是采用运动估计以及补偿的方法俗称MEMC所以我把它归类为2.5-D。

前面运动估计已经用深度学习求解了如今这两个问题自然也是。

首先看一个做MEMC的模型

这是做Deinterlacing的一个模型

这是Nvidia的FramerateUpconversion方面模型

因为它采用opticflow方法做插帧另外附上它的flowestimation模型就是一个沙漏hourglass形式。

4、新视角图像生成

刚刚介绍单目估计深度图的时候其实已经看到采用inversewarping方法做新视角生成的例子在IBR领域这里有一个分支叫DepthImage-basedRenderingDIBR。

以及上个问题类似采用深度图学习做合成图像也属于2.5-D空间。

在电视领域曾经在3-D电视界采用这种方法自动从单镜头视频生成立体镜头节目。

以前也用过机器学习YouTube当年度采用imagesearch方法做深度图预测提供2D-3D的内容效劳但性能不好。

如今感觉大众好似不太热衷这个了。

这是一个产生新视角的模型

而这个是从单镜头视频生成立体视频的模型

有做编码/解码的也是采用运动或相似变换为根底但性能不如传统方法这里忽略。

3-D计算机视觉下面谈谈3-D基于多视角MVS/运动SFM的重建后者也叫SLAM。

这局部就是经典的计算机视觉问题3-D重建。

根本上可以分成两种途径一是多视角重建二是运动重建。

前一个有一个经典的方法MVSmultipleviewstereo就是多帧匹配是双目匹配的推广这样采用CNN来解决也合理。

当年度CMU在Superbowl展示的三维重建以及视角转化轰动一时就是基于此途径但最终没有被产品化技术已经转让了。

后一个在机器人领域成为SLAM有滤波法以及关键帧法两种后者精度高在稀疏特征点的根底上可以采用BABundleAdjustment著名的方法如PTAMORB-SLAM1/2LSD-SLAMKinectFusionRGB-DLOAM以及VelodyneSLAMLiDAR等。

如今SLAM已经成为AR产业的瓶颈看看MagicLeap以及HoloLens大众不能总是在平面检测根底上安一个虚拟物体吧真正的虚实结合是在一个普通的真实环境里才行。

想想像特征点匹配帧间运动估计LoopClosure检测这些模块都可以采用CNN模型解决那么SLAM/SFM/VO就进入CNN的探究区域。

1、标定

Calibration是计算机视觉的经典问题摄像头作为传感器的视觉系统首要任务就是要确定自己观测数据以及3-D世界坐标系的关系即标定。

摄像头标定要确定两局部参数一是内参数二是外参数。

对于有多个传感器的视觉系统比方深度测距仪以前有KinectRGB-D如今有Velodyne激光雷达它们互相之间的坐标系关系是标定的任务。

外参数标定的完成帮助是校准数据比方激光雷达的点云RGB-D的深度图还有摄像头的图像像素集它们一定存在一个最正确匹配标准这就可以通过数据训练NN模型来完成。

而标定参数就是NN模型回归输出的结果。

这里是一个激光雷达以及摄像头标定的系统框图

它的模型CalibNet构造视图

2、VisualOdometryVO

VO属于SLAM的一局部只是估计自身运动以及姿态变化吧。

VO是特斯拉的前Autopilot2.0负责人DavidNister创立的他之前以两帧图像计算EssentialMatrix的“5点算法〞而知名如今是Nvidia的自动驾驶负责人公司VP。

这里是一个以及惯导数据结合的VIOVisual-InertialOdometryNN模型

这是著名的AR创业公司MagicLeap提出的VO模型两局部组成即特征提取以及匹配Homography。

顺便加一个激光雷达数据做Odometry的CNN模型

3、SLAM(Mono,Stereo,RGB-D,LiDAR)/SFM

运动恢复构造是基于背景不动的前提计算机视觉的同行喜欢SFM这个术语而机器人的peers称之为SLAM。

SLAM比拟看重工程化的解决方案SFM理论上奉献大。

先看一个单摄像头的SFM系统框图

它的NN模型SFM-Net包括Motion以及Structure两局部

再附上一个SLAM的模型CNN-SLAM主要是加上一个单目深度图估计的CNN模块。

这是一个用CNN的基于Lidar的localization方法不仅需要点云数据还输入反射值灰度图。

图像像素运动是opticflow而3-D场景的运动称之为sceneflow假如有激光雷达的点云数据后者的估计可以通过ICP实现这里给出一个CNN模型的实现方法FlowNet3D是PointNet的扩展

4、MVS

MVS的传统方法可以分成两种regiongrowing以及depth-fusion前者有著名的PMVS后者有KinectFusionCNN模型求解MVS的方法就是基于此。

先看看一个做MVS任务的基于RNN中LSTM的3D-R2N2模型

它的系统框图如下

UIUC/Facebook合作的DeepMVS模型

这是他们的系统框图

如今看到的是Berkeley分校Malik组提出的LSMLearntStereoMachine模型

下面是最近香港权龙教授组提出的MVSNet模型

环境理解

核心局部是计算机视觉的高层。

这局部是深度学习在计算机视觉最先触及并展示强大实力的局部。

出色的工作过多是大众关注以及追捧的而且有不少分析以及总结文章所以这里不会重复太多只简单回首一下。

1、语义分割/实例分割Semantic/InstanceSegmentation

语义分割最早成功应用CNN的模型应该是FCNFullyConvolutionNetwork由Berkeley分校的研究人员提出。

它是一种pixel2pixel的学习方法之后各种演变模型如今都可以把它们归类于Encoder-DecoderNetwork。

这里是去年度CVPR的一片论文在总结自动驾驶的实时语义分割算法时给出的框图。

其中Encoder局部十分采用了MobileNet以及ShuffleNet。

实例分割是特殊的语义分割结合了目的检测可以讲是带有明确轮廓的目的检测其代表作就是MaskR-CNN应该是何凯明去FB之后的第一个杰作。

这是一个借鉴目的检测算法SSD的实例分割模型。

而下面这个是从目的检测算法Faster-RCNN演变的实例分割模型MaskLab论文发表在去年度CVPR‘18。

这是它修正Mask的方法示意图

这是一个基于3-D点云的语义分割NN模型

2、检测/识别(十分例子人脸)

目的检测的开拓性工作应该是Berkeley分校Malik组出来的即两步法的R-CNNRegion-basedCNN借用了传统方法中的RegionProposal。

之后不断改良的有fastRCNN以及fasterRCNN每次都有新点子真是“群星闪耀〞的感觉。

一步法的工作有名的就是SSDSingleShotDetection以及YOLOYouOnlyLookOnce)期间何凯明针对one-stage以及two-stage方法的各自优缺点引进一个FocalLoss构建的新方法叫RetinaNet而后来YOLO3根本也解决了精度低的弱点。

这里我画了一个算法开展草图其实还有一些方法没有包括在里面比方denseboxdeepboxR-FCNFPN等等。

ImageNet本身就是一个1000多种物体识别比赛一般公布的是top5的结果可见最早精度有多低。

CNN在ImageNet的开展史就是它在图像识别的一段近5年度的历史了。

激光雷达点云数据的处理无论识别还是分割有PointNet和改良的CNN模型。

基于点云做目的识别的例子有Apple公司研究人员发表的VoxelNet模型

将点云以及RGB图像结合的目的检测CNN模型例子如下

这里顺便提一下人脸识别因为是对人脸的个体属性判别所以这个课题应该算finegrainedrecognition。

就好似对狗或马这种动物继续判别它的品种都是细分的。

请注意人脸识别分人脸验证faceverification以及人脸确认faceidentification前者是指两个人是不是同一个人1-to-1mapping而后者是确定一个人是一群人中的某个1-to-manyampping。

以前经常有报道机器的人脸识别比人强了都是指前者假设后者的话那谁能像机器一样识别上万人的人脸数据库呢何况中国公安部的数据高达亿的数量级。

一个完好的人脸识别系统需要完成人脸检测以及人脸校准facealignment而后者是需要人脸关键点faciallandmarks的检测也是可以基于CNN模型来做。

这里以FB的DeepFace模型为例吧给出一个人脸识别的系统框图

这是不久前刚刚提出的人脸检测模型SelectiveRefinementNetwork

而这里给出一个基于faciallandmarks做校准的模型

顺便提一下旷世科技的PyramidCNN模型以及商汤科技的DeepID2模型一共发布过4个DeepID版本依次如图。

3、跟踪十分例子人体姿态/骨架

目的跟踪是一个递推估计问题根据以前的图像帧目的的信息推算当前目的的位置甚至大小/姿态。

有一阵子跟踪以及检测变得浑为一体即所谓trackingbydetection跟踪可以以看出一个目的分割前后景而言/识别问题。

跟踪是短时shortterm邻域的检测而一般的检测是长时longterm大范围的检测。

跟踪的困难在于目的的遮挡分局部还是全部背景复杂相似目的存在快速fast和突变agile运动等等。

比方跟踪人脸当转90度成侧脸时就会有以上这些问题。

跟踪方法有一个需要区分的点多目的MOT还是单目的SOT跟踪器。

单目的不会考虑目的之间的干扰以及耦合而多目的跟踪会考虑目的的出现消失和互相交互以及制约保证跟踪各个目的的唯一性是算法设计的前提。

跟踪目的是多样的一般是考虑刚体还是柔体是考虑单刚体还是铰接式articulated比方人体或手指运动需要确定skeleton模型。

跟踪可以是基于图像的或激光雷达点云的前者还要考虑目的在图像中大小的变化姿态的变化难度更大。

基于以上特点跟踪可以用CNN或RNN模型求解跟踪目的的描绘本身就是NN模型的优势检测也罢分割或识别也罢都不是问题。

运动特性的描绘可以以借鉴RNN模型不过目前看到的结果这局部不比传统方法好多少。

先看一个单目的跟踪的CNN模型。

这个展示的模型是一个基于R-CNN检测模型扩展的单目的跟踪方法

多目的跟踪模型有这么一个例子

下面是一个基于RNN的多目的跟踪模型

补充一个基于RGB图像以及3-D点云的目的跟踪NN模型

顺便谈一下人体姿态以及骨架跟踪问题。

以前传统方法在人体姿态估计花了很大力气但效果不好提出了part-based目的模型比方constellationmodel,pictorialstructure,implicitshapemodel,deformablemodel等等。

最近CMU提出一个方法基于PartAffinityFieldsPAF来估计人体姿态以及骨架速度非常快。

PAF是一个非参数描绘模型用来将图像像素以及人体各肢体相关起来看它的架构如图采用的是twobranchCNN构造结合学习各肢体的相关性以及位置。

下面这个是其中双部图形匹配(Bipartiematching)算法的示意图。

这种多目的快速姿态跟踪的实现对人体行为的理解是非常重要的工具。

四大领域应用

最后讲一下计算机视觉的推动领域。

这里我选了4个计算机视觉的应用谈谈深度学习对这些领域的推动在CNN或RNN“火〞之前这些应用已经存在但在识别分类任务上性能有限罢了。

自动驾驶的应用在另外文章已经提过了在此忽略。

1、内容检索

CBIRContent-basedImageRetrieval有两波人搞一波是计算机科学的把这个问题当数据库对待另一波人是电子经过的认为是图像匹配问题。

刚开场大众也是对这个问题的semanticgap比拟头疼用了一些feature比方颜色纹理轮廓甚至layout效果真不咋样。

后来有了SIFT用了InformationRetrieval的概念BagofWords加上invertedIndexingTF-IDFtermfrequency–inversedocumentfrequencyhashing之类的技术变得好多了每年度ACMMM会议上一堆的paper。

深度学习进来主要就是扮演特征描绘的角色。

这是一个CBIR采用CNN的框架

这个展示的是imagematching用于CBIR的CNN模型

2、增强现实

AR一开场就不好做不讲VR那局部的问题主要是实时性要求高无论识别还是运动/姿态估计精度都不好。

如今计算机硬件开展了计算速度进步了加上深度学习让识别变得落地容易了最近越来越热无论是姿态估计还是特征匹配定位都变得容易些了。

祈望这次能真正对社会带来冲击把那些AR的梦想都实现。

这个框架是GoogleGlass的AR应用平台其中几个模块都可以基于CNN实现

下面给出的是cameramotion的encoder-decodernetwork框架三个模型串联其中一个有迭代。

下面的模型展示了特征提取以及描绘的作用AR中直接可以用做re-localization。

3、内容加注/描绘

Captioning是计算机视觉以及NLP的结合。

你可以把它当成一个“检索〞任务可以以讲是一个“翻译〞工作。

深度学习就是来帮助建立一个语言模型并取样产生描绘。

4、内容问答QA

QA也是计算机视觉以及NLP的结合其本质是在图像描绘以及语言描绘之间建立一个桥梁。

有人讲QA是一个TuringTest的好问题这里深度学习就是在帮助理解图像的描绘问题的组成和它们形式之间的交互。

有些CNN的应用还是需要进一步改良模型性能并没有到达满意。

不过大众快乐地看到深度学习已经进来了以后随着研究的深化性能会越来越好。

原文链接

s:

//zhuanlan.zhihu/p/55747295

(*本文为AI科技大本营转载文章转载请联络原)

精彩推荐

“只讲技术回绝空谈〞2019AI开发者大会将于9月6日-7日在北京举行这一届AI开发者大会有哪些亮点一线公司的大牛们都在关注什么AI行业的风向是什么2019AI开发者大会倾听大牛共享聚焦技术理论以及万千开发者共成长。

大会早鸟票已售罄优惠票速抢进展中......

推荐浏览

懂得“作恶〞

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 高考

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1