计算机视觉PPT课件:图像分类.pptx

上传人:zf 文档编号:30864389 上传时间:2024-05-31 格式:PPTX 页数:56 大小:2.66MB
下载 相关 举报
计算机视觉PPT课件:图像分类.pptx_第1页
第1页 / 共56页
计算机视觉PPT课件:图像分类.pptx_第2页
第2页 / 共56页
计算机视觉PPT课件:图像分类.pptx_第3页
第3页 / 共56页
计算机视觉PPT课件:图像分类.pptx_第4页
第4页 / 共56页
计算机视觉PPT课件:图像分类.pptx_第5页
第5页 / 共56页
点击查看更多>>
下载资源
资源描述

计算机视觉PPT课件:图像分类.pptx

《计算机视觉PPT课件:图像分类.pptx》由会员分享,可在线阅读,更多相关《计算机视觉PPT课件:图像分类.pptx(56页珍藏版)》请在冰豆网上搜索。

计算机视觉PPT课件:图像分类.pptx

图像分类计算机视觉本章结构2/48ILSVRC竞赛常见的CNNAlexnetVGGGoogLeNet(InceptionV1、V2、V3)ResNet、ResNeXt应用案例:

VGGResNet图片分类判断图片中是否有某个物体一个图对应一个标签性能指标Top1error前1中1Top5error前5中1输输出出:

ScaleT-shirtSteeldrumDrumstickMudturtle输输出出:

ScaleT-shirtGiantpandaDrumstickMudturtle3/48SteeldrumILSVRC竞赛4/48ImageNetLargeScaleVisualRecognitionChallenge多个任务图像分类(ImageClassification)1000个分类训练集(1.2M)、验证集(50K)、测试集(150K)场景分类(SceneClassification)物体检测(ObjectDetection)物体定位(ObjectLocalization)场景解析(Sceneparsing)URLhttp:

/image-net.org/challenges/LSVRC/2017/ILSVRC竞赛5/48ImageNet数据集根据WordNet组织的图片集100,000+个词/词组(synsets)8,000+个名词为一个名词提供平均1000张图片总共14,197,122张图片支持21,841个synsetsURLhttp:

/image-net.org/ILSVRC竞赛6/48ImageNetLargeScaleVisualRecognitionChallenge多个任务图像分类(ImageClassification)场景分类(SceneClassification)来自MIT的Places2数据集(图片10M+、分类400+)365个场景分类训练集(8M)、验证集(36K)、测试集(328K)物体检测(ObjectDetection)物体定位(ObjectLocalization)场景解析(Sceneparsing)卷积神经网络(CNN)ImageNet性能进化7/48CIFAR-10数据集该数据集共有60000张彩色图像,这些图像的分辨率是32*32,分为10个类,每类6000张图。

其中有50000张用于训练,构成了5个训练批,每一批10000张图;另外10000用于测试,单独构成一批。

测试批的数据里,取自10类中的每一类,每一类随机取1000张。

collectedbyAlexKrizhevsky,VinodNair,andGeoffreyHinton.8/48卷积神经网络(CNN)9/48网络进化网络:

AlexNetVGGGoogLeNetResNet深度:

81922152VGG结构简洁有效容易修改,迁移到其他任务中去高层任务的基础网络性能竞争网络GoogLeNet:

Inceptionv1v4Split-transform-mergeResNet:

ResNet1024ResNeXt深度、宽度、基数(cardinality)CNN结构的演化10/48AlexNet网络ImageNet-2012竞赛第一标志着DNN深度学习革命的开始5个卷积层+3个全连接层60M个参数+650K个神经元2个分组2个GPU(3GB)使用两块GTX580GPU训练了56天新技术ReLU非线性激活Maxpooling池化DropoutregularizationAlexNet网络还包括后来不被认可的LRN。

11/48AlexNet网络AlexNet网络卷卷积层积层1卷卷积层积层2卷卷积层积层3卷卷积层积层4卷卷积层积层5全全连连接接1全全连连接接2全全连连接接312/48AlexNet网络x5x48卷积层2:

256x5卷积层3:

384x3卷积层4:

384x3卷积层5:

256x3x3x256ReLU(通道合并,双GPU交互)x3x192MPReLU(通道独立)x3x192ReLU(通道独立)输入层:

224x224x3卷积层1:

96x11x11x3LRNMPReLULRNMPReLU(通道独立)全连接层1:

4096ReLU全连接层2:

4096ReLU全连接层3:

1000ReLUSoftmax层:

1000Loss:

标签概率的log值之和卷积神经网络(CNN)局部响应归一化最大化池化激活函数13/48AlexNet网络14/48局部响应归一化(LRN)LocalResponseNormalization神经元的侧抑制机制某个位置(x,y)上沿通道方向上的归一化n为邻域值,N为通道数超参数:

k=2,n=5,=0.0001,=0.75AlexNet网络提出VGGNet的论文认为此技术既没有用,又浪费开销。

15/48Network-in-Network网络(NiN)提高CNN的局部感知区域的非线性卷积层1x1卷积层Max池化层Network-in-Network网络源自2014年ICLR的一篇论文,Alexnet网络参数大小是230M,采用NiN的算法才29M。

16/4811卷积11卷积,实现的是“同一个像素点上”的各个通道的值得线性组合。

这里的“全连接”指的是卷积前通道数与卷积后通道数之间的。

f(a11x1+a12x2+a1cxc)=y1f(a21x1+a22x2+a2cxc)=y2f(ak1x1+ak2x2+akcxc)=yk11的卷积有两个方面的作用实现跨通道的交互和信息整合进行卷积核通道数的降维和升维11ck17/48whc卷积前卷积后whkVGG网络提出目的是为了探究在大规模图像识别任务中,卷积网络深度对模型精确度有何影响。

一个大卷积核分解成连续多个小卷积核核分解:

7x7核3个3x3核(由ReLU连接)参数数量:

49C227C2减少参数,降低计算,增加深度ImageNet-2014竞赛第二网络改造的首选基础网络VGG网络C:

通道数18/48从左至右每一列代表着深度增加的不同的模型,从上至下代表模型的深度;其中:

conv-其中E(即VGG19)是较为常见的VGG架构;随着层数的增加AE,参数增加的并不是很多VGG网络19/48GoogLeNet出现之前,主流的网络结构突破大致是网络更深(层数),网络更宽(神经元数),但现在看来这纯粹是增大网络的缺点。

GoogLeNet网络ImageNet-2014竞赛第一进化顺序InceptionV1InceptionV2InceptionV3InceptionV4为了提升性能减少参数,降低计算增加宽度、深度GoogLeNet20/48InceptionV1网络核心组件InceptionArchitectureSplit-Merge1x1卷积,3x3卷积,5x5卷积,3x3池化增加网络对多尺度的适应性增加网络宽度BottleneckLayer使用NiN的1x1卷积进行特征降维大幅降低计算量取消全连接参数量大,减负辅助分类器解决前几层的梯度消失问题21/48GoogLeNetInceptionV1网络核心组件InceptionArchitecture(稀疏连接结构)1*1,3*3,5*5的卷积和3*3的pooling组合在一起亮点是从NIN中引入了1*1卷积核InceptionV122/48InceptionV1上图中:

假设前一层的输出为28*28*192,则,a的weights数量为:

1*1*192*64+3*3*192*128+5*5*192*32=387072a的输出featuremap大小为:

28*28*64+28*28*128+28*28*32+28*28*192=28*28*416b的weights数量为:

1*1*192*64+(1*1*192*96+3*3*96*128)+(1*1*192*16+5*5*16*32)+1*1*192*32=163328b的输出featuremap大小为:

28*28*64+28*28*128+28*28*32+28*28*32=28*28*256可以看出1*1conv一方面减少了weights,另一方面降低了dimension。

23/48InceptionV1网络取消全连接层本质上是一个全尺寸的卷积层全连接层占用了大量参数AlexNet:

58.6M(6x6x256x4096+4096x4096+4096x1000)VGG:

72M(7x7x256x4096+4096x4096+4096x1000)由全局平均池化替代(Globalaveragepooling)输入:

7x7x1024输出:

1x1x1024一大趋势24/48InceptionV1全局平均池全局平均池化化全局平均池化就没有size,它针对的是整张featuremap.25/48InceptionV1网络2个辅助分类器深网络中,梯度回传到最初几层,存在严重消失问题有效加速收敛测试阶段不使用GoogLeNet26/48GoogLeNet27/48GoogLeNet28/48InceptionV2网络核心组件BatchNormalization(批归一化)白化:

使每一层的输出都规范化到N(0,1)解决InternalCovariateShift问题允许较高学习率取代部分Dropout5x5卷积核2个3x3卷积核InceptionV2网络29/48InceptionV2网络图片2k通道图片3k通道计算出均值&标准差InceptionV2网络BatchNormalization批归一化在batch范围内,对每个特征通道分别进行归一化所有图片,所有像素点减去均值&除以标准差30/48InceptionV2网络训练阶段实时计算测试阶段使用固定值(对训练求平均)InceptionV2网络每个Batch中k组均值-标准差会被存储无Batch,将所有Batch的k组均值-标准差分别求平均,使用这K组平均31/48InceptionV2网络位置:

卷积BNReLU配对使用scale&shift添加一组逆算子:

scale乘子,bias偏置这组参数需要学习InceptionV2网络32/48InceptionV3网络核心组件非对称卷积:

NxN分解成1xNNx1降低参数数量和计算量在中度大小的featuremap上使用效果才会更好,对于m*m大小的featuremap,建议m在12到20之间。

InceptionV3网络33/48InceptionV3网络InceptionV3优化了InceptionModule的结构,V3有三种不同的结构,如下图。

这些InceptionModule只在网络的后部出现,前部还是普通的卷积层。

8x8的Inception34/4817x17的Inception35x35的InceptionInceptionV3网络高效的降尺寸(Gridsize)避免表达瓶颈降尺寸前增加特征通道2个并行分支卷积分支+池化分支串接分支结果InceptionV3网络无表达瓶表达瓶颈颈计算量很大有表达瓶表达瓶颈颈计算量小35/48InceptionV3网络不增加计算量避免表达瓶颈增强结构(表达力)宽度、深度InceptionV3网络36/48InceptionV3网络取消浅层的辅助分类器完全无用深层辅助分类器只在训练后期有用加上BN和Dropout,主分类器Top1性能提升0.4%正则化作用用在最后一层17x17后InceptionV3网络37/48InceptionV4网络38/48总结一下Inception39/48代替人工确定卷积层中的过滤器类型或者确定是否需要创建卷积层和池化层;不需要人为的决定使用哪个过滤器,是否需要池化层等,由网络自行决定这些参数;即:

预先给网络添加所有可能值,将输出连接起来,让网络自己学习它需要什么样的参数。

Inception网络有个问题:

网络的超参数设定的针对性比较强,当应用在别的数据集上时需要修改许多参数,因此可扩展性一般。

ResNet残差网络Islearningbetternetworksaseasyasstackingmorelayers?

vanishing/explodinggradientsdegradation40/48ResNet残差网络核心组件Skip/shortcutconnectionPlainnet:

可以拟合出任意目标映射H(x)Residualnet可以拟合出任意目标映射F(x),H(x)=F(x)+xF(x)是残差映射,相对于identity来说ResNet残差网络41/48ResNet残差网络其他设计全是3x3卷积核卷积步长2取代池化使用BatchNormalization取消Max池化全连接层Dropout42/48ResNet残差网络ResNet残差网络更深网络:

根据Bootleneck优化残差映射网络原始:

3x3x256x2563x3x256x256优化:

1x1x256x643x3x64x641x1x64x256ResNet残差网络43/48Inception-ResNet网络44/48ResNet残差网络ResNet残差网络45/48ResNeXt网络提出“深”和“宽”之外的第3个维度:

cardinality(基数)采用Split-Transform-Aggregate策略将卷积核按通道分组,形成32个并行分支低维度卷积进行特征变换加法合并同参数规模下,增加结构,提高模型表达力100层ResNeXt=200层ResNetILSVRC-2016竞赛第246/48ResNeXt网络ResNeXt网络还记得AlexNet吗?

ResNeXt实际上就是将groupconvolution引进了ResNet中,以获得更少的参数。

32x4d块结构ResNeXt网络47/48ResNeXt网络打破或deeper,或wider的常规思路,ResNeXt则认为可以引入一个新维度,称之为cardinality。

增加cardinality基数可以不断提高性能ResNeXt网络Cardinality:

thesizeofthesetoftransformations48/48ResNeXt网络32x4d结构参数32个分支每分支4通道BottleneckwidthResNeXt网络49/48典型CNN的参数与效果对比50/48模型模型名名AlexNetVGGGoogLeNetv1ResNet时间2012201420142015层数81922152Top-5错误16.4%7.3%6.7%3.57%DataAugmentation+Inception(NIN)+卷积层数51621151卷积核大小11,5,337,1,3,57,1,3,5全连接层数3311全连接层大小4096,4096,10004096,4096,100010001000Dropout+LocalResponseNormalization+BatchNormalization+CNN设计准则避免信息瓶颈卷积过程中空间尺寸HxW逐渐变小输出通道数C逐渐变多HxWxC要缓慢变小CNN设计准则51/48CNN设计准则通道(卷积核)数量保持在可控范围内输入通道数量C输出通道数量K参数数量操作数量CNN设计准则52/48CNN设计准则感受野要足够大卷积是基于局部图片的操作捕捉大尺寸内容多个小尺寸卷积核vs一个大尺寸卷积核参数少,计算快多个非线性激活CNN设计准则53/48CNN设计准则分组策略降低计算量G组M/G个滤波器vsM个滤波器CNN设计准则通道拆分分组卷积特征合并54/48CNN设计准则低秩分解降低参数&计算量CNN设计准则垂直水平垂直分组NiN空空间间分分解解滤波器库通道分通道分解解55/48准确性vs.执行效率ImageNet分类56/48

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 其它课程

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1