深度学习与图像处理实战完整全套教学课件..pptx

资源描述

深度学习与图像处理实战完整全套教学课件..pptx

《深度学习与图像处理实战完整全套教学课件..pptx》由会员分享，可在线阅读，更多相关《深度学习与图像处理实战完整全套教学课件..pptx（357页珍藏版）》请在冰豆网上搜索。

深度学习与图像处理实战完整全套教学课件..pptx

第1章深度学习基础,深度学习与图像处理实战,全套PPT课件,知识要点,1.1深度学习的定义,深度学习的特点深度学习的历史深度学习的起源深度学习的发展深度学习的爆发深度神经网络概述VGGNet,GoogLeNetResNetFCN,1.4.6MaskR-CNN,1.4.7YOLO深度学习的应用图像领域声音领域文本领域深度学习的未来趋势,目录,1.1深度学习的定义,深度学习是通过组合低层特征形成更加抽象的高层表示属性类别或特征，从大量的输入数据中学习有效特征表示，以发现数据的分布式特征表示，并把这些特征用于回归、分类和信息检索的一种技术。

B,深度学习的思想就是反复堆叠多个神经网络的隐藏层，即以上一层的输出作为下一层的输入，通过这种方式，对输入信息进行分级表达。

C,深度学习是机器学习的一个分支，是一种基于数据进行表征学习的算法，是一种模仿生物的神经网络并能够自适应学习的算法。

A,1.2深度学习的特点,与传统的相比,条件的制约,学习能力：

传统机器学习的特征是根据人为设定的规则进行提取，学习到的特征比较有限，深度学习的深度神经网络可以提取传统机器学习无法提取的特征。

适应性：

传统机器学习的稳定性也是无法和深度学习相比较的，同样完成一个图像识别任务，传统机器学习受背景和光照等条件影响，识别出错的可能性很高，而深度学习的识别结果并没有因为这些因素产生较大的误差波动。

深度学习的计算量非常大对高性能硬件的依赖性较强深度学习的模型复杂度很高,1.3深度学习的历史,1.3.1深度学习的起源,1958年罗森布拉特正式提出了由两层神经元组成的神经网络，将其称为“感知机”。

感知机本质上是一种线性模型，可以对输入的训练集数据进行二分类，且能够在训练集中自动更新权值。

1969年，马文明斯基（MarvinMinsky）和西蒙派珀特（SeymourPapert）在他们合著的感知机中证明了单层感知机无法解决线性不可分问题，由于这个致命的缺陷，神经网络的发展陷入停滞。

1.3深度学习的历史,1.3.2深度学习的发展1986年，杰弗里辛顿（GeoffreyHinton）提出了一种适用于多层感知机的反向传播算法BP算法。

解决了非线性分类问题。

但是，BP算法会出现“梯度消失”的问题，让神经网络算法的发展受到限制。

1989年，罗伯特赫克特尼尔森（RobertHechtNielsen）证明了多层感知机的万能逼近定理。

1989年以后，由于神经网络算法一直缺少相关的数学理论，神经网络的发展再次进入瓶颈期。

1.3深度学习的历史,1.3.3深度学习的爆发,2006年,2010年,2012年,2014年,2016年,2017年,杰弗里辛顿、杨立昆（YannLeCun）、约书亚本吉奥（YoshuaBengio）发表了“深度置信网络的快速学习方法”（AFastLearningAlgorithmforDeepBeliefNets），给出了“梯度消失”的解决方法.,美国斯坦福大学教授李飞飞创建了ImageNet数据库，并把ImageNet开源;ImageNet每年都会举办一次视觉识别挑战赛ImageNet大规模视觉识别挑战赛（ImageNetLargeScaleVisualRecognitionChallenge，ILSVRC）,ILSVRC中，杰弗里辛顿领导的小组采用深度学习模型AlexNet一举夺冠。

更准确的深度神经网络和更深的深度神经网络不断出现。

Facebook公司基于深度学习技术的DeepFace项目，在人脸识别方面的准确率已经能达到97%以上，与人类识别的准确率几乎没有差别。

随着Google公司基于深度学习开发的AlphaGo以41的比分战胜国际围棋棋手李世石，深度学习一时达到前所未有的热度。

基于强化学习算法的AlphaGo升级版AlphaGoZero横空出世,，以1000的比分轻而易举地打败了之前的AlphaGo.,1.4深度神经网络概述,1.4.1VGGNet,VGGNet是由英国牛津大学计算机视觉组和DeepMind团队研究员一起研发的深度卷积神经网络。

它探索了卷积神经网络的深度和其性能之间的关系，通过反复地堆叠33的小型卷积核和22的最大池化层，成功地构建了1619层的卷积神经网络。

VGGNet获得了2014年ILSVRC的亚军和定位项目的冠军，在ILSVRC公开数据集上的错误率为7.5%。

到目前为止，VGGNet依然被用来提取图像的特征。

1.4深度神经网络概述,1.4.2GoogLeNet,GoogLeNet是Google团队为了参加2014年的ILSVRC而精心准备的，是2014年ILSVRC的冠军。

VGGNet继承了AlexNet的一些框架结构，而GoogLeNet则做了更加大胆的网络结构尝试，虽然其深度只有22层，但大小却比AlexNet和VGGNet小很多。

GoogLeNet参数为500万个，AlexNet参数数量约是GoogLeNet的12倍，VGGNet参数数量又约是AlexNet的3倍，因此在内存或计算资源有限时，GoogLeNet是比较好的选择。

从模型结果来看，GoogLeNet的性能更加优越。

1.4深度神经网络概述,1.4.3ResNet,残差神经网络（ResidualNeuralNetwork，ResNet）由微软研究院的何恺明（KaimingHe）等4人提出，通过使用ResNetUnit成功训练出了152层的神经网络，并在2015年的ILSVRC中取得冠军，在ILSVRC公开数据集上的错误率为3.57%，同时参数数量比VGGNet少，效果非常突出。

ResNet的结构可以加速神经网络的训练，模型的准确率也有比较大的提升。

同时，ResNet的推广性非常好，甚至可以直接用到GoogLeNet中。

1.4深度神经网络概述,1.4.4FCN,乔纳森朗（JonathanLong）在2015年发表了一篇论文“用于语义分割的全卷积网络”（FullyConvolutionalNetworksforSemanticSegmentation），被称为语义分割（SemanticSegmentation）的“开山之作”，获得了2015年计算机视觉与模式识别（ComputerVisionandPatternRecognition，CVPR）期刊的最佳论文奖提名，论文中的深度神经网络全卷积网络（FullyConvolutionalNetwork，FCN）可用于像素级的分割和预测。

1.4深度神经网络概述,1.4.5U-Net,U-Net是一个用于二维图像分割的卷积神经网络，分别赢得了2015年的IEEE国际生物医学成像（InternationalSymposiumonBiomedicalImaging，ISBI）研讨会细胞追踪挑战赛和龋齿检测挑战赛的冠军。

U-Net也是一种FCN，在医学上使用非常广泛。

它是一个全卷积神经网络，输入和输出都是图像，没有全连接层，较浅的高分辨率层用来解决像素定位的问题，较深的层用来解决像素分类的问题。

1.4深度神经网络概述,1.4.6MaskR-CNN,2017年，何恺明提出了MaskR-CNN，用于图像的语义分割，该网络建立在目标定位网络FasterR-CNN的基础上，在现有的边界框识别分支基础上添加一个并行的预测目标掩码的分支，能做到像素级分割，并在当年COCO数据集所有的挑战赛中获得了最优结果，包括实例分割、边界框目标检测和人体关键点检测。

1.4.7YOLO,YOLO代表的是一系列算法，是基于深度神经网络的对象识别和定位的算法，其最大的特点是运行速度很快，可以用于实时系统。

1.5深度学习的应用,1.5.1图像领域,图像分类图像分类是计算机视觉中重要的基础问题，后面提到的其他应用也是以它为基础的。

01OPTION,目标检测目标检测任务的目标是给定一幅图像或一个视频帧，让计算机找出其中所有目标的位置，并给出每个目标的具体类别。

02OPTION,1.5深度学习的应用,1.5.1图像领域,语义分割是将整幅图像分成像素组，然后对像素组进行标记和分类。

语义分割试图在语义上理解图像中每个像素是什么（人、车、狗、树），语义分割实例如图所示。

03OPTION,语义分割,语义分割实例,1.5深度学习的应用,1.5.1图像领域,视频分类视频分类的对象不再是静止的图像，而是一个由多帧图像构成的，包含语音数据、运动信息等的视频对象，计算机理解视频需要获得更多的上下文信息，不仅要理解每帧图像是什么、包含什么，还需要结合不同帧，知道上下文的关联信息。

04OPTION,人体关键点检测人体关键点检测是指通过人体关键点的组合和追踪来识别人的运动和行为，对于描述人体姿态、预测人体行为至关重要。

05OPTION,1.5深度学习的应用,1.5.1图像领域,场景文字识别场景文字识别是在图像背景复杂、分辨率低、字体多样、分布随意等情况下，将图像信息转化为文字序列的过程。

如右图所示。

06OPTION,目标跟踪目标跟踪是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。

如右图所示。

07OPTION,1.5深度学习的应用,1.5.1图像领域,图像风格迁移图像风格迁移就是分析某一种风格的图像，把这种图像的风格应用在其他图像上。

08OPTION,图像文字说明图像文字说明就是生成图像的文字描述，也称为看图说话。

将一张图的内容用一句话描述出来，如图所示。

09OPTION,1.5深度学习的应用,1.5.2声音领域,语音搜索搜索内容直接以语音的方式输入，应用于网页搜索、车载搜索、手机搜索等各种搜索场景。

01OPTION,资讯播报资讯播报可以为新闻资讯播报场景打造特色音库，让手机、音箱等设备能使用专业主播的配音，改进用户体验，如图所示。

02OPTION,1.5深度学习的应用,1.5.2声音领域,语音输入语音输入打破生僻字和拼音障碍，使用语音即时输入。

略带口音的普通话、各地方言或者英文，均可有效识别，并可根据句意自动纠错、自动断句、添加标点，如图所示。

03OPTION,二次字幕编辑直播时，直播软件可以直接将主播的说话内容实时转写为字幕展示在屏幕上，或者可进行二次字幕编辑。

04OPTION,实时会议记录在多人会议场景中，每个发言人的语音可以实时被记录并保存，提升会议记录效率。

05OPTION,1.5深度学习的应用,1.5.2声音领域,课堂音频识别对教师课堂教学内容进行实时记录，校方可以根据教学内容记录进行教学质量评估，如图所示。

06OPTION,音频内容分析将大量对话录音识别为文字，并对内容进行持续分析与监控，及时发现有风险、违规的内容，或发掘潜在营销机会。

07OPTION,语音机器人代替传统人工进行电话外呼、回访、通知，高仿真模拟真人坐席，大幅节约人力成本。

08OPTION,1.5深度学习的应用,1.5.2声音领域,语音助手在会议室预订、功能指令等短语音交互场景中，可通过手机App实现智能语音交互，通过训练业务场景所需识别的词汇和句子，提升识别效果，提高流程效率，如图所示。

09OPTION,1.5深度学习的应用,1.5.3文本领域,01OPTION,专有名词挖掘通过词语间的语义相关性计算寻找人名、地名、机构名等词的相关词，扩大专有名词的词典，更好地辅助文本搜索应用。

知识发掘对大规模非结构化文本数据进行句法结构分析，从中抽取实体、概念、语义关系等信息，帮助构建领域知识或世界知识。

02OPTION,语言结构匹配基于句法结构信息进行语言的匹配计算，帮助提升文字搜索的准确率。

03OPTION,1.5深度学习的应用,新闻推荐通过用户刚刚浏览的新闻标题，检索出其他的相似新闻推荐给用户。

04OPTION,用户头像审核针对用户头像进行多维度的图像审核，对图像中人脸的角度、遮挡、占比、清晰度等进行审核，确保图像中包含清晰的人物正脸、非明星/卡通人脸，并且无色情、暴恐、政治敏感、微商广告、各类联系方式等内容，筛选适合作为头像的图像，保障用户使用体验。

05OPTION,话题聚合根据文章计算的标签，聚合相同标签的文章，便于用户对同一话题的文章进行全方位的阅读。

06OPTION,闲聊机器人识别用户在聊天中的情绪，帮助机器人产品选择出更匹配用户情绪的文本进行回复。

07OPTION,1.5深度学习的应用,快递单据识别解析并提取快递单据中的文本信息，输出标准、规范的结构化信息（包含姓名、电话、地址），其中地址能够自动将街道及行政区的信息补全，帮助快递或电商企业提高单据处理效率。

08OPTION,视频内容审核配合关键帧提取技术对视频帧中的图像、字幕进行审核，搭配语音识别和敏感声音检测技术对视频内容进行全面的审核。

09OPTION,1.6深度学习的未来趋势,深度学习与多种机器学习技术不断融合发展。

04,深度神经网络工程化应用技术不断深化。

03,深度神经网络节点功能不断丰富。

02,深度神经网络呈现出层数越来越多、结构越来越复杂的发展趋势。

01,本章小结,本章介绍了深度学习的定义和特点，深度学习的发展历史，深度学习的经典网络模型，以及深度学习在图像、声音、文本等领域的应用。

随着深度学习在图像、声音、文本等领域应用的不断成熟，大量深度学习的应用技术不断涌现，这些应用技术会不断渗透到更多的领域中。

THANKS,第2章,深度学习环境的安装与使用,深度学习与图像处理实战,知识要点,Anaconda的安装与使用Anaconda简介Anaconda的安装conda简介TensorFlow环境搭建与使用安装TensorFlowCPU版本安装TensorFlowGPU版本PyCharm的安装PyCharm的使用TensorFlow的使用,Keras简介与使用Keras的意义Keras的设计原则Keras的工作方式Keras快速上手Keras简单实例,目录,2.1Anaconda的安装与使用,Anaconda简介Anaconda是一个管理开源安装包的软件，可以便捷地获取开源安装包且能够对开源安装包进行管理，同时可以对环境进行统一管理。

Anaconda包含了conda、Python等多个科学包及其依赖项。

Anaconda的安装,下面介绍Windows版Anaconda的安装过程，具体安装步骤如下。

step01,在浏览器中打开Anaconda的官网，下载Anaconda的Windows版的安装程序，如图所示。

step02,下载64位的安装程序，下载完成后进行安装。

2.1Anaconda的安装与使用,step03,安装完成后，访问Anaconda应用程序，其主界面如下图所示。

step04,单击“Environments”选项，可以看到默认的环境base下自带的安装包，这些安装包是Anaconda默认自动安装的，如下图所示。

2.1Anaconda的安装与使用,2.1.3conda简介conda是包及其依赖项和环境的管理工具，适用于Python、C、C+、Java等编程语言，用于快速安装、运行和升级包及其依赖项，可在计算机中便捷地创建、保存、加载和切换环境。

step,在安装Anaconda的时候就已经安装了conda，所以conda不需要重新安装。

打开“命令提示符”窗口，输入“conda”，按“Enter”键，可以对conda进行环境检测，如图2-4所示，证明conda可以正常使用。

2.1Anaconda的安装与使用,conda创建和删除Python虚拟环境conda可以用来创建Python虚拟环境，创建环境的命令格式如下。

01OPTION,condacreate-nnameconda可以删除Python虚拟环境，删除环境的命令格式如下。

condaremove-nname-all其中，name表示要删除的环境的名字。

2.1Anaconda的安装与使用,激活和取消激活Python虚拟环境以py3环境为例来说明，py3环境的激活命令如下。

02OPTION,condaactivatepy3当命令行的行头出现“（py3）”时，表示py3环境已经激活，如图所示。

py3环境的取消激活命令如下。

condadeactivatepy3当命令行的行头不再出现“（py3）”时，表示py3环境已经不处于激活状态，如图所示。

2.1Anaconda的安装与使用,conda安装和删除Python程序包激活Python虚拟环境以后，需要安装Python程序包，安装的命令及运行结果如图所示。

输入“y”确认后，会出现安装的进度条，当图列举的所有包都安装完成的时候，Python程序包就安装完成了。

03OPTION,图2-9安装Python程序包,图2-10Python程序包安装进度,2.1Anaconda的安装与使用,如图2-11所示，输入“python”，就会进入Python的命令行模式，在这个模式下可运行Python程序，从而证明Python安装包安装成功。

图2-11Python环境检测图2-11中的Python版本是3.8.5，如果想用conda安装指定的Python版本也是可行的，使用condainstallpython=3.7命令就可以安装Python3.7，它会直接替换原来已经安装的3.8.5版本。

conda删除Python程序包的命令格式如下。

condauninstallPython程序包名,2.2TensorFlow环境搭建与使用,2.2.1安装TensorFlowCPU版本在安装TensorFlow之前，需要安装Python，安装Python的过程请参考2.1节中的内容。

推荐读者使用TensorFlow2.0及以上的版本。

TensorFlow官方推出了CPU版本和GPU版本，这两个版本的使用方法都需要掌握，这样才能更好地学习后续深度学习的环境搭建。

在conda中安装TensorFlow的命令是condainstalltensorflow，这里的TensorFlow默认是CPU版本，在安装的时候需要注意TensorFlow的版本应与Python的版本相对应。

2.2TensorFlow环境搭建与使用,2.2.1安装TensorFlowCPU版本,例如，要安装TensorFlow2.1，那只能把Python的版本降低到Python3.7以下，使用condainstallpython=3.7命令就可以完成降级，接下来执行condainstalltensorflow=2.1命令就可以完成TensorFlow的安装。

如图2-12所示，安装完TensorFlow以后，可以使用print（tf.version）命令输出TensorFlow的版本，这里可以看到TensorFlow的版本是2.1.0。

2.2TensorFlow环境搭建与使用,2.2.2安装TensorFlowGPU版本,模型训练,提高运算效率,需要TensorFlowGPU版本,在安装TensorFlowGPU版本之前，首先需要确保自己的计算机或服务器上至少有一张NVIDIA显卡，并且安装了NVIDIA驱动，驱动程序可以在NVIDIA官网下载。

使用命令condacreate-ntf-gpu创建一个新的名字为tf-gpu的虚拟环境执行命令condaactivatetf-gpu激活tf-gpu虚拟环境在这个tf-gpu虚拟环境中使用condainstalltensorflow-gpu=1.15命令来安装版本号为1.15的TensorFlowGPU版本。

2.2TensorFlow环境搭建与使用,2.2.2安装TensorFlowGPU版本安装完成后，在命令行执行tf.test.is_gpu_available（）命令可以验证TensorFlowGPU版本是否可以使用GPU设备，显卡支持检测如图所示。

2.2TensorFlow环境搭建与使用,2.2.3PyCharm的安装PyCharm是Python的一个集成开发工具，用它进行代码编辑可提高工作效率。

PyCharm分为专业版和社区版，使用社区版即可满足需要，如图所示。

2.2TensorFlow环境搭建与使用,2.2.3PyCharm的安装找到下载的PyCharm文件，并双击打开，安装步骤如图2-15图2-20所示。

图2-15单击“Next”按钮,图2-16选择安装目录,2.2TensorFlow环境搭建与使用2.2.3PyCharm的安装,图2-17勾选相应复选框,图2-18单击“Install”按钮,2.2TensorFlow环境搭建与使用2.2.3PyCharm的安装,图2-19等待安装完成,图2-20单击“Finish”按钮,2.2TensorFlow环境搭建与使用,2.2.4PyCharm的使用,图双击PyCharm图标,图单击“Donotimportsettings”（不导入设置）单选按钮,启动PyCharmPyCharm在初次启动时会有很多操作提示，读者可以直接忽略，启动PyCharm的过程如下图所示。

01OPTION,图单击“SkipRemainingandSetDefaults”按钮,2.2TensorFlow环境搭建与使用,2.2.4PyCharm的使用,step01：

创建工程（Project）的界面如图所示。

02OPTION,利用PyCharm创建工程,step02：

一个工程其实就是一个文件夹，是在实际项目开发中常用的一个概念，主要为完成一个具体任务而创建。

如图所示，指定项目文件夹。

2.2TensorFlow环境搭建与使用,2.2.4PyCharm的使用,step03：

为创建的工程关联一个Python解释器（这一步很重要），此处选择Anaconda中集成的python.exe作为解释器，如图2-26图2-29所示。

02OPTION,利用PyCharm创建工程,图2-26单击三角符展开,图2-27选择本地的Python解释器,2.2TensorFlow环境搭建与使用,2.2.4PyCharm的使用,02OPTION,利用PyCharm创建工程,图2-28单击“Create”按钮,图2-29进入开发主界面,2.2TensorFlow环境搭建与使用,2.2.5TensorFlow的使用机器学习一般都是以张量作为数据结构的，在TensorFlow中称之为Tensor。

下面是一些定义张量的实例。

importnumpyasnpimporttensorflowastftf.constant

（1）#定义常量tf.constant（1,2）#定义一维张量，一维张量称为向量tf.constant（1,2,1,2）#定义二维张量，二维张量称为矩阵张量可以认为是向量和矩阵在任意维上的扩展，它有两个非常重要的属性:

维度数据类型矩阵是二维张量，通常使用NumPy来生成矩阵，并转换成Tensor。

2.2TensorFlow环境搭建与使用,2.2.5TensorFlow的使用下面是NumPy中生成张量的一些实例（此代码运行于“命令提示符”窗口（CMD）中，打开“命令提示符”窗口（CMD），输入“python”即可进入环境）。

importnumpyasnpx=np.zeros（2,3）xarray（0.,0.,0.,0.,0.,0.）tensorx=tf.convert_to_tensor（x,dtype=tf.int32）tensorxtensorx.nd

展开阅读全文