基于卷积神经网络图像风格迁移技术应用毕业论文文档格式.docx
《基于卷积神经网络图像风格迁移技术应用毕业论文文档格式.docx》由会员分享,可在线阅读,更多相关《基于卷积神经网络图像风格迁移技术应用毕业论文文档格式.docx(18页珍藏版)》请在冰豆网上搜索。
VGG网络;
生成式对抗网络;
深度残差网络
第1章绪论
1.1背景、目的及意义
在艺术领域,特别是绘画,影视,画家及导演们通过创造特殊的内容及风格,给人们带来一种前所未有的视觉冲击。
人类对美的在追求永无止境,尤其是对自己创作的图像及绘画。
然而对于普通大众来说,想要自己的绘画或者图片更具有趣味性只能借助PS技术。
在艺术家和普通大众两个主体面前,图像风格迁移技术亟待突飞猛进的发展来满足大家对艺术化的追求。
而深度学习的兴起,尤其是卷积神经网络的出现,让计算机对图像的识别及提取内容技术上了一个台阶。
2015年Gatys初次将深度学习和神经网络运用到了图像的风格艺术迁移技术上来[6]。
然而Gatys所运用的基于迭代图像的方法效率低下且操作复杂,对于没有专业知识的普通用户来说很难实现图像风格迁移工作。
对于当今快节奏生活的大众,如何解决这效率低下且复杂的问题呢?
本系统正好补足效率低下的缺点,并加以迁移系统供用户操作。
该系统在后台对模型进行训练,生成已经成熟的模型,在网页上供用户选择。
通过风格迁移技术,可以对图片进行处理,使图片效果展示的更加完美,达到对图像艺术预期的要求。
对于此次课题研究,目的是为了让大众摆脱复杂的修图技术,让没有深厚绘画功底的用户轻松地得到自己想要的风格图片。
针对这一技术的实现,本系统首先先使用VGG(VisualGeometryGroup)网络对图像内容和风格特征提取,并且用深度残差网络对提取的内容和风格特征进行重构来生成迁移图像,然后运用生成式对抗网络思想,来迭代训练一个可以快速风格迁移系统模型,这样可以快速高效的对大批量图像进行风格迁移;
最后加入一个演示系统,这样就能使用户简单快速地对自己喜欢的风格图像进行迁移。
通过卷积神经网络等算法设计实现一个图像风格快速迁移系统。
通过这个系统,可以让用户简单快速地对自己的图像进行风格迁移,从而达到用户对图像艺术化的追求。
本文设计的快速风格迁移系统,在绘画方面也有很大的作用:
可以在绘画作品中填入多元的艺术风格,从而使绘画作品更加完美。
在影视作品方面,本设计为影视作品风格迁移打下基础,在今后的学习研究中可以在本设计的基础上完成影视作品的风格迁移技术。
1.2相关工作
目前的风格迁移技术,包括物理建模提取纹理、基于图像迭代方法及基于模型迭代三种方法[14]。
1.2.1基于物理模型的绘制和纹理的合成的方法
基于物理模型的绘制和纹理的合成实现图像风格迁移是一种传统非参数的迁移方法[14]。
主要通过对样本纹理进行拼接和重组来合成新的纹理。
在图像处理技术上,把纹理当做一个图片的风格,在后续的图像风格迁移技术上都是对图像的纹理特征进行提取。
这种非参数的提取方法也只能提取内容与风格图片底层的纹理,对于颜色、内容复杂的图像合成起来就显得粗糙。
1.2.1基于图像迭代的方法
基于图像迭代的主要做法是直接在白噪声图像进行迭代优化实现风格迁移,这种做法的优化目标是优化白噪声图像[6]。
这类做法的好处是生成图像的品质高,可控性好,比较容易调节参数,而且不需要大量的训练数据;
然而也同样存在一些问题,其计算时间较长,耗费时间。
对于大批量的图像进行风格迁移过程中,效率低下,而且对于预训练的图像特征提取模型依赖性大。
1.2.2基于迭代神经网络模型的方法
基于迭代神经网络模型,以神经网络的前馈方式实现快速风格迁移(faststyletransfer),其优化目标是神经网络[14]。
这类做法的优点是,工作速度快,同样可以运用到影像的风格迁移上;
同样这类做法的缺点就是:
合成图片的品质有待提高。
而且在优化神经网络的过程中需要大批的训练数据。
1.3本文工作
1.3.1本文主要工作
为解决图像风格迁移技术效率低下的缺点,本设计主要的研究方向是最大程度的减少模型训练次数,因此本系统采用模型迭代方法,结合对抗式生成网络思想,设计一个基于VGG-19网络模型的判别器来提取风格图像的艺术特征,用残差神经网络作为生成器来生成迁移图像的模型,从而实现一次训练就可以多次生成迁移图像的快速图像风格迁移。
实验结果显示,使用模型迭代方法可以快速地生成不同风格的图像,并且能够根据自己喜欢的风格训练图片,从而达到用户对图像艺术的要求。
1.3.2论文结构安排
本章将介绍论文中各章节的工作安排。
第一章绪论。
本章主要对图像风格迁移技术背景、目的及意义进行介绍,然后讲述国内外图像迁移技术的现状,最后介绍该项目的主要工作及论文的结构安排。
第二章任务描述及数据与处理。
本章主要介绍本项目的主要工作及数据预处理。
首先对本项目所用技术进行介绍,然后提出在完成项目过程中要解决的问题,并找出解决问题的方法。
最后介绍在模型迭代的过程中,需要大量的训练数据来训练模型,介绍如何选取训练数据,以及对训练数据的预处理。
第三章基于卷积神经网络的图像风格迁移技术。
主要对本研究中将用的相关技术进行介绍,主要包括卷积神经网络、VGG网络、深度残差网络、生成式对抗网络。
VGG网络是用牛津大学视觉几何小组预训练的网络模型,该网络在图像的特征提取方面取得了很好的效果。
深度残差网络是在CNN的基础上加深网络的深度,从而提高网络的性能,用来构建图像生成网络。
生成式对抗网络思想,主要用来解决图像迁移效率低下的问题,采用GANs思想,从而可以一次训练网络,然后保存模型参数,从而实现快速风格迁移效果。
第四章图像风格迁移技术应用。
本章主要介绍应用系统的结构设计及系统演示结果。
对web演示系统的结构设计过程详细讲解并展示。
最后是对本文所做工作进行总结。
主要对本文的工作和本设计的不足之处进行总结,以及对未来图像风格迁移的发展进行展望。
第2章任务描述与数据预处理
本章节详细描述本文需要完成的任务和对本文建立的模型进行数据预处理的详细过程。
2.1任务描述
利用信息技术来处理图像来满足人们对图像艺术化的追求是一件非常有意义的工作。
本文在图像风格艺术迁移技术的研究与应用的基础上,设计并实现了一个可交互的内容与风格分离的图像风格艺术迁移系统,完成了以下几方面的任务。
1)构建VGG-19模型并训练改进。
本项目所设计的是图像风格艺术化迁移,通过对内容图片和风格图片的特征进行深度提取,组合成一个新的目标图片。
在图像的特征提取方面,VGGNet模型做的非常好。
首先下载VGG-19预训练模型imagenet-vgg-verydeep-19文件,由于本项目不用于图像分类,将VGG-19模型进行部分改进:
去掉三个用于图像分类的全连接层,使参数大大减少,提高工作效率。
在模型训练过程中,我们对内容特征提取与风格特征提取定义损失函数,计算特征提取时的总损失。
2)基于深度残差网络的图像重构技术。
用VGG-19模型对图片的内容和风格特征进行提取,用残差神经网络作为生成器来生成迁移图像,并且不断迭代该模型,优化模型权重参数,最后生成一个高质量的迁移图像。
3)演示系统的建立。
采用本项目实现的图像风格迁移模型,使用Django框架来设计一个应用系统。
2.2数据预处理
在进行系统模型训练的过程中,使用的是MSCOCO数据集,在COCO数据集中每张图片都是固定的RGB三通道的像素值,但是图片的大小形状是不一样的,而且对于Tensorflow框架设计的计算图,对于传入的数据为固定相同大小的向量值。
所以,首先针对COCO数据集内的图片先进行数据预处理,将图片转换为相同大小形状的向量值。
首先借助python的第三方工具包numpy和scipy集成科学数据工具包,使用scipy包直接将图片以RGB三通道方式读取为像素值数组,然后使用numpy工具,将像素值的数组转化为固定大小的shape(255x255x3)。
同时传统的图像数据预处理过程,需要将图片像素值进行数据归约,就是将图像的像素值归约到0-1之间,简称二值化处理,这样做的意义是在训练过程中可以更好的模型损失下降,但是这里不做二值化处理,因为最终是要生成图像,所以要保留图片的原像素值,这样在生成网络输出的特征,可以直接来通过scipy保存为图像。
但是,与此同时损失误差值将会很大,这样对于网络的性能提升有限制性。
第3章基于卷积神经网络的图像风格迁移技术
3.1基础知识
本设计的主要框架,使用对抗式生成网络思想,使用模型迭代,设计一个基于VGG-19网络模型的判别器来提取风格图像的艺术特征,并且判断生成图片的迁移质量,用残差神经网络作为生成器来生成迁移图像,并且不断迭代该模型,优化模型权重参数,最后生成一个高质量的迁移图像。
这样做的目的就是不需要预先生成白噪图像作为输入,而是直接以内容图像(contentimage)作为输入,用深度残差网络来生成迁移图像,以VGG网络为基础的图像判别器,来评价生成图像的质量。
接下来重点介绍框架中需要的相关技术准备。
3.1.1VGG网络
卷积神经网络(CNN)最初设计被用来做图片分类工作,最近也被用来做图片分割,图像风格迁移以及其他计算机视觉的工作;
当然,也有被用来做自然语言处理(NLP)的例子。
卷积神经网络是最能解释深度学习的模型之一,因为可以将它的表达特征可视化来理解它可能学习到的东西。
VGG是Oxford的VisualGeometryGroup的组提出的。
该网络是在ILSVRC2014上的首次被提出,主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。
VGG有两种结构,分别是VGG16和VGG19,两者并没有本质上的区别,只是网络深度不一样,结构如图3-1。
在计算机图像处理卷积神经网络中,VGG网络是本人最喜欢使用的模型,并且认为是最好的模型。
VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,7x7,5x5)。
对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少):
验证了通过不断加深网络结构可以提升网络整体性能。
但同时,VGG耗费更多计算资源,并且使用了更多的参数,其中绝大多数的参数都是来自于第一个全连接层,并且,VGG网络有3个全连接层!
这样使得模型参数权重达到550M左右。
3-1VGG网络参数结构图
在本设计中,主要使用VGG-19网络来对图片进行特征提取,分别三次使用VGG-19网络来提取图片特征,分别是contentimage、styleimage和outputimage(即系统最终迭代输出的迁移图线),然后分解计算outputimage的内容和风格与contentimage和styleimage之间的误差(Loss),然后将这两个误差进行计算反馈给图像生成网络,来优化生成网络的权重参