用于图像分类的浅层结构深度学习方法Word文档格式.docx-资源下载

用于图像分类的浅层结构深度学习方法Word文档格式.docx

1、这种结构的其中一种是前馈结构，前馈结构中多层神经网络和卷积网络在图像分类8 9 10 11，目标识别12，人脸识别13和语音识别14等分类任务中都取得了良好的效果。这些网络的设计，分类，自动推断和学习能力都引起了人们的注意。但是到目前为止，它们的训练仍然需要大量的计算，同时还要选择适当的方法以防止过拟合现象。另外一个不足是特征变换阶段的次数是随机确定的，也就是说网络层次的数量和大小影响了抽象过程的数量。而且，分类仅仅是在最后的抽象层上对特征进行选择而完成。此外，我们还要知道每一个抽象层次中更多的重要细节（也即特征），以减少分类阶段的复杂性。在此背景下，Y.Zou等人15通过模拟影像中的固定点提

2、出了一种显著特征的深度学习方法。另外，Weston等人16提出一种用于图像分类的非线性半监督的嵌入算法，称为嵌入式卷积神经网（Embed CNN）。以及，Xu17创新地提出了一种称为空间金字塔深层神经网络（SPDNN）的半监督分类方法，这是基于一个新的深层结构集成神经网络和空间金字塔模型。在本文中，我们得到了两个具体的成果：首先，我们提出了一种改进的前馈深层结构。我们称之为基于二元多分辨率分析的改进型前馈卷积神经网络18 19 20。这种方法在不同的抽象层次中使用快速小波变换（FWT）21。这一成果的优点在于我们可以使用浅层结构（一个隐层）取代多层结构进行深度学习。此外，多分辨率分析法（MRA

3、）可以让我们确切知道深度学习层次的必要数量。同时，由于对图像不同层次的抽象都是通过进行多分辨率分析法进行的，所以我们可以得到对应于各级的图像特征，这可以很好地帮助我们完成分类。第二个成果是利用Adaboost算法从不同层次的抽象中更重要的，能更好代表每一类图像的特征22。所提出的方法能通过简单的结构实现卷积神经网络的优点，同时能减少计算的复杂度。本文的结构如下：第二部分介绍了我们所提出的图像分类方法的核心思想，其中我们会重点介绍在不同层次抽象中的MRA特征提取法，特征选择和分类方法。第三部分是实验结果和讨论。最后一部分是结论。二、所提出的方法所提出的方法是一种用于图像分类的浅层结构深度学习方法

4、。一般的深度学习方法是通过改变神经网络中层的数量和大小得到不同层次的抽象。分类仅仅是在最后一层抽象的特征上完成的。在这种结构中，我们不确定所提取的特征能不能代表图像所有有用的信息。在本次实验中，我们提出了一种基于二元多分辨率分析法改进的前馈卷积神经网络。前馈意味着信息只能向前传递，从输入节点经过隐层节点到达输出节点。所提出的基于MRA结构的主要优点是：第j层的特征可以转化为第j-1层的特征，或者直接使用j-1次二元小波代换后转化为第一层的特征。过程如图1所示。这种学习和分类的步骤将在A部分和B部分分别介绍。图1A 学习图像过程学习阶段是单隐层卷积神经网络对每一幅参考图像进行处理的过程。其中，第

5、一层（输入层）代表的是图像的每一个像素，隐层代表的是所有抽象层次中提取出来的特征，最后一层（输出层）代表的是图像的类型。结构如图2所示。图2学习算法步骤如下：第一步：构建候选小波库第二步：计算输入层与隐层之间所有的连接权值第三步：利用二元多分辨率分析法计算不同层次抽象隐层所对应的的输入第四步：把sigmoid函数作为激活函数第五步：利用Adaboost算法选择能描述每一类图像特点的特征第六步：确定每一类图像所对应的隐层与输出层之间的连接权值从图3可知，经过多分辨率分析后，每一幅参考图像都被分成了k个层次的抽象特征，可以将其定义为离散小波变换的设计方法。这种方法把信号f（图像）分解为逼近部分（A

6、）和三个细节部分：水平细节（HD）、垂直细节（VD）和对角线细节（DD）。在新的抽象层次中，得到的逼近部分将会被进一步分解为新的逼近部分和细节部分，如此循环直到抽象层次达到分析所要求的最大值。最后，把从所有层次中提取出来的细节系数作为输入层与隐层之间的连接权值。为了加快计算出这些系数，我们使用多分辨率分析中的快速小波变换（FWT）。这一算法有效地减少了耗时的训练和分类步骤。图3此外，MRA的优点在于分析的网络层次的数量不是随机的，而是可以直接从图像的尺寸中得到的。因此我们可以通过固定图像的抽象层次控制学习深度。同时，由于MRA分析是在不同的抽象层次中分析图像，所以它可以提供各层次抽象中相应的能

7、代表图像的特征，这在分类阶段将会十分有用。一旦我们计算得出所有输入层与隐层的连接权值，也就是隐层的输入，我们就采用取值在0 1的sigmoid函数作为激活函数。下一步就是利用Adaboost算法，从这些特征中滤选出能描述每一类图像的最佳的特征。（见算法1）算法1 Adaboost算法给定m组训练数据，（,），（，），其中初始化=1/m：训练样本i的权重，这决定了该样本被选择为成分分类器的概率。当t=1,.,T时：分类器：X-1 1，这将最大限度地减少分布带来的误差：如果0.5继续，否则停止选择R，其中为分类器的加权错误率下一个分类器：其中为归一化因子。（归一化的目的是使得成为一个分布函数）得到

8、最后的分类器：经过这个步骤后，我们得到了每一类图像的最佳的特征，即一个由特征（f），阈值（b）和一个极性（p）构成的弱分类器，其满足下式：阈值将作为隐层与输出层之间的连接权值以用来确定每一类的图像。B 图像分类要对用作分类的图像Y进行分类，必须建立一个神经网络，其中该网络的隐层神经元连接权重是由能表示所有类别图像的所有特征构成的。然后，图像的类别将通过等式2确定。图像的分类是根据最佳特征进行的，其相应阈值通过以下等式确定的：H（Y）是图像分类的结果，t是选择出来的最好的特征数量，h代表对第k个特征和阈值的训练分类器，其中阈值已经在学习阶段计算得到。如果H（Y）等于1，这意味着用于分类的图像符合

9、当前的类别。否则图像不符合当前类别并立即将其拒接。所提出结构的优点在于，网络仅仅使用一个隐层就能够模拟所有代表图像类别的特征。图4表示了具有3个选择特征的图像分类的例子，其中.代表待分类图像像素Y。是经过Adaboost算法选择出来的特征，在图中以蓝色表示，它们能较好地表示第一类的图像。是表示第二类图像的特征，在图中以黄色表示，如此类推。可以看出，某些特征不止是一种类别图像的特征。例如图中就是第二类和第四类的特征。这可以解释为这些类别中存在相似或相同的部分。图4三、结果和讨论我们利用两个数据库对所提出的方法进行测试，分别是Wang数据库和COIL-100数据库。哥伦比亚大学目标图像库（COIL

10、-100）数据库：包含了7200张128*128的彩色图像，这些图像被分成了100类目标，每一类目标包含的72张图像分别是对同一目标在360度范围内每隔5度拍摄得到的。图5是COIL-100图像库所包含的一些目标图像，图6为COIL-100中某个目标类别的图像图5图6Wang数据库：包含了10类共1000张，大小为256*384的不同的彩色图像。10个类别分别是：公共汽车，恐龙，花朵，非洲人，沙滩，建筑物，大象，马，山和食物。图7在实验中，我们将分别从这两个图像库中随机选取50%的图像作为训练集，剩下的50%图像作为测试集。因为MRA算法要求图像的大小为2的整数次幂，所以所有Wang图像库的图

11、像将被调整为256*256大小。这就要求分析次数的最大值为6。这就是说并不需要达到最大的分析次数就能有最好的分类效果，因此，有时候一至两层分析就已经足够了，例如在大象，恐龙和马的分类上。但是，当两类图像具有相似的颜色时，系统将会难以判别，例如颜色相似的公交车和花朵，建筑物和沙滩。表1为Wang图像库分类的混淆矩阵。表1根据图像的大小和分析次数的多少，使用Adaboost算法能让我们减少特征的数量。对于COIL-100和Wang图像库每一类图像的特征数量分别为30和50。分类正确率（CR），每一张图像分类时间（CT/QI）和特征数量（NSF）都在表2中列出：为了衡量我们所提出方法的有效性，我们把

12、该方法与其他方法进行了比较。从结果可以看出，所提出的方法（PA）十分有效，而且效果最好。（见表3）表3这个结果可以解释为我们在不同层次的抽象中都使用了MRA算法，这一方法很好地从每一张图像中提取出有用的，能代表图像细节的特征。四、结论在本文中，我们提出了一种改良的前馈型深度结构图像分类方法。该方法可总结为以下步骤：首先，我们利用基于多分辨率分析法的快速小波变换在不同层次的抽象中提取出图像的特征，其次，我们利用Adaboost算法选择出最好的特征并以此对相应的图像进行分类。从实验结果来看，分类效果十分理想，并且证明了所提出的基于多分辨率分析和Adaboost算法的简单深度学习神经网络结构的鲁棒性

13、。在今后的工作中，我们将把模糊理论的概念应用到分类阶段当中，以提高分类的灵活性。五、致谢作者对突尼斯科学研究总方向（DGRST）中ARUB项目提供资金支持表示感谢。六、参考文献1 A. Tolambiya, S. Venkatraman and P. K. Kalra, Content-based image classification with wavelet relevance vector machines,Soft Computing （Springer）, January 2010, vol. 14, no. 2, pp 129-136.2 H. B. Kekre, T. K. S

14、arode and J. K. Save, Classification of Image Database Using Independent Principal Component Analysis,（IJACSA） International Journal of Advanced Computer Science and Applications, vol. 4, no.7, 2013.3 S. Chena, W. Shib and XiaoLv, Feature coding for image classification combining global saliency and

15、 local difference,Pattern Recognition Letters jornal, vol.51, pp 4449, 2014.4 Z. Lu and L. Wang, Learning Descriptive Visual Representation for Image Classification and Annotation, Pattern Recognition journal, vol. 48, no 2, pp 498508, 2015.5 J. Schmidhuber, Deep learning in neural networks: An over

16、view, Neural Networks journal, vol. 61, pp. 85117, 2015.6 I. Mrazova and M. Kukacka, Can Deep Neural Networks Discover Meaningful Pattern Features?, Procedia Computer Science, vol. 12, pp. 194199, 2012.7 Y. LeCun, Deep Learning Tutorial, ICML, Atlanta, 2013.8 H. Li, H. Li, Y. Wei, Y. Tang and Q. Wan

17、g, Sparse-based Neural Response for Image Classification, Neurocomputing journal, vol. 144, no. 20 , pp. 198207, 2014.9 A. Krizhevsky, I. Sutskever and G.E. Hinton, ImageNet classification with deep convolutional neural networks, In Advances in Neural Information Processing Systems 25 （NIPS2012）, 20

18、12.10 M.D. Zeiler and R. Fergus, Visualizing and Understanding Convolutional Neural Networks, arXiv preprint arXiv:1311.2901, 2013.11 J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell, DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition, arXiv e

19、-prints, arXiv:1310.1531, 2013.12 A. Toshev, C. Szegedy and D. Erhan, Deep Neural Networks for Object Detection, In Advances in Neural Information Processing Systems, 2013.13 D. Timoshenko and V. Grishkin, Composite face detection method for automatic moderation of user avatars, Computer Science and

20、 Information Technologies （CSIT13）, 2013.14 T. Sainath, B. Kingsbury, A. Mohamed, G. E. Dahl, G. Saon, H. Soltau, T. Beran, A. Y. Aravkin, and B.Ramabhadran, Improvements to deep convolutional neural networks for LVCSR, 2013.15 W. Y.Zou, S. Zhu, A. Y.Ng and K. Yu, Deep learning of invariant features

21、 via simulated fixations in video, In Advances in Neural Information Processing Systems, pp. 3212-3220, 2012.16 J. Weston, F. Ratle, H. Mobahi, and R. Collobert, Deep Learning via Semi-supervised Embedding, Neural Networks: Tricks of the Trade, Lecture Notes in Computer Science, vol. 7700, pp. 639-6

22、55, 2012.17 Q. Xu, S. Jiang, W. Huang, L. Duan and S. Xu, Multi-feature fusion based spatial pyramid deep neural networks image classification, Computer Modelling & New Technologies, vol.17 （5C）, pp. 207-212, 2013.18 M.Zaied, C. Ben Amar and M. A. Alimi, Award a new wavelet based beta function,Inter

23、national Conference on Signal, System and Design, SSD03, Tunisia, pp. 185-191, 2003.19 A. ElAdel, M. Zaied, C. Ben Amar, Learning wavelet networks based on Multiresolution analysis: Application to images copy detection, International Conference on Communications, Computing and Control Applications （

24、CCCA）, pp. 1-6, 2011.20 M. Zaied, R. Mohamed, C. Ben Amar; A Power Tool for Content-Based Image Retrieval Using Multiresolution Wavelet Network Modelling and Dynamic Histograms, International Review on Computers and Software （I.RE.CO.S.）, vol. 7, no. 4, pp. 1435-1444, July 2012.21 O. Jemai, M. Zaied

25、, C. Ben Amar and A. M. Alimi, Fast Learning algorithm of wavelet network based on Fast Wavelet Transform, Int. J.Pattern Recognition and Artificial Intelligence, vol. 25, no.8, pp. 1297- 1319, 2011.22 M. Zhou, H. Wei, and S. Maybank , Gabor Wavelets and AdaBoost in Feature Selection for Face Verification, Applications of Computer Vision 2006 workshop in conjuction with ECCV 2006, pp. 101-109, Graz, Austria, 12 May 2006.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？