宏观经济管理信息系统初步设计中国人工智能学会.docx-资源下载

宏观经济管理信息系统初步设计中国人工智能学会.docx

1、宏观经济管理信息系统初步设计中国人工智能学会中国模式识别白皮书中国人工智能学会二一五年十一月中国人工智能系列白皮书编委会主任：李德毅执行主任：王国胤副主任：杨放春谭铁牛黄河燕焦李成马少平刘宏蒋昌俊任福继杨强委员：陈杰董振江杜军平桂卫华韩力群何清黄心汉贾英民李斌刘民刘成林刘增良鲁华祥马华东马世龙苗夺谦朴松昊乔俊飞任友群孙富春孙长银王轩王飞跃王捍贫王万森王卫宁王小捷王亚杰王志良吴朝晖吴晓蓓夏桂华严新平杨春燕余凯余有成张学工赵春江周志华祝烈煌庄越挺中国模式识别白皮书编写组刘成林杨健周杰孙哲南陶建华黄凯奇吴毅红冯建江王昌栋高蔚李俊李雅刘斌申抒含樊彬第1章前

2、言1.1 模式识别概述模式识别(Pattern Recognition)是通过分析感知数据（图像、视频、语音等），对数据中包含的模式（物体、行为、现象等）进行判别和解释的过程。模式识别能力普遍存在于人和动物的认知系统，是人和动物获取外部环境知识，并与环境进行交互的重要基础。我们现在所说的模式识别一般是指用机器模拟人的感知过程实现对感知数据的模式分析与识别，是人工智能领域的一个重要分支。模式分类是模式识别的主要任务和核心研究内容。分类器设计是在训练样本集合上进行优化（如使每一类样本的表达误差最小或使不同类别样本的分类误差最小）的过程，也就是一个机器学习过程。近年来，模式识别与机器学习的方法也被广

3、泛用于感知数据以外的数据（如文本、互联网数据、传感网数据、基因表达数据等）分析问题，形成了数据挖掘领域。由于模式识别的对象是存在于感知数据中的物体和现象，它研究的内容还包括信号/图像/视频的处理、分割、形状分析、运动分析、上下文分析等。具体地说，模式识别的研究内容主要包括：模式描述和分类。模式分类是建立在适当的模式（这里指单个模式样本）和类别描述基础之上的。按照模式和类别的描述方式，模式分类方法可以分为统计模式识别、句法结构模式识别、人工神经网络、核方法、集成分类方法等。模式的特征提取、特征选择、分类和聚类等同时也是机器学习的重要研究内容。计算机视觉与图像/视频分析。视觉是人类获取信息的最

4、主要来源。图像/视频信号处理、分割（模式/背景分离及模式与模式分离）、三维视觉建模、场景分析、运动分析、形状建模和匹配等都是模式识别的重要研究内容。模式识别和视觉技术应用。模式识别技术广泛用于工业生产、社会生活和国防安全等领域，进行自动信息处理和判别，以提高生产、管理、生活、安全监控等的效率。具体应用包括工业视觉检查、机器人感知、文字识别/文档分析、语音识别、生物认证、医学图像分析（计算机辅助诊断）、遥感图像分析、网络内容分析与检索等。20世纪50年代可以认为是模式识别学科的形成期，当时发表了一些关于统计模式识别的重要论文，人工神经网络“感知机”(Perceptron)也对模式识别和人工智能

5、产生了重要影响。60年代召开了第一个以“模式识别”为题的学术会议。1972年，第一届国际模式识别大会(ICPR，前几届称为IJCPR)召开。国际模式识别学会(IAPR)在1974年第二届ICPR上筹建，并于1978年正式成立。模式识别领域早期的方法主要是统计模式识别，其数学基础可以追溯到18世纪出现的贝叶斯规则及后来的高斯分布、伯努利分布、Fisher判别分析等。20世纪70到80年代，句法和结构模式识别方法受到高度重视。80年代末到90年代中，人工神经网络非常热门，后来逐渐被支撑向量机和核方法盖过了风头。90年代末到21世纪以来，随着模式识别应用普及和面对的问题越来越复杂，多种新的模式分类器

6、学习方法快速发展，如集成学习、半监督学习、多标签学习、迁移学习、多任务学习等。近几年，在多层神经网络基础上发展起来的深度学习和深度神经网络在很多模式识别应用领域产生了领先的性能，成为当前最热门的方法。21世纪以来也是计算机视觉领域和机器学习领域快速发展的时期，相关学术会议Computer Vision and Pattern Recognition (CVPR)，International Conference on Computer Vision (ICCV), International Conference on Machine Learning (ICML)等日益受到高度重视。1.2

7、本白皮书内容组织本白皮书旨在介绍模式识别领域的基本状况，近几年（尤其是过去5年）在基础理论与方法、计算机视觉、应用技术研究方面的重要进展，产业应用情况，面临的挑战和发展趋势等。供模式识别及其应用相关领域的研究生、研究者和技术开发人员参考。下面第2章介绍近几年模式识别领域研究进展状况，包括模式识别基础、计算机视觉、应用（主要是生物特征识别、文字识别、语音识别）基础研究。第3章介绍主要技术应用和产业发展状况。第4章分析国内在模式识别领域的研究特色及与国际前沿的差距。第5章分析模式识别领域的当前挑战和发展趋势。第6章为结束语。第2章模式识别研究现状2.1模式识别基础理论模式识别的基础理论主要包括特

8、征表示与学习、聚类、分类器学习等。最近几年的主要研究进展如下。2.1.1特征表示与学习特征表示与学习是模式识别的核心问题之一。如何学习获得高效、鲁棒的特征表示是模式系统成功的关键。近几年的研究主要在稀疏表示和低秩分解两个方面展开。传统的特征提取与特征选择仍然有研究者关注，但相对来说进展不多。（1）稀疏表示有关生理学的研究成果表明：人类的视觉系统具有对图像的稀疏表示特性。科学工作者们揭示了在低层和中层的人类视觉系统中，视觉通道中的许多神经元对大量的具体的刺激，比如目标的颜色、纹理、朝向和尺度等，具有选择性。若将这些神经元视为视觉阶段的超完备集中的信号基元的话，神经元对于输入图像的激活机制具有高度

9、的稀疏性。稀疏性思想方法已经成功应用到模式识别领域。美国UIUC大学的J. Wright等1利用模式间的稀疏性设计出一种基于稀疏表示分类(Sparse representation-based classification)方法，该方法的基本思想是，一个待识别的图像样本，在各类训练样本总体构成的基底上的表示系数（表示系数通过求解一个通用的稀疏表示模型得到）是稀疏的，也就是说，表示系数大部分为零，不为零的部分应为在同类样本上的表示系数。在稀疏表示分类的基础上，E. Elhamifar等2提出了结构化的稀疏表示分类器。J. Yang等3讨论了稀疏表示分类器的机理问题，为基于L1范数的稀疏表示分类提

10、供了理论依据。他们指出，稀疏表示分类器只所以有效的根本原因在于L1-optimizer 解的邻近性，而不是L0-optimizer解的“稀疏”性。稀疏表示分类器的有效性依赖于L1-假设（邻近性假设）：在所有的样本中，依赖于同类样本的表示所产生的表示系数的L1-范数最小。利用了商多面体的k-睦邻（k-neighborly）理论，揭示了L1-optimizer在模式分类中的作用。从理论上讲，基于L1范数的稀疏表示对服从Laplacian分布的噪声是最优的，对更为复杂的噪声显然不是最优的。为了进一步提升稀疏表示的稳健性，M. Yang等4借鉴稳健回归的思想，提出了正则化的稳健稀疏编码方法，R. He

11、等5提出了基于半二次型的稳健稀疏表示方法。这两种方法的性能优势在存在复杂噪声的人脸识别实验中得到了证实。除了分类以外，稀疏表示的方法还被广泛应用于特征抽取领域，典型的例子如稀疏主分量分析、稀疏鉴别学习以及是在深度学习的稀疏自动编码器模型等。（2）低秩分解在很多工程问题中，数据矩阵中常常有部分元素缺失或受噪声污染，在该情况下如何恢复数据矩阵成为一个非常重要的问题。低秩先验为数据矩阵的完善和恢复提供一种可能。当噪声较小且独立同分布于高斯分布，经典的主分量分析提供了一种数据矩阵估计的最优工具。然而实际中数据的污染形式可能是任意的，比如噪声较大且是非高斯的，此时主分量分析无法提供一种准确的估计。针对这

12、一问题，E. J. Candes, Y. Ma, 和 J. Wright等提出了稳健主分量分析（Robust PCA）理论与方法6,7，该理论假设污染是稀疏的而数据矩阵是低秩的，从而将数据矩阵分解为两部分: 低秩部分（真实数据的估计项）和稀疏部分（噪声等污染项）。稳健主分量分析的基本模型如下. (1)其中矩阵A,L,S,分别代表观测到的数据,低秩数据和稀疏数据。受稳健主分量分析启发，G. Liu 8 等提出了低秩表示方法并用于子空间分割。两种方法均假设噪声是稀疏的，但低秩表示假设表示系数矩阵是低秩的，而稳健主分量分析则假定真实数据是低秩的。当前的稀疏表示或稳健稀疏表示方法都是基于一维向量的残差

13、刻画，这些方法面临着两个基本的问题：（1）假设残差像素是独立同分布的，而实际中连续遮挡所产生的噪声往往是高度相关的；（2）独立刻画残差像素的方式完全忽视了残差的整体结构信息。针对这两个问题，Chen等假设噪声服从矩阵变量分布，从而导出采用核范数来刻画噪声，提出了矩阵变量稀疏表示方法。另外，Zhang等假设数据矩阵是低秩的，而每个噪声图像也是低秩的，据此提出了基于双核范数的矩阵分解方法。2.1.2聚类作为模式识别最基本的分类方法之一，数据聚类在各科学领域的数据分析中扮演着重要的角色，如计算机科学、医学、社会科学和经济学等。给定一个由样本点组成的数据集，数据聚类的目标是将样本点划分成若干类，使得属

14、于同一类的样本点非常相似，而属于不同类的样本点不相似。下面我们将介绍最近几年聚类研究的主要代表性进展，包括非线性聚类、集成聚类、多视图聚类等，以及展望聚类研究中的诸如大规模聚类、聚类中的无监督特征选择等的前沿挑战。（1）非线性聚类根据类的分布形状，聚类问题可以分成线性可分聚类问题和非线性可分聚类问题。对一个数据集，若至少包含一个非凸形状边界的类，则该数据集称为非线性可分的，也称为是具有任意形状边界或非球状的类，如图1展示了线性可分数据集和非线性可分数据集。由于现实数据的复杂流形分布，非线性可分聚类是最流行且最被广泛研究的聚类问题之一。最经典的方法是发表于1996 SIGKDD的DBSCAN算法

15、11。除此之外，核方法12、多中心点模型13也是典型的非线性聚类算法。特别是，Science杂志2004年发表了一个结合了密度和距离信息的非线性聚类算法14，把非线性聚类研究推向了研究高峰。该算法结构简单、极具技巧性，但缺乏全局目标函数以及存在若干极度敏感的阈值。(a) 非线性可分数据集 (b) 线性可分数据集图1. 非线性可分数据集与线性可分数据集（2）集成聚类已有聚类算法各有优势，也各有局限性；在缺少先验知识的情况下，从众多聚类算法中选择一个合适的聚类算法是非常困难的；甚至，给定一个聚类算法，为其选择出合适的参数都是不容易的。相对于使用单一算法得到单一聚类的传统作法，集成聚类（ensemb

16、le clustering）可以将多个聚类算法所得的聚类结果（每一个输入聚类称为一个基聚类）集成为一个更优、更鲁棒的聚类结果，如图2所示。近年来集成聚类的研究热点包括有以下几方面：(1)基聚类加权15,即如何对基聚类质量进行估计并进行加权；(2)基聚类筛选16，即从基聚类集合选择得到一个子集，并对此(选择得到的高质量)子集进行集成以期得到更佳集成效果；(3)自动聚类个数估计17，即如何自动确定最终聚类中类的个数。图2. 集成聚类基本框架图3. 多视图数据示例：网页数据中包括超链接、视频、图像、文本（3）多视图聚类随着信息技术的发展，我们能够获取越来越多的多视图数据，也称为多源数据，即一个数据集

17、中的每个样本存在着来自不同特征空间的多个表达，每一个表达称为一个视图或者数据源。来自多个视图的数据一般具有相类似的类结构。基于这个假设，多视图聚类就是将来自多个视图的数据进行有效整合，以得到比单视图分别聚类更加准确的聚类结果。代表性的工作有基于典型相关分析（canonical correlation analysis）的多视图聚类18与多视图谱聚类19，如图3所示。此外，带缺失数据的多视图聚类也是一个研究热点问题20。2.1.3分类器学习分类器学习方面，近几年最引人注目的进展在深度学习方面，即采用深度神经网络的特征学习和分类。深度学习被MIT技术评论评选为2013年突破性科学技术之一，它在人工

18、智能的各个领域取得卓越性能，尤其是在图像识别、自然语言理解和语音识别领域21。与传统人工特征抽取方法不同，深度学习本质在于自主地学习大数据内在的复杂结构特征，它是运用误差反向传播算法(Back Propagation, BP)训练机器(如：深度前馈网络和递归网络等)如何从数据中学习到分层的抽象特征。下面我们将介绍深度学习的典型模型，包括无监督预训练、深度卷积网络和递归神经网络等，以及展望其未来挑战。图 4. 左图为深度信度网络，右图为深度玻尔兹曼机（1）无监督预训练众所周知，直接运用BP算法训练深度网络往往会陷入局部解而得到差强人意的结果。2006年Hinton等人发表了对深度结构有着决定性意

19、义的预训练技术，即采用无监督预训练模型的逐层去初始化网络参数在一个“好”的局部最优解，再通过BP算法对参数进行微调，进而提升深度网络的分类和降维能力22。经典的方法有：深度信念网络和深度玻尔兹曼机等(如图4所示)。虽然从正则化和优化的角度可以揭示预训练技术的优势，但其有效性仍缺乏完善的理论解释。图5. 深度卷积网络(图片引自Yu CVPR12 Tutorial)（2）深度卷积网络源于神经生物学的局部感受野原理，LeCun等人提出采用BP算法训练的深度卷积网络(Deep convolutional nets, DConvNets) 23，它是由多个单层卷积神经网络组成，每个单层卷积神经网络包括卷

20、积、非线性变换和下采样3个阶段，如图5所示。此结构对图像的平移、小尺度缩放和扭曲等具有高度不变性。随着GPU、ReLU激活函数、DropOut和数据增广的引入， DConvNets在图像分类问题上获得了惊人的结果，即在ImageNet挑战库上将前5选项错误率从26.5%降到15.3%24 (2015年已降至4.94%25)。除此之外，它还在目标探测、目标跟踪、场景识别和3D物体识别等方面取得了优异的性能。图 6. 递归神经网络21（3）递归神经网络与前馈神经网络不同之处是，递归神经网络(recurrent neural networks, RNN)将神经元的输出反馈到输入，并采用通过时间的反向

21、传播算法(BPTT)进行训练，如图6所示。作为一类经典的RNN模型，长短时记忆网络(long short-term memory networks, LSTM)26能有效地学习和长期保存时间序列信息，并广泛地应用到自然语言理解和语音识别领域。特别是，结合DConvNets和LSTM27，深度学习能使机器从图像像素生成人类语言描述，进而像人一样去感知外界。2.1.4多分类器集成学习集成学习28是机器学习最基本的方法之一，曾被列为机器学习四大研究方向之首29，广泛应用于生物、医学、计算机视觉、图形图像处理等。其基本原理是利用一系列学习器进行学习，并使用某种规则把各学习结果进行整合从而获得比单一学习

22、器更好学习效果的一种学习方法。实际应用中的问题一般都是多类学习问题。因而，我们将介绍最近几年多分类器集成学习研究的主要代表性进展，其中包括理论分析与算法设计，以及展望多分类集成学习在大数据背景下一些研究的前沿挑战。（1）理论研究学习理论的研究对机器学习的发展有着重要的支撑和指导作用。在学习理论中，可学习性刻画了一个多分类学习问题能否通过学习得到最优分类器；泛化性刻画了从已有数据中建立的模型能否很好地处理新的数据；一致性研究通过凸优化获得的分类器是否是多分类学习的最优分类器。近年来多分类器集成学习理论研究热点包括以下几方面：可学习性研究30、泛化性研究31、一致性研究32。（2）算法设计Boos

23、ting是一类著名的主流集成学习方法，其基本原理是将很多弱分类器进行有效结合、从而获得学习效果更好、更鲁棒的学习方法。Boosting方法是多类学习中较为经典的学习方法之一，被广泛研究。近年研究热点包括以下几方面：i)基于特征互享ShareBoost多分类学习算法33；ii)基于深度基学习器DeepBoost多分类学习算法34；iii)基于非对称基学习器Boosting多分类算法35；iv)在线LPBoosting多分类学习算法36；v)代价敏感Boosting多分类学习算法37等。2.2计算机视觉计算机视觉研究对视觉感知数据（图像视频）的分析与理解，是模式识别领域的重要研究方向，涉及的问题很

24、多，目前的研究热点包括物体检测与识别（分类）、三维视觉、视频分析与监控等。2.2.1 物体检测物体检测是计算机视觉领域一个非常重要的研究方向。它的研究任务是：找出图像中的物体，并且给出这些物体的位置（通常以矩形框表示）。计算机视觉理论的奠基者Marr认为，计算机视觉要解决的问题是“What is where?”，即“在什么地方有什么物体”38。举一个简单的例子，在图7中，物体检测要解决的问题是：图片中有人吗？如果有，人在什么地方？（物体检测中常常用矩形框给出检测到的物体的位置）图7. 物体检测实例物体检测在实际应用中有非常重要的作用，如视频监控、身份识别、自动驾驶等。它看似是一个简单的问题，但

25、在应用中往往面临着诸多挑战。物体检测也面临着与物体分类类似的问题，例如待检测的物体可能在图像中的任意位置，同时物体的尺度和姿态也是任意的；不同光照，拍摄角度和距离会导致同一物体的图像差别很大；物体的非刚性形变和遮挡也会给检测带来诸多的困难39。又如，我们想要检测出某个特定类别的物体，但是同一类物体的不同实例往往会有千姿百态的变化；有时我们甚至想要同时检测出多类物体，或者想在一整段视频中进行实时的物体检测。这些因素都对检测算法提出了更高的要求。为了解决物体位置、尺度、姿态的多样性问题，滑动窗口被主流的物体检测方法所采用，即对于待检测的图像，将不同尺度的窗口滑动到图像的不同位置，然后判断窗口内是否

26、有待检测的物体。主流的算法一般会先对窗口内的图像提取特征，如梯度直方图（HOG）40，然后进行特征编码等处理，最后利用SVM等分类器做分类。为了解决物体的非刚性形变，一些研究者提出了形变部件模型（Deformable Part Models）41。将形变部件模型与结构化学习结合的隐条件随机场模型（latent CRFs）42，可以用来更好地替代SVM分类器。利用形状上下文和图像分割的技术也能提升物体检测算法的性能。自从2012年深度学习方法24在ImageNet物体分类问题上大获成功后，研究人员也成功地将深度学习用于物体检测43。虽然在大部分早期的研究中，物体检测和分割是两个分开的问题，但是近

27、年来也出现了一些将检测和分割紧密耦合在一起的方法44,45。2.2.2 物体分类物体分类的任务是判断一幅图像中是否存在某类别的物体。物体分类的一个应用是基于关键词的图像搜索引擎。系统在离线阶段对图像库中的图像进行分类（一幅图像可以有多个类别）。在在线阶段，用户只需输入关键词，搜索引擎就可以返回相关图像。物体分类是一个很困难的问题，主要原因有类内差异大（不同种类的椅子），具体物体本身的变化多（摆出各种姿态的狗），以及成像条件不同（拍照视角、光照等）。但是近年来物体分类取得了很大发展，相关文献很多，每年举办的竞赛（PASCAL VOC竞赛46和ImageNet竞赛47）吸引了众多机构参赛。2012

28、年前，主流的物体分类方法采用的是词袋（Bag-of-word）模型48加支持向量分类器。2012年之前每年PASCAL VOC竞赛的第一名采用的都是这一类方法。2012年Krzhevsky等人将卷积神经网络（CNN）24用到ImageNet物体分类竞赛中，获得了巨大的成功。ImageNet上2010和2011年的最佳算法的最低前五类错误率分别为28.2%和25.8%，而在2012年Krzhevsky等人的7层CNN将前五类错误率显著降至16.4%。在此之后的ImageNet最优算法也均使用了CNN。例如在2014年，最低前五类错误率达到6.7%，由Google公司的Szegedy等人实现。除了

29、物体分类问题，场景分类也受到了很多关注49,50。虽然这些物体检测与分类技术的原理可以推广到三维数据以及运动图像，但目前绝大部分研究是针对二维静态图像的。2.2.3 三维视觉既然二维图像是三维物体在成像平面的投影，基于三维信息的视觉模式识别从理论上讲应该具有更高的识别率，因此三维计算机视觉一直是计算机视觉领域的重要分支，其主要研究内容包括视觉特征匹配、多视几何理论、相机标定、相机定位、三维重建等。图像匹配：如何将不同图像中的同一视觉特征（例如同一把椅子的某个角）对应起来，是视觉特征匹配需要解决的问题，也是三维视觉的基本出发点，因为其中很多问题都依赖于视觉特征匹配。目前主流的匹配方法是基于局部图

30、像特征描述子的特征点匹配方法，它的基本步骤包括三步：首先在需要匹配的图像中进行特征点的提取；然后利用特征点周围的局部图像信息计算出一个向量对其进行描述，该向量称为局部图像特征描述子；最后计算待匹配图像之间特征点描述子之间的欧式距离，根据最近邻的原则得到特征点之间的匹配关系。SIFT51是该领域使用最多的视觉特征点提取与特征描述子计算方法，是目前通用性最强的方法，缺点是计算速度慢。FAST52是目前最快的视觉特征点检测算法，而BRIEF53等二进制特征描述子是目前最快的特征描述子计算方法。在鲁棒性方面的描述子研究中，Fan等54提出的基于灰度序的描述子对光照有着很强的鲁棒性，Xu等55等提出了旋

31、转不变的鲁棒描述子。多视几何理论：2000年，Hartley和Zisserman 56出版专著Multiple View Geometry一书，标志着多视几何理论的研究趋于成熟。2005年，Kahl和Henrion57提出一个多视几何中的统计优化计算框架，解决了传统算法中给出的只是局部最优或者非优的问题，给出系列多视几何典型问题的全局最优解。之后若干年，多视几何理论研究进入一个在优化方面发展的热点时期。最近5年，也有相关的工作持续出现58-60。在其它方面，Pajdla等人61全面系统地给出了多视几何中的最小问题求解方法，同时Naroditsky等62给出最小几何问题的优化多项式求解方法。Ponce 63 研究了射影形状的图像轮廓。一些改进和完善性的工作有：Fredriksson等64研究了两视图相机之间的平移快速与可靠估计；Ponce和Hebert65应用射影线几何给出了三视下可重构的收敛的充分必要条件。相机标定: 最流行的相机标定方法是Zhang136的基于平面已知点的方法。由于点需要建立坐标系和进行匹配，一系列基于二次曲线的标定方法产生67。自2001年Geyer和Daniilidis68提出反射折射相机球射影模型后，全向相机标定的研究进入一个高潮时期，之后的每年都有专门的相

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？