W是一个正交矩阵,YT是XT的转置,且YT的第一列由第一主成分组成,第二列由第二主成分组成,依此类推。
为了得到一种降低数据维度的有效办法,我们可以把X映射到一个只应用前面L个向量的低维空间中去,WL:
where
with
the
rectangularidentitymatrix.
X的单向量矩阵W相当于协方差矩阵的本征矢量C=XXT,
在欧几里得空间给定一组点数,第一主成分对应于通过多维空间平均点的一条线,同时保证各个点到这条直线距离的平方和最小。
去除掉第一主成分后,用同样的方法得到第二主成分。
依此类推。
在Σ中的奇异值均为矩阵XXT的本征值的平方根。
每一个本征值都与跟它们相关的方差是成正比的,而且所有本征值的总和等于所有点到它们的多维空间平均点距离的平方和。
PCA提供了一种降低维度的有效办法,本质上,它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去,因此,降低维度必定是失去讯息最少的方法。
PCA具有保持子空间拥有最大方差的最优正交变换的特性。
然而,当与离散余弦变换相比时,它需要更大的计算需求代价。
非线性降维技术相对于PCA来说则需要更高的计算要求。
PCA对变量的缩放很敏感。
如果我们只有两个变量,而且它们具有相同的样本方差,并且成正相关,那么PCA将涉及两个变量的主成分的旋转。
但是,如果把第一个变量的所有值都乘以100,那么第一主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,第二主成分也将和第二个原始变量几乎一致。
这就意味着当不同的变量代表不同的单位(如温度和质量)时,PCA是一种比较武断的分析方法。
一种使PCA不那么武断的方法是使用变量缩放以得到单位方差。
通常,为了确保第一主成分描述的是最大方差的方向,我们会使用平均减法进行主成分分析。
如果不执行平均减法,第一主成分有可能或多或少的对应于数据的平均值。
另外,为了找到近似数据的最小均方误差,我们必须选取一个零均值。
假设零经验均值,数据集X的主成分w1可以被定义为:
为了得到第k个主成分,必须先从X中减去前面的
个主成分:
然后把求得的第k个主成分带入数据集,得到新的数据集,继续寻找主成分。
PCA类似于一个线性隐层神经网络。
隐含层K个神经元的权重向量收敛后,将形成一个由前K个主成分跨越空间的基础。
但是与PCA不同的是,这种技术并不一定会产生正交向量。
2.4独立成分分析(ICA)
在统计学中,ICA是一种利用统计原理进行计算的方法。
它是一个线性变换。
这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。
独立成分分析的最重要的假设就是信号源统计独立。
这个假设在大多数盲信号分离的情况中符合实际情况。
即使当该假设不满足时,仍然可以用独立成分分析来把观察信号统计独立化,从而进一步分析数据的特性。
独立成分分析的经典问题是“鸡尾酒会问题”(cocktailpartyproblem)。
该问题描述的是给定混合信号,如何分离出鸡尾酒会中同时说话的每个人的独立信号。
独立成分分析并不能完全恢复信号源的具体数值,也不能解出信号源的正负符号、信号的级数或者信号的数值范围。
观察的数据或者信号用随机向量
表示,独立成分量可以定义为向量
。
独立成分分析的目的是通过线性变换把观察的数据
转换成独立成分向量
而独立成分分量满足互相统计独立的特性。
统计独立的量化通常通过某指定函数
来衡量。
2.5基于视觉显著性(saliency)模型的快速场景分析
Saliency模型是受早期灵长类动物的神经结构启发提出的一种视觉注意的系统。
多种不同比例的特征图形结合形成一张saliency图,然后由动态神经网络选取视觉上最引人注意的点来降低显著性。
该系统将复杂的场景理解问题,分解为快速的场景选择,找出最引人注目的点。
尽管灵长类动物的神经元计算能力有限,但是对复杂场景的实时理解有着非常出色的能力。
所谓的‘视觉焦点’,通过两种方式扫描场景图片,一种是快速的自底向上,saliency驱动,独立于任务的方式,一种是自顶向下,缓慢,意志控制并基于任务的方式。
注意力模型包括‘动态路由’模型,在这个模型中,只有视觉区域中的一小部分信息可以通过视觉皮层被处理。
这些信息是通过自顶向下和自底向上控制下的皮层连接动态变化或者事件短时间模式建立的。
该模型采用的是Koch和Ullman提出的第二种生物上可行的结构。
模型的理论基础有许多模型。
比如:
特征结合理论,是对人类视觉搜索策略的一种解释。
首先将视觉输入分解为一组特征图,接着空间上的不同位置会相互竞争,直到找出显著点,因此只有局部显著的点能够被保留下来。
所有特征图自下而上汇总形成saliency图,这样就能找出整个场景的局部显著点。
这种方式,是灵长类动物大脑的后顶叶形成的对视觉输入的处理结果图,模型的saliency图具有生成注意力转换的能力。
因此此模型可以表示自底向上的saliency模型说明,而不需要自顶向下的帮助进行注意力转移。
这个框架的结构,对于计算机视觉计算技术而言,提供了大量的并行方法,我们可以通过快速选取出一组图片中感兴趣的点来分析更复杂和更消耗时间的物体识别过程。
Saliency模型:
程序输入是一张静态的彩色图片,通常采用640*480的图片,通过利用高斯金字塔构建9种不同的空间尺度,对输入图像进行低通过滤和二次采样,生成从1:
1到1:
256这8个幅度的横向和纵向的图像缩小因素。
每一个特征都是通过计算一组线性的“center-surround”运算。
类似于视觉接受域:
典型的视觉神经元对视野中心的区域一小块区域特别敏感,而刺激更广泛的外围区域则会抑制神经元的反应。
对局部不连续空间敏感的这样一种结构,特别适合用于检测明显与周围不同的局部特征,因此被用作模拟视网膜、外侧膝状体和初级视皮层的运算法则。
Center-surround在实现中会有从精细到粗犷的不同尺度。
中心分别取每个像素取c为2倍、3倍、4倍,外围则是每个像素对应s对应s=c+δ,δ取3或4。
两张图的跨尺度区分是通过修改精细尺度和点对点做减法获取的。
通过使c和δ两方面,可以获取真正的中心区域和周围区域的多尺度特征提取。
2.6提取早期视觉特征
模型研究的特征分为三种,分别为明暗特征,色彩特征和方向特征。
r,g,b分别代表输入图像的红色、绿色和蓝色,图像的亮度通道I通过I=(r+g+b)/3计算得到的。
I用于创建高斯金字塔I(σ),其中σ取0到8的整数。
r,g,b通道通过计算I进行正规化,将色彩从亮度中解耦。
然而由于色彩变换在亮度特别低的时候是无法感知的,因此是不显著的,因此正规化仅仅作用于I大于整张图片亮度最大值十分之一的部位。
4个调和后的色彩通道分别为红色通道R=r-(g+b)/2,绿色通道G=g-(r+b)/2,蓝色通道B=b-(r+g)/2和黄色通道Y=(r+g)/2-|r-g|/2-b,通过这4个通道,由此,我们可以创建R(σ),G(σ),B(σ),andY(σ)四个高斯金字塔。
前面定义的center-surround差值通过中心的精细比例c和外围的粗糙比例s的差值产生了特征图。
第一组特征图考虑的是亮度的对比,哺乳动物是通过神经元对暗中心区域和亮外围区域或亮中心区域作用于暗外围区域的效果进行分别的。
这两种类型的敏感是用6组亮度图I(c,s)同时计算的,c分别取2,3,4,s=c+δ,δ分别取3或4:
第二组特征图与前面类似,是为色彩通道构建的,在人类的视觉皮层中是通过一种称为“双色对比”的系统来处理色彩的:
在感受野中部的神经元会被一种颜色(例如红色)刺激产生兴奋而被另一种颜色(例如绿色)抑制。
反之对外围的神经元也成立。
这种空间色彩的对比在人脑视觉感受皮层中存在红/绿、绿/红、蓝/黄和黄/蓝4组对比。
因此,通过创建模型中的RG(c,s)特征图可以同时模拟红/绿和绿/红两种对比,BY(c,s)则可以模拟蓝/黄和黄/蓝两种对比:
第三组特征图是局部方向特征图,通过Gabor金字塔作用于亮度图I产生方向显著图O(σ,θ),σ取0到8的正整数来表示比例,θ是表示的方向,分别取0°,45°,90°和135°。
Gabor过滤是余弦光栅和2D高斯包络的乘积,结果近似于初级视皮层感受野对方向的敏感辨识程度。
方向特征图O(c,s,θ),表示了中心和周围尺度的方向对比。
综上所述,共通过计算生成了42张特征图,其中包括6张亮度图,12张颜色图和24张方向图。
2.7显著图(TheSaliencyMap)
显著图用于通过常量表示一个区域的显著性。
显著图与特征图结合起来,以动态神经网络为模型提供了自低向上的构建特征图的方法。
在结合不同的特征图时,由于各张特征图之间有着不同的值域,且提取方式不同,因此数值上不具有可比性。
另外由于要结合所有的42张图,因此出现在少数几张图中几个位置的视觉显著可能会被噪声或者其他较为不显著的物体遮挡。
由于缺少自顶向下的监督,我们提出一种对图进行正规化的方法,用N(.)来表示。
通过正规化可以达到的效果为,增强只有少量显著点的显著图,削弱显著点较多的显著图,步骤如下:
1.将每张图进行正规化到一个固定的值域[0..M],以消除振幅的差别。
2.找出每张图的全局极大值M,并计算所有局部极大值的平均值m
3.对整个特征图进行运算,乘上(M-m)^2
只有局部极大值才会被计算,这样正规化就可以忽略同质的区域。
比较整张图的极大值和平均值可以看出最活跃的部位和平均值的区别。
当这个差别较大的时候,最活跃的区域就会较为明显,若这个差别较小,则这张图就会被抑制。
正规化方法的生物学解释在于,它简单地重现了外侧皮层的抑制机制,相邻的类似特征会通过一种特殊的物理链接相互抑制。
特征图分别被合并到尺度为4的三张显著图,分别为亮度图I,颜色图C和方向图O。
计算方法如公式所示,其中跨尺度的加法是由将每幅图降尺度到尺度四再进行像素对像素的加法:
对于方向而言,首先根据给定的角度和六张特征图生成中间步骤的四张图,接着整合成一张方向特征图。
创建三张单独的通道图I,C,O和他们各自的正规化是基于假设:
类似的特征会为了显著而激烈竞争,然而不同的特性对于显著图会有各自的表现。
三张图片经过正规化后取平均值即可得到最终的saliency图。
在任意时刻,saliency图的最大值定义了整张图片最显著的位置,也就是注意力焦点所在的位置(FOA)。
我们可以简单地认为,图片中最活跃的区域就是模型关注的下一个焦点。
然而,在一个神经元可行的实现中,我们利用比例为4的2D积聚触发模型对saliency图进行建模。
模型中的这些神经元有一个电容可以将突触输入的电量聚集起来进行充电,一个漏电导和一个电压阈值。
当电压达到了这个阈值,就会生成一个触发原型,并且电容的电量会减少到0。
尺寸为4的saliency图会输入到一个2D的赢家通吃(WTA)神经网络,不同单元之间的突触交互可以保证最活跃的区域被保留,而其他的区域都被抑制。
显著图(SM)兴奋接收区域的神经元都是独立的,在更加显著位置的SM神经元增长会更快(然而这些神经元仅用于单纯的聚集但不触发)。
每一个SM神经元都会刺激周围的WTA神经元。
所有的WTA神经元都是独自进化的,知道其中一个首先达到阈值,同时触发三个机制。
过程可以概括成三个步骤,如下:
1)FOA转移到赢家神经元的区域;
2)对于WTA的抑制机制被处罚接着抑制WTA神经元;
3)在SM区域,局部抑制被短暂触发,方式是在FOA的区域根据位置和大小进行抑制。
这样不仅可以动态的转移FOA,从而使得次显著的点也能够成为赢家,还可以防止FOA立即回到之前的位置。
这种“返回抑制”已经在人类视觉心理物理学中得到了证明。
为了使得模型可以紧接着跳转到当前注意点附近的显著点区域,会短暂地刺激在FOA附近的SM区域。
(这种方式被称为Koch和Ulman法则)。
由于我们没有创建任何自顶向下的注意部件,FOA仅是一个半径固定为输入图片宽度或高度六分之一的圆盘,时间常数,电导,和模拟的神经元阈值都是被选定的,从而FOA可以从一个显著点在30-79毫秒左右跳到下一个显著点,并且上一个显著点的区域会被抑制500-900毫秒,这个过程与视觉心理物理学中是被观测到的。
这些延迟使得可以充分扫描图片并且避免了在几个显著点间反复循环。
在具体实现中,这些参数是固定的,在研究中所有图片在系统中的结果都是稳定的。
2.8与空间频率内容模型的比较
Reinagel和Zador使用了眼球追踪装置分析根据人类自由观看灰度图像生成的沿眼扫描局部空间频率分布。
他们发现,总的来说,在关注区域的空间频率内容要显著高于随机区域。
虽然在意志力控制下,眼轨迹是可以与注意力轨迹不同的,但是视觉注意力经常被认为是一个先于眼球运动的机制,对于自由的浏览有很大的影响。
因此,我们便探究了是否我们的模型可以重现Reinagel和Zador的发现。
对于空间频率内容(SFC)我们给出了一种简单的表示方式:
对于一个给定的图像位置,从每个灰度、R、G、B、Y图中提出一个16*16的图像块,然后对这个图像块进行2D快速傅里叶变换(FFTs)。
对于每个图像块而言,一个阈值用于计算不可忽略的FFT数系数,阈值对应于FFT刚感知光栅的丰富度(1%的对比度)。
SFC表示五个相应图像块不可忽视系数数目的平均值。
选定相应大小和尺度的图像块,从而使得SFC对RGB通道和灰度通道中进行计算。
通过这种方式,可以生成一个尺度为4的SFC图,并于显著图进行比较。
(a)是色彩图片的例子;(b)是相应的显著图输入;(c)是空间频率内容(SFC)图;(d)黄色圈标出了通过显著图找出的显著点,红色方框标出了SFC找出的显著点,从结果可以看出,显著图对于噪声的容忍度很高,然而SFC受噪声干扰很大。
显著图在FOA模型中常被用到,但是很少提到具体构建和动态变化,在这里,我们研究了如何进行前馈特征提取,图像组合策略和显著图的时间特性都对于整体系统性能有贡献。
我们用许多人工图像对模型进行了测试从而确保它的正常运作。
比如,很多相同形状但背景不同,按照对比度递减的顺序排列的物体。
模型表现出了对于噪声良好的容忍性,尤其是对于噪声没有直接影响目标主要特征的图。
模型可以重现人类对于许多弹出任务的视觉表现。
当一个目标在方向,颜色,灰度或者大小方面,与周围干扰项不同时,它总是可以成为最显著的点。
反之,如果目标与干扰项在多种特征中存在区别(比如在红色竖直条和绿色水平条图中,有一个唯一的红色水平条),找到显著点所需的搜索时间与干扰项数目成正比。
这两种结果的结论已经被广泛地观察和记录在人类视觉研究中。
我们还是用了真实图片进行了测试,比如真实的户外图片和人工图画,通过正规化对图片进行调整。
由于这些图片没有被其他人作为实验素材使用,所以无从进行比较。
我们建立的Saliency模型是一个架构和部件都模仿人类视觉属性的模型,本模型可以良好的处理复杂的自然环境图像,例如,它可以快速检测到车流中的显著交通信号(圆形,三角形,正方形,长方形),颜色(红色,蓝色,白色,橙色,黑色),和文字信息(字母,箭头,条纹,圆圈)。
从计算机的角度而言,此模型最大的优势在于有大量并行运算,包括早期特征提取阶段的大量操作和视觉注意系统。
我们模型的结构可以支持在硬件上进行实时操作,这与之前其他模型有较大不同。
2.9场景主旨模型(Gist)
随着计算机视觉技术的发展,机器场景识别的能力也在不断提高,这方面的研究也日益丰富,目前主要分为基于物体场景识别、基于区域的场景识别、基于内容的场景识别和生物可行场景识别。
因为尽管硬件性能和计算算法在不断提升和优化,目前的场景识别水平仍然和人眼相比差距甚远,所以采用生物可行场景识别是一个新颖而充满潜力的研究方向。
gist算法是一种应用于机器人的场景识别算法。
这种算法的优点在于,它具有生物学上的可行性,并且计算复杂度较低,与其他的视觉注意模型共享相同的底层特征,可以在机器人上与其他的模型进行并行计算,计算速度快,效率高。
2.10视觉皮层特征提取
和视觉引导,Saliency计算机制相同,人类还有一项绝妙的快速获取图像“要点(Gist)”的能力,比如快速在镜头和人眼前闪过一张图像,仅仅是一闪而过,就足以让观察者回答图像是一张室内厨房的图,图中有很多五颜六色的物体。
由此我们可以发现,仅仅需要100ms或者更短的时间,人们就可以对图像产生整体的印象(比如,室内还是室外,厨房还是办公室等)一些大体的特征也可以被获取,然而,更让人惊讶的是,如果需要观察者