W就是一个正交矩阵,YT就是XT得转置,且YT得第一列由第一主成分组成,第二列由第二主成分组成,依此类推。
eKpD59Q。
uXr3i4s。
为了得到一种降低数据维度得有效办法,我们可以把X映射到一个只应用前面L个向量得低维空间中去,WL:
6rywT57。
a8Xru7r。
where
with
the
rectangularidentitymatrix、
X得单向量矩阵W相当于协方差矩阵得本征矢量C=XXT,
在欧几里得空间给定一组点数,第一主成分对应于通过多维空间平均点得一条线,同时保证各个点到这条直线距离得平方与最小。
去除掉第一主成分后,用同样得方法得到第二主成分。
依此类推。
在Σ中得奇异值均为矩阵XXT得本征值得平方根。
每一个本征值都与跟它们相关得方差就是成正比得,而且所有本征值得总与等于所有点到它们得多维空间平均点距离得平方与。
PCA提供了一种降低维度得有效办法,本质上,它利用正交变换将围绕平均点得点集中尽可能多得变量投影到第一维中去,因此,降低维度必定就是失去讯息最少得方法。
PCA具有保持子空间拥有最大方差得最优正交变换得特性。
然而,当与离散余弦变换相比时,它需要更大得计算需求代价。
非线性降维技术相对于PCA来说则需要更高得计算要求。
YTi8Aps。
Ab5xBWm。
PCA对变量得缩放很敏感。
如果我们只有两个变量,而且它们具有相同得样本方差,并且成正相关,那么PCA将涉及两个变量得主成分得旋转。
但就是,如果把第一个变量得所有值都乘以100,那么第一主成分就几乎与这个变量一样,另一个变量只提供了很小得贡献,第二主成分也将与第二个原始变量几乎一致。
这就意味着当不同得变量代表不同得单位(如温度与质量)时,PCA就是一种比较武断得分析方法。
一种使PCA不那么武断得方法就是使用变量缩放以得到单位方差。
oYl1rEU。
OFTn4Nu。
通常,为了确保第一主成分描述得就是最大方差得方向,我们会使用平均减法进行主成分分析。
如果不执行平均减法,第一主成分有可能或多或少得对应于数据得平均值。
另外,为了找到近似数据得最小均方误差,我们必须选取一个零均值。
wtAfDyR。
gAZUQag。
假设零经验均值,数据集X得主成分w1可以被定义为:
为了得到第k个主成分,必须先从X中减去前面得
个主成分:
然后把求得得第k个主成分带入数据集,得到新得数据集,继续寻找主成分。
PCA类似于一个线性隐层神经网络。
隐含层K个神经元得权重向量收敛后,将形成一个由前K个主成分跨越空间得基础。
但就是与PCA不同得就是,这种技术并不一定会产生正交向量。
dpxCCWJ。
Lyu6VET。
2、4独立成分分析(ICA)
在统计学中,ICA就是一种利用统计原理进行计算得方法。
它就是一个线性变换。
这个变换把数据或信号分离成统计独立得非高斯得信号源得线性组合。
wjK6blf。
0ZWPdva。
独立成分分析得最重要得假设就就是信号源统计独立。
这个假设在大多数盲信号分离得情况中符合实际情况。
即使当该假设不满足时,仍然可以用独立成分分析来把观察信号统计独立化,从而进一步分析数据得特性。
独立成分分析得经典问题就是“鸡尾酒会问题”(cocktailpartyproblem)。
该问题描述得就是给定混合信号,如何分离出鸡尾酒会中同时说话得每个人得独立信号。
J6u3UTY。
O3hkKJq。
独立成分分析并不能完全恢复信号源得具体数值,也不能解出信号源得正负符号、信号得级数或者信号得数值范围。
FZOrces。
awa2hNP。
观察得数据或者信号用随机向量
表示,独立成分量可以定义为向量
。
独立成分分析得目得就是通过线性变换把观察得数据
转换成独立成分向量
而独立成分分量满足互相统计独立得特性。
统计独立得量化通常通过某指定函数
来衡量。
m0Crjxu。
WC9TsUk。
2、5基于视觉显著性(saliency)模型得快速场景分析
Saliency模型就是受早期灵长类动物得神经结构启发提出得一种视觉注意得系统。
多种不同比例得特征图形结合形成一张saliency图,然后由动态神经网络选取视觉上最引人注意得点来降低显著性。
该系统将复杂得场景理解问题,分解为快速得场景选择,找出最引人注目得点。
iOmxPcf。
XJYax1V。
尽管灵长类动物得神经元计算能力有限,但就是对复杂场景得实时理解有着非常出色得能力。
所谓得‘视觉焦点’,通过两种方式扫描场景图片,一种就是快速得自底向上,saliency驱动,独立于任务得方式,一种就是自顶向下,缓慢,意志控制并基于任务得方式。
1XQjfqa。
3IjKUcW。
注意力模型包括‘动态路由’模型,在这个模型中,只有视觉区域中得一小部分信息可以通过视觉皮层被处理。
这些信息就是通过自顶向下与自底向上控制下得皮层连接动态变化或者事件短时间模式建立得。
yWu8GpF。
wCyhTYm。
该模型采用得就是Koch与Ullman提出得第二种生物上可行得结构。
模型得理论基础有许多模型。
比如:
特征结合理论,就是对人类视觉搜索策略得一种解释。
首先将视觉输入分解为一组特征图,接着空间上得不同位置会相互竞争,直到找出显著点,因此只有局部显著得点能够被保留下来。
所有特征图自下而上汇总形成saliency图,这样就能找出整个场景得局部显著点。
这种方式,就是灵长类动物大脑得后顶叶形成得对视觉输入得处理结果图,模型得saliency图具有生成注意力转换得能力。
因此此模型可以表示自底向上得saliency模型说明,而不需要自顶向下得帮助进行注意力转移。
tpbfXw7。
0P2l89u。
这个框架得结构,对于计算机视觉计算技术而言,提供了大量得并行方法,我们可以通过快速选取出一组图片中感兴趣得点来分析更复杂与更消耗时间得物体识别过程。
dER6uPq。
i1LVzb0。
Saliency模型:
程序输入就是一张静态得彩色图片,通常采用640*480得图片,通过利用高斯金字塔构建9种不同得空间尺度,对输入图像进行低通过滤与二次采样,生成从1:
1到1:
256这8个幅度得横向与纵向得图像缩小因素。
每一个特征都就是通过计算一组线性得“center-surround”运算。
类似于视觉接受域:
典型得视觉神经元对视野中心得区域一小块区域特别敏感,而刺激更广泛得外围区域则会抑制神经元得反应。
对局部不连续空间敏感得这样一种结构,特别适合用于检测明显与周围不同得局部特征,因此被用作模拟视网膜、外侧膝状体与初级视皮层得运算法则。
Center-surround在实现中会有从精细到粗犷得不同尺度。
中心分别取每个像素取c为2倍、3倍、4倍,外围则就是每个像素对应s对应s=c+δ,δ取3或4。
两张图得跨尺度区分就是通过修改精细尺度与点对点做减法获取得。
通过使c与δ两方面,可以获取真正得中心区域与周围区域得多尺度特征提取。
hzOI4oL。
wKWMZjT。
2、6提取早期视觉特征
模型研究得特征分为三种,分别为明暗特征,色彩特征与方向特征。
r,g,b分别代表输入图像得红色、绿色与蓝色,图像得亮度通道I通过I=(r+g+b)/3计算得到得。
I用于创建高斯金字塔I(σ),其中σ取0到8得整数。
r,g,b通道通过计算I进行正规化,将色彩从亮度中解耦。
然而由于色彩变换在亮度特别低得时候就是无法感知得,因此就是不显著得,因此正规化仅仅作用于I大于整张图片亮度最大值十分之一得部位。
4个调与后得色彩通道分别为红色通道R=r-(g+b)/2,绿色通道G=g-(r+b)/2,蓝色通道B=b-(r+g)/2与黄色通道Y=(r+g)/2-|r-g|/2-b,通过这4个通道,由此,我们可以创建R(σ),G(σ),B(σ),andY(σ)四个高斯金字塔。
tcvxqfA。
8hUawgV。
前面定义得center-surround差值通过中心得精细比例c与外围得粗糙比例s得差值产生了特征图。
第一组特征图考虑得就是亮度得对比,哺乳动物就是通过神经元对暗中心区域与亮外围区域或亮中心区域作用于暗外围区域得效果进行分别得。
这两种类型得敏感就是用6组亮度图I(c,s)同时计算得,c分别取2,3,4,s=c+δ,δ分别取3或4:
fTOR8N8。
Tq2o1tW。
第二组特征图与前面类似,就是为色彩通道构建得,在人类得视觉皮层中就是通过一种称为“双色对比”得系统来处理色彩得:
在感受野中部得神经元会被一种颜色(例如红色)刺激产生兴奋而被另一种颜色(例如绿色)抑制。
反之对外围得神经元也成立。
这种空间色彩得对比在人脑视觉感受皮层中存在红/绿、绿/红、蓝/黄与黄/蓝4组对比。
因此,通过创建模型中得RG(c,s)特征图可以同时模拟红/绿与绿/红两种对比,BY(c,s)则可以模拟蓝/黄与黄/蓝两种对比:
XJRJgYZ。
QsDMpoV。
第三组特征图就是局部方向特征图,通过Gabor金字塔作用于亮度图I产生方向显著图O(σ,θ),σ取0到8得正整数来表示比例,θ就是表示得方向,分别取0°,45°,90°与135°。
Gabor过滤就是余弦光栅与2D高斯包络得乘积,结果近似于初级视皮层感受野对方向得敏感辨识程度。
方向特征图O(c,s,θ),表示了中心与周围尺度得方向对比。
kAu5pMI。
oQXX5zj。
综上所述,共通过计算生成了42张特征图,其中包括6张亮度图,12张颜色图与24张方向图。
2、7显著图(TheSaliencyMap)
显著图用于通过常量表示一个区域得显著性。
显著图与特征图结合起来,以动态神经网络为模型提供了自低向上得构建特征图得方法。
l4YwDVk。
Bte4i4T。
在结合不同得特征图时,由于各张特征图之间有着不同得值域,且提取方式不同,因此数值上不具有可比性。
另外由于要结合所有得42张图,因此出现在少数几张图中几个位置得视觉显著可能会被噪声或者其她较为不显著得物体遮挡。
由于缺少自顶向下得监督,我们提出一种对图进行正规化得方法,用N(、)来表示。
通过正规化可以达到得效果为,增强只有少量显著点得显著图,削弱显著点较多得显著图,步骤如下:
T11PSQB。
jh2PAMX。
1、将每张图进行正规化到一个固定得值域[0、、M],以消除振幅得差别。
2、找出每张图得全局极大值M,并计算所有局部极大值得平均值m
3、对整个特征图进行运算,乘上(M-m)^2
只有局部极大值才会被计算,这样正规化就可以忽略同质得区域。
比较整张图得极大值与平均值可以瞧出最活跃得部位与平均值得区别。
当这个差别较大得时候,最活跃得区域就会较为明显,若这个差别较小,则这张图就会被抑制。
正规化方法得生物学解释在于,它简单地重现了外侧皮层得抑制机制,相邻得类似特征会通过一种特殊得物理链接相互抑制。
JkEpigd。
vQWefIl。
特征图分别被合并到尺度为4得三张显著图,分别为亮度图I,颜色图C与方向图O。
计算方法如公式所示,其中跨尺度得加法就是由将每幅图降尺度到尺度四再进行像素对像素得加法:
alLxL3F。
50t4NCK。
对于方向而言,首先根据给定得角度与六张特征图生成中间步骤得四张图,接着整合成一张方向特征图。
创建三张单独得通道图I,C,O与她们各自得正规化就是基于假设:
类似得特征会为了显著而激烈竞争,然而不同得特性对于显著图会有各自得表现。
三张图片经过正规化后取平均值即可得到最终得saliency图。
wFSWYun。
nRmrZ4B。
在任意时刻,saliency图得最大值定义了整张图片最显著得位置,也就就是注意力焦点所在得位置(FOA)。
我们可以简单地认为,图片中最活跃得区域就就是模型关注得下一个焦点。
然而,在一个神经元可行得实现中,我们利用比例为4得2D积聚触发模型对saliency图进行建模。
模型中得这些神经元有一个电容可以将突触输入得电量聚集起来进行充电,一个漏电导与一个电压阈值。
当电压达到了这个阈值,就会生成一个触发原型,并且电容得电量会减少到0。
尺寸为4得saliency图会输入到一个2D得赢家通吃(WTA)神经网络,不同单元之间得突触交互可以保证最活跃得区域被保留,而其她得区域都被抑制。
seEq6KB。
rcos5s3。
显著图(SM)兴奋接收区域得神经元都就是独立得,在更加显著位置得SM神经元增长会更快(然而这些神经元仅用于单纯得聚集但不触发)。
每一个SM神经元都会刺激周围得WTA神经元。
所有得WTA神经元都就是独自进化得,知道其中一个首先达到阈值,同时触发三个机制。
olHqCkk。
Yf8YyyU。
过程可以概括成三个步骤,如下:
1)FOA转移到赢家神经元得区域;
2)对于WTA得抑制机制被处罚接着抑制WTA神经元;
3)在SM区域,局部抑制被短暂触发,方式就是在FOA得区域根据位置与大小进行抑制。
这样不仅可以动态得转移FOA,从而使得次显著得点也能够成为赢家,还可以防止FOA立即回到之前得位置。
pwsHyvE。
Mu9lYlb。
这种“返回抑制”已经在人类视觉心理物理学中得到了证明。
为了使得模型可以紧接着跳转到当前注意点附近得显著点区域,会短暂地刺激在FOA附近得SM区域。
(这种方式被称为Koch与Ulman法则)。
RBF6tba。
iOiN4aO。
由于我们没有创建任何自顶向下得注意部件,FOA仅就是一个半径固定为输入图片宽度或高度六分之一得圆盘,时间常数,电导,与模拟得神经元阈值都就是被选定得,从而FOA可以从一个显著点在30-79毫秒左右跳到下一个显著点,并且上一个显著点得区域会被抑制500-900毫秒,这个过程与视觉心理物理学中就是被观测到得。
这些延迟使得可以充分扫描图片并且避免了在几个显著点间反复循环。
在具体实现中,这些参数就是固定得,在研究中所有图片在系统中得结果都就是稳定得。
iJsYuOc。
rj0ZhaM。
2、8与空间频率内容模型得比较
Reinagel与Zador使用了眼球追踪装置分析根据人类自由观瞧灰度图像生成得沿眼扫描局部空间频率分布。
她们发现,总得来说,在关注区域得空间频率内容要显著高于随机区域。
虽然在意志力控制下,眼轨迹就是可以与注意力轨迹不同得,但就是视觉注意力经常被认为就是一个先于眼球运动得机制,对于自由得浏览有很大得影响。
因此,我们便探究了就是否我们得模型可以重现Reinagel与Zador得发现。
UCBpEc7。
c25pdl9。
对于空间频率内容(SFC)我们给出了一种简单得表示方式:
对于一个给定得图像位置,从每个灰度、R、G、B、Y图中提出一个16*16得图像块,然后对这个图像块进行2D快速傅里叶变换(FFTs)。
对于每个图像块而言,一个阈值用于计算不可忽略得FFT数系数,阈值对应于FFT刚感知光栅得丰富度(1%得对比度)。
SFC表示五个相应图像块不可忽视系数数目得平均值。
选定相应大小与尺度得图像块,从而使得SFC对RGB通道与灰度通道中进行计算。
通过这种方式,可以生成一个尺度为4得SFC图,并于显著图进行比较。
RPLFBkv。
LRCF5tf。
(a)就是色彩图片得例子;(b)就是相应得显著图输入;(c)就是空间频率内容(SFC)图;(d)黄色圈标出了通过显著图找出得显著点,红色方框标出了SFC找出得显著点,从结果可以瞧出,显著图对于噪声得容忍度很高,然而SFC受噪声干扰很大。
oKu4ahj。
AqJcLr0。
显著图在FOA模型中常被用到,但就是很少提到具体构建与动态变化,在这里,我们研究了如何进行前馈特征提取,图像组合策略与显著图得时间特性都对于整体系统性能有贡献。
BuKRdby。
Db3RKbB。
我们用许多人工图像对模型进行了测试从而确保它得正常运作。
比如,很多相同形状但背景不同,按照对比度递减得顺序排列得物体。
模型表现出了对于噪声良好得容忍性,尤其就是对于噪声没有直接影响目标主要特征得图。
Hl65TCm。
yxWviY1。
模型可以重现人类对于许多弹出任务得视觉表现。
当一个目标在方向,颜色,灰度或者大小方面,与周围干扰项不同时,它总就是可以成为最显著得点。
反之,如果目标与干