计算机专业文献翻译以中心为主且适合有效率层级目标检测的评估文档格式.docx
《计算机专业文献翻译以中心为主且适合有效率层级目标检测的评估文档格式.docx》由会员分享,可在线阅读,更多相关《计算机专业文献翻译以中心为主且适合有效率层级目标检测的评估文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
1引言
进行目标识别的难题之一是应付目标大小和方位的多样化。
一个目标可以以任意大小出现在一副画的任何地方,这里有两个解决该问题的一般方法。
“不变式”方法试图使用特征几何量[6][7][25][28]或光度测定道具[4][15][22]的过滤器,该方法的最关键之处是找出具有不变性和具有判别力的特征,尤其是对象面部之类的自然物体。
另一个方面,“穷举搜索“法包括在只有忍受目标位置和大小的有界变差的情况下建立对目标和”非目标“进行区分的分类器。
该方法通过
一副图中的方位和大小进行详尽的扫描,以此来找出目标。
图1图解了该方法,分离器对图片中的所有“窗口”进行评估。
该方法的缺点是象这样详尽式的搜索很耗时。
Figure1。
目标检测的详细搜索
减少详细搜索计算成本的一个方法就是如图2所示那样来将分离过程细分成子过程,每一个子分类阶段对是否拒绝输入,并将其分类到非目标中去或继续用下一个子分类阶段对其进行评估。
最后被筛选出来的就被归类到所属的目标中。
该策略是以最少的计算量来分离出大量的非目标窗口。
Figure2子分类的层叠
使用类似层叠方法的思想已经沿用了数十年,而且于70,80年代,在自动目标识别技术上广泛使用[3]。
近来大量的相关技术已经应用于面部检测,包括[2][9][10][14][17][19][21][23][24][26]。
尤其,Viola和Jones[24]和他们在研究方法上将层叠和基于整体图象的有利计算的特征相结合,并在各方面都取得了进展,使面部检测的效率提高。
类似Viola和Jones[24]的大部分层叠法应用了我们所介绍过的“基于窗口”的评估法。
这些方法对各个窗口进行亮度修正和特征评估。
在该论文中,我们介绍另一个可供选择的“以中心为特点”评估方法,该方法在相互重叠的窗口中重用特征评估。
象一个子分类此时可以在不用花费特征评估的成本的情况下使用更多的信息。
在一个层叠中的初期,一个子类通常可以将层叠窗口的初始数量减少99%以上,在基于少许合理假设下,我们将说明如何以计算的效率来
我们使用最初基于面部的子分类阶段作为目标识别完整系统中的一部分,层叠法的最初阶段使用简单快捷的特征,而在后面阶段将使用较之复杂,且有判别力的特征。
实际上,我们推荐基于稀疏代码和过滤器回应之间顺序关系的新颖特征。
最后,我们将讲述如何利用()[20],我们将论证计算的效率和精确度,并且展示对含有面部和汽车之类十个物体的检测方法的一般性。
2基于中心的评估
大部分层叠法基于分类运算法则,并应用“基于窗口“评估方法,在这类方法中所有的评估都和分类窗口有关。
这可用如下公式表示:
其中r[k]代表长方形窗口在位置k的中心且该窗口由函数w[k]从输入的图中选择出来,I[k]。
I(。
)在该窗口区域内进行光度修正计算。
每个窗口的特征值各自由下列式子所式:
图3。
1-D中的基于窗口评估。
Fk0表示一个窗口居中于位置k0,c(.)是一个积分函数。
它输出一连串连续值,正值表示该目标存在,而负值则表示目标不存在,c[k0]表示输出窗口在位置k0。
在该部分我们描述一个可供选择的“基于中心”评估策略,这些方法共享重叠窗口之间的特征值。
第一步通过图中的长方形格子来计算特征值:
F[k0]表示对位置k0进行特征评估。
第二步使用窗口区域内的所有特征值进行分类,
图4。
1-D中的基于面部评估。
窗口的支撑区域跨越了m个特征位置。
图3和图4中的方法应用了同样数量的特征计算,但是每个基于面部评估函数使用的特征量比基于窗口评估函数使用到的多,这些附加信息是层叠识别初级阶段中的一个优势,没有单一的哪个特征可以因足够可靠而可以检测出所有目标并排除非目标中的一显著部分,通过应用多特征值,基于特征评估将会获得更佳的成绩。
基于特征方法只有在较复杂的积分函数中会带来额外的计算成本,c(.)。
在一些合理的简化下该成本可以减少到最低,第一个简化方法就是做一积分函数并将其作为附加模式,该附加模式中的每个条件都依赖一单一的特征值:
注意到,h(·
)的第二个参数详细指明了窗口中特征的位置,也就是说,即使在任何位置都使用同一特征函数来进行计算,它们的值将会随着窗口中每个位置上h(·
)值的不同而不同,这些表示法保存了几何结构。
该附加模式设想将维数从m维减少到一维的m种模式,这样大大的减少了实际成本和计算所需。
然而,附加模式的限制并不严格,类似Bayesian网络和MarkovRandomFiled的绘图概率模式可以表示为附加数,同样,由增压而产生的附加模式功能也很强大。
第二个简化方式表示特征,f(·
)作为离散值,在该设想下,函数h(·
)是由特征值和窗口中的位置值来进行设定成的一个表,离散值的优势是仅仅需要实行表中的查找(内存访问)以及添加。
每个窗口的积分函数可以分别如下式计算:
在这个公式中,积分函数令nm的值随机产生(不一定要连续),
Nm越过n个窗口,其中每个窗口所支持的区域内含有m个特征,然而,我们可以重新组织这些计算结果以致大部分记忆存取顺序化。
实际上,f[k]的每个值有助于m个窗口的分类。
我们就此可以存储到连续的记忆空间中的m个值,h(f[k],·
)。
每个值都可以顺序地添加到合适的m个窗口中的分类值上。
在我们的执行中对这些值的顺序访存可以将计算时间至少减少至原来的60%。
基于特征的评估在层叠法的初期是最有用的,该阶段的目标是尽可能快的移动更多的窗口。
然而,一旦这个目标达到了,基于特征评估法的几个限制将会使其在后期阶段中不适用。
尤其,它在窗口中的所有位置计算同一特征函数f(·
),尽管它可能有利于在不同位置计算不同的特征值,例如,在一张脸面上,它可能有利于对眼睛周围的器官以及鼻子周围的突出器官的计算,同样,亮度修正的计算也和局部区域的特征值有关,正如我们下节要讲述的。
基于窗口的评估法提供了一个比第一个方程式更全面的式子,它更适合层叠法的后期阶段,
在此,不同的特征可以在窗口中不同的位置上进行计算,例如,每个ff(·
)可能在分类窗口中有一个不同的支持区域:
实际上,我们的检测通常使用多窗口居中阶段的下一个单一的基于特征阶段,该排序方式在对多个目标的识别中就速度和精确度而言都得到了很好的效果,尤其,基于特征阶段通常从考虑项中移除了99%以上的非目标窗口。
3.层叠阶段的成分
这段讲述了一层叠阶段的构成,它包括子分类结构,特征表示,亮度修正的方法,以及估计字分类模式的方法。
3.1子分类结构
每个子分类阶段描述为贝叶斯分类[11]。
一个贝叶斯分类将输入分解成一个个子集,该分类在每个子集中是依赖统计的,而子集视为非统计的,下面我们将贝叶斯分类表示为log型的式子:
其中是在分类窗口中的输入变量,是这些变量的子集,其中和指明了两个类,对于目标检测的问题,这两个类分别是目标类和非目标类,例如,可能与脸面相符合,而则相对应于非脸面。
在该式子中,如果
那么分类器选择类,否则就选择。
由方程式
(1)和方程式
(2)给出的附加模式来来自于这些贝叶斯公式,附加模式中的每个公式都和贝叶斯公式中的公式相对应,每个特征f(。
)都是一个特定子集里的函数,变量的值,尤其对于基于特征评估来说,方程
(1)和贝叶斯公式之间的关系如下式所示
在基于窗口的评估中,方程
(2)和贝叶斯公式之间的关系如下式所式:
贝叶斯公式利用了统计的稀疏结构,对于类似脸面的特殊类,任何图片变量(例如,一个和眼睛在脸上的位置相对应的详细象素)将会有很强的含有少部分其它变量的统计依赖性以及含有剩余变量的较弱的统计依赖性。
在图象的多次转变下稀疏行为将会变的更为明确,就象易操纵的过滤器[8],或者是微波转换,在该论文中,图象变量是微波系数,它们是由两条平行直线来定相5-3过滤层,或者是4-4过滤层。
类似贝叶斯的绘画概率模式简明的表示了稀疏关系。
错误的参考资源还没有找出。
描述我们如何靠最小化一系列和分类误差相关的成本函数来将变量分到各个子集中。
3.2特征表示
计算时所考虑到的事项支配了特征函数的复杂性,在早期,当不得不对许多窗口进行评估,则设计出的特征函数需要在计算上效率高,尤其,它们的范围必须限制在小部分的离散值中,(例如,,以便这些表格中的值可以相对小,如下我们讲述两个和这两个情况分别相对应的特征函数。
3.21线性和梯状量子化
这些特征函数涉及线性和梯状量子化,该投影基于一部分直角向量,这些基本向量来自于子集的首要元素,第一阶段主要使用2个向量上的投影,后期可能使用3个以上的基本向量.
特征函数将每个系数量子化成可能值(一般是7或9)。
该量子化的边界是系数的经验变化式的固定函数(例如,等等)最后一步是将量子值再次表示成单一特征值。
例如,一个由3个投影系数组成的典型特征,如果每个系数附加到7个值上,那么我们在近似值的范围内用一单一值来表示整体特征。
3.22线性投影,稀疏编码以及顺序表示
特征表示包括线性投影,稀疏编码以及投影系数的极性和顺序,该表示简洁的用外观变化的稳定性来阐明可视化信息。
也是由重构研究和以相似的表示策略来支持的。
线性投影阶段和3。
2。
1中所讲述的一样,但是除了使用基础向量的许多数字(例如,9到15向量集),所得的投影系数通常是稀疏的,对于一个合理的输入,许多投影系数将会是0或可忽略不计。
当然,投影系数在不同的输入中是非0的,我们假设在任何合理的输入中不超过g的投影系数都是非0的。
尤其,象z这样的集合是从q系数中选出的:
做该设想的好处是它减少了空间。
我们不再非要去表示一个q维的空间。
然而我们必须表示这些子空间的的z集合。
特征表示有两个部分组成,第一,我们需要将非0系数进行编码
正如我们提到的类似z这样的可能集合,我们靠投影系数q的绝对值界限了作决定,实际界限是由人们的观察确定的,以便小于界限的值对现象没有明显的影响)如果大部分g系数是大于界限的,将选出系数最大的。
第二.特征在选择好的子集中进行编码,一个直接表示法将会把每个投影系数量子化为值r。
一个量子化将会在一个g维的空间中用的近似值来表示子集。
然而,我们期待一个更紧凑的表示法。
对于人们的观察来说,我们利用观察g投影系数的极性和顺序关系所的到的观测值比它们的绝对值更重要[18]。
尤其,我们仅仅表示每个系数的极性(例如,正负号)以及最大系数的指数,如果i系数是在该子集中,那么将编码入的近似值。
总之,下式的特征函数将波的一个子集编码成v的近似值:
例如,一个特征值为:
q=9,g=4,那么v=10,387。
3.3亮度修正
基于特征的亮度修正是就局部领域来进行计算的。
尤其,我们将每个子波系数标准化为一个函数;
对于一个high—pass系数,我们使用如下标准化式:
X,y是系数的位置,,b是系数的band,s是范围,是避免被0除的一个值很小的正数。
对于low—pass的系数,我们使用如下标准式:
所有采用