电气与自动化 外文翻译 外文文献 英文文献 中英对照 计算机视觉中的学习几点想法.docx
《电气与自动化 外文翻译 外文文献 英文文献 中英对照 计算机视觉中的学习几点想法.docx》由会员分享,可在线阅读,更多相关《电气与自动化 外文翻译 外文文献 英文文献 中英对照 计算机视觉中的学习几点想法.docx(27页珍藏版)》请在冰豆网上搜索。
电气与自动化外文翻译外文文献英文文献中英对照计算机视觉中的学习几点想法
计算机视觉中的学习:
几点想法
MariaPetrou
CommunicationsandSignalProcessingGroup,
ElectricalandElectronicEngineeringDepartment,
ImperialCollege,
LondonSW72AZ,UK
摘要:
归纳的能力是学习的最重要的品质,并且归纳总结可以通过模型识别系统了解知识的规律而不是它的表面,一个叫知识库的东西已经被提上日程了,通过它所有的知识都能过被组织起来,一个通过使用这个知识库和效用理论方面的知识的翻译场景系统也被提上日程了,同时有人认为,全部一致的标签解决方案是一个人造认知体系既不可能,也不可取。
1引言
通常“学习”这个词在现代社会有很多种解释,特别是从计算机语言来看。
它已经被用来解释很多事物,从传输数据到怎样去识别视觉结构,这些领域最有价值参数的定义都将可以得到解释。
所以,我们应该试着去理解这个世界的现象,就像它出现在认知领域相关数学方程式中的问题一样。
在下面的部分,我们首先要从电脑视角去了解学习的意义,同时去探究这个世界的两种定义之间的可能联系。
2学习的主要特征
和认知任务有关的第一算法的部分内容已经被提上日程,它们的主要内容主要是有关的神经网络的。
神经网络的支持者们经常评论他们所开发的神经网络的归纳能力。
归纳是学习的主要特点之一。
事实上,我们在教我们的孩子时常常用童话故事和比喻,通常假定他们有能力把它们推广到实际情况中去。
为了能确保我们能够教会我们的孩子,我们时常希望把生活中可能遇到的情况都交给他们,我想这种情形是十分可笑的。
因此我们可以肯定推断归纳总结的能力是学习中最重要的能力。
L.Rueda,D.Mery,andJ.Kittler(Eds.):
CIARP2007,LNCS4756,pp.1–12,2007.cSpringer-VerlagBerlinHeidelberg2007
这意味着这种利用训练样本区间跨越特征空间的经典模型识别方法并不是这个世界认知意识的真正的学习方法。
为了能够更好的推广,这种建立在规律上的神经网络通常在很大程度上依赖于有足够的训练样本才能填充足够的特征空间。
神经网络的这种训练方法通常被用来去靠近与分段线性部分特征空间中的类边界。
当一个未知的模式到来时,它能够和已经确定的填充空间联系起来,从而能够把模型出现的地方填充起来。
一些旧的和一些最近刚开发的方法是通过选择在类边界中其主要作用的模型实现的,而不是使用高一级的归纳能力,这些方法都是一些简单可行的方法。
所以,神经网络和模式识别方法并不是这个世界认知意识上的学习方法。
问题在于:
是这种被认知科学家和心理学家理解意义上的学习就是算法,还是某种超越目前掌握的数学形式?
反对学习就是算法的证据是人类的学习能力来自于一些简单的例子。
同样相反的观点是人类花大量的时间去学习,我们所见证的是一个简单的学习是这些新方法的应用的表现,比如一些通用的规则,元知识
一直慢慢刻画在潜意识里了。
我要澄清一下,“学习”在这里不是指取得一个大学学位。
这的确是一个很漫长的过程,这是需要大约三分之一的寿命的一个人。
学习这里喻指生存技能,操作技能在日常生活中。
由于人类成长期在大约12-15岁之间,我们可以假定自然认为人类儿童已经准备好怎样面对生活在那个阶段。
所以,我们可以说,人类作为独立的实体生命“学习”他们要学习的东西要经过12-15年的时间,这将是他们生命中很长的一段时间。
所以,人类似乎是一个很慢的学习者。
他们花很多时间去了解元知识的规则。
正是这些被人们从数学算法的角度掌握的规则使人们能够很快的掌握知识,这就是我们经常的见到的例子。
我们也许会从以上的观点得出以下结论:
-归纳总结的一个重要特征是学习;
-在算法学习中,概括必须得到足够的训练,从而能够填充整个类空间部分,或者是类边界的部分地方;
-我们都有真实的归纳命题能力,只有当由训练的例子学会知识变成如何间接地提取物体的身份而不是对象的类。
如果这样的学习发生,完全未知的东西可能会得到正确的解释,即使在没有先前的例子的情况下。
这个结论意味着我们必须教导计算机怎样去做,为的是建造一个认知系统,这是关系,而不是事实。
例如,背字典的一种语言,没有教一个人的语言。
这个人必须去学习单词之间的关系,以掌握这门语言。
这是同意温斯顿的创新实验教计算机认识拱门,但不给计算机所有它可能遇到拱门。
他把这个例子和柜台拱的例子教给它,教它识别组件之间的关系,如“支持”和“被支持”之间的关系。
3知识和元知识
至少有50个学习方面的理论的已经被认知科学家写出来了。
在计算机科学中,我们往往会区分两种形式的学习:
试验式的学习和证明式的学习。
归纳学习也被计算机科学家使用了,但是我们不应该像那样去处理,因为它意味着学习者已经学会了逻辑法则。
所以,归纳学习可能被认为是已学中的应用元知识规则实验的能力,学习意味着尝试和给出结果,并从中得出结论。
它最简单的形式就像全自动的过程一样。
全自动分割算法,例如,将工作如下:
进行分割,评估结果质量,调整参数,然后再试一次。
直接的结论是:
实验式的学习需要反馈回路。
还要求一个可用的标准进行系统工作怎样的一个判断依据。
这个标准的成为独立知识或信息用于进行信息分段,是非常重要的,否则结果将是一个预言式的幻想而已。
在半自动系统,则是由人来决定。
报告的结果则包括文学的声明类型:
“最好的阈值是通过尝试与错误发现的。
“这种方法是一种非常合理的学习方式。
就像一个受到监督式学习的雨伞,它对于帮助人类学习来说就像一个教师。
飞往完全自动化的方法是相当于假设计算机可能通过学习元知识阶段,需要构建规则,现在学习收益很快,利用这些元规则。
例如,如果我们知道农业等行业倾向于有直的边界,可以分辨部分输出捕捉到的图像的好与坏,它是通过空气传播的传感器捕捉到的,根据它是否产生了地区边界直。
那个领域的知识是一个元知识是直的边界。
部分可能操作只使用纹理和边缘信息。
边界推断何以直,可用于作为标准来驱动系统使用其反馈回路,以制定出一个更好的分割。
问题于是变为:
系统如何获得这元知识?
早些时候,那一定是元知识必须要由人类的孩子(或计算机学习者)痛苦地缓慢掌握通过大量观察农业领域的例子。
虽然没有发现可以将这些元知识移植到人类孩子的大脑中的有效方法。
从老师的大脑中,计算机的优势在这里:
更像一个老师,就是我们人类,我们可插入把元知识进入系统当正在进行的标准算法的自我评估。
从这个的论点,我们得出结论:
-可能在出现时不仅有未注册的关系,而且特点,类对象都有。
-在交互系统中,元知识被人类老师人为地插入到计算机学习者大脑中。
-在自动化系统,元知识被用来对计算机的学习者提供人类的老师绩效考核的标准的形式。
出现了两个问题是:
-什么把知识和元知识连接起来?
-开始的时候如何学习元知识?
4论证式学习
为了回答上述问题,我们得到了一个从我们前面提到的第二种类型学习的机会,即通过示范学习线索。
这里的示范者是老师。
接下来是一个故事,我从我奶奶听到。
请记住,儿童的传统的教学方式一直被通过故事和比喻。
这个故事提供的线索,是我们正在寻找的内容。
“很久以前有一个陶工,他得到一个学徒并且可以让他有学习陶艺技术的机会。
陶工把他的陶壶放在烤箱里。
两个小时后,他把火灭了坐下来休息,抽起烟来,就像他是一个老人一样。
然后,他把盆拿出烤箱。
它们看上去真是太完美了。
学徒后来决定做自己的盆。
他让他们拿出粘土,放在烤箱里。
两个小时之后,他也把他们拿出来。
但是这些壶都坏了。
他重复同样的工作但却得到同样的结果。
他找到那个陶工并问他说:
“你没真正的教我。
这样事情不可能发生如果你真的教我的话。
”“难道你停止吸烟后,您关掉火了?
”“不,我不吸烟。
”“那是因为你拿出了烤箱盆出得太早了。
”
我相信这个故事是有关我为了教我们要注意细节而讲的。
事实上,如果陶工的徒弟看了陶工来回几十次表演的时候注意一些轻微变化,而且始终与前稍作停,他可能学到做陶盘至关重要的过程。
另一方面,如果老师给出了明确的信息的话,那么这个老师可能就是一个更好的老师了。
所以,这个故事告诉我们,我们学习新知识是从很少的例子当中获得的,如果想快速获得的话只有当有人向我们解释他么不是怎样做到的才行。
一个孩子一直问“为什么”,这才是一个孩子如何才能学习好的办法。
这告诉我们“我们不能撇清学习认识到每个对象的学习,为什么它是这样的”。
有人可能会想到下面的老师和学生之间的交流和学习:
“这是什么?
”
“这是一个窗口。
”
“为什么?
”
“因为它让光进来,并允许人们看到了。
”
“那怎样做呢?
”
“通过具有一个宽阔的视野。
”
“这是是真的吗?
”
这种学习顺序如图1所示。
这个数字建议在我们的大脑,知识是由一个网络,形成一系列复杂的结构,我称之为‘知识之塔’。
名词的网络是一个对象名称,标签网络,例如:
‘窗口’,‘烟囱’,‘门’等动词或行动网络,是网络功能,例如:
‘看出来’,‘进入’,‘退出’等表象网络是一个功能所需的基本形状网络实现,如:
“这是人类以自己的视野对外认识的水平。
”因此,知识的洪流是上面那段谈话内容一样。
当系统循环结束时,我们可以证明,我们正在研究的对象其功能用途的特点可以实现这项任务,因此,对于人工视觉科学家来说,他们的任务是去建立网络及其相互连接层之间的模型。
我们有我们所掌握的各种工具:
马尔可夫随机域,推理规则,贝叶斯网络,模糊推理等我从一开始就排除任何确定性的办法,或者是因为事情是真正随机的性质(或至少有一个显着的随机成分),或者当为制定清晰的决策规则和决定时因为我们的模式和我们的知识是太粗糙和不完美而不能胜任。
5马尔可夫随机场
最近的一些工作发现的证据表明,网络名词(最贴切的说法是“思想”,如果从网络心理加以描述)是一个随机网络拓扑,而由一些想法组成的关系网络,它们是拓扑无尺度的。
例如,像“叉刀”,“门窗口”比“门”或“窗口”出现地更加频繁。
这表明,这些网络相互之间的连接总是不断变化的,而且实际上并不总是对称的。
例如,想法“门”的可能引发的“窗口”的想法比“窗口”引发的想法“门”的想法更加频繁。
这种不对称的相互作用表明马尔可夫随机场(马尔科夫场)不适用于它们在图像处理应用上的一贯的形式。
一个在网格上定义的马尔可夫随机场邻里之间的相互作用的例子如下图2b所示。
马尔可夫随机场以及它提供给邻近的相互作用的重力,不能由吉布斯联合概率密度函数来表示。
例如,在中心的细胞被顶部左邻重力-1影响,而他自己,作为顶部左下角的单元格的右边的邻居,通过重力-1来影响它。
当一个试图释放这样一个随机场时,这种不对称会导致系统的不稳定,因为创建的本地模式不是全部一致的(不是全可由吉布斯分布可表达出来的)。
这种马尔可夫随机场的一些发散是不收敛的,而是在一些可能的状态之间摇摆。
(最佳化的吉布斯分布偶尔会收敛到正确的解释,但更多的往往不是这样,他们幻想他们得到了错误解释。
)
因此,通过使用一个非吉卜赛中期马尔科夫场,在每一个知识水平的人们都可以来建立网络模型,如图表1所示。
层与层之间的相互依赖性,也可能通过这样的网络来建立模型,但也许使用贝叶斯模型比较适合,因为层与层之间的相关性是因果关系或诊断关系,而不是点对点对等关系。
然而问题是:
“我们去哪儿得到这些知识来构建网络?
”母亲教她的孩子从哪里得来?
孩子的母亲没有‘最简单的真理’或普遍的知识可以教给她的孩子:
她明白一些东西,然后才告诉他的孩子,然后她想起别的东西,根据她自己的想法,这些想法是相互交织的并且由她自己的感觉来组织的,她会再次给孩子讲讲。
因此,所有的母亲(老师)的作用是传授给孩子她自己关于这些想法和概念之间的联系。
如果母亲告诉孩子:
“这是一支铅笔,那是一个橡胶。
铅笔帮助我们而橡皮帮助我们抹去我们写的东西。
”孩子会在自己的大脑中会有像他的母亲同样的反应。
铅笔橡皮现象将在孩子的大脑中产生一个关于名词的网络很强的记忆,就像在孩子的动词网络。
所以,有一件事情我们可以做的是建立属于我们自己关于这些想法和功能之间联系的模型。
然后让孩子或计算机提出正确的问题。
对于每一个答案,相应的连接强度会提高。
我们可能会把这些优势变成概率。
然后,一个全新的场景可能会显示到计算机上。
该儿童或计算机必须能够使用他已经学会的这些连接去解释这种新的景象。
实际上,这是通过使用手动标注的图像实现的。
数学家Heesch和彼得鲁做这些是去解释建筑物室外的场景:
他们使用了数百张地面的图像学习区域配置的马氏相依理论,确定了居委会是一个地区被分成六个地区,这些地区履行下列几何约束中的一个:
它在上面,下面,向左边,向右边,它被装载,或把这个区域考虑在内。
一个未知的场面被贴上标签,通过使用一个初级的,建立在个人工具基础上的一个标签来完成,这个个人工具由各个区域和组成,以及放宽对分割区域定义的马尔科夫场,用图的着色与绘图按各当地条件概率地区的标签标记,这个标签是建立在当前周围标签之上的。
全部一致是不存在的,当标签之间的相互依存是不对称的时候。
我们可以直观地理解为在室外环境中物体之间的相互作用太弱而不可能对一个区域的影响产生显著效果。
例如,如果属于该房子的该区域是
一个门,这一区域就在图1的另一端。
双头箭头代表上下文交互。
连续的细箭头表示查询。
虚线箭头代表的答案,即信息的传递。
在认知视觉工作中兴趣的水平就是名词的水平,在这里我们要把标签分配到每个对象。
与名词网络上下文内涵有关的例子有“门”,“窗口”,“阳台”。
与语境网络的功能内涵节点有关的例子是“让空气进来”,“让光进来”,“允许一人进入”。
与描述网络上下文内涵节点有关的例子是“有一个玻璃面板”,“在水平面”,“有一个把手来打开它”。
视野可能是汽车,灌木,一个窗口,房子,或一棵树。
从可能性的角度来看这些选择的差别是很小的:
标签之间的相关函数,指在一定距离之外的物体,变得平坦而且不能提供有用的信息。
所以,没有一个模型是相关的或有用的。
6贝叶斯推理
贝叶斯方法迄今为止已被用在两个方面:
要么是在概率松弛的形式(PR)方面或在推理珍珠贝氏网络的形式。
概率松弛起源于华尔兹写的关于约束传播著作,他用简洁的制约条件和一劳永逸地方法解决所有的不符和条件的标号,这些标号导致其他不可能的问题。
通过考虑每一个对象的环境信息,概率松弛不断更新单个物体的各种标签的概率。
由于该上下文信息是有效对等的,概率松弛对于建立因果关系的方面的模型不是一个好的工具。
对于马科夫场来说它是一个替代的工具,在上一节讨论了在同一层建模的影响。
概率松弛,像马尔科夫松弛一样,是不能保证得到一个独特的全方位的解决方案,除非有特殊条件。
我们曾讨论过,虽然这是一个不现实的问题,那就是:
场景标号不必是全部一致的,但在本地要一致。
这项声明似乎与以前的声明是矛盾德,概率松弛是华尔兹的算法,这个算法可以在60秒之内解决标号不一致的问题。
这一矛盾,然而,只是表面的。
在60年代标号不符的问题,是指单固体物体的标号,通过在子部分上贴上标签,而不是包含许多不同对象的场景,在这些对象之间的约束是远远弱于其他相同的固态物体内的子模块之间的限制。
贝叶斯方法的第二种形式是推理珍珠贝氏网络。
这里的关系可能是因果关系,因此这些网络对中间层推论来说是合适的。
贝叶斯方法依赖于条件概率。
如何为这种方法选择一个条件概率一直是一个问题。
条件概率可能要通过数百个例子才能慢慢地被我们掌握。
Stassopoulou等人通过绘制类边界的图来解决了条件概率的学习问题,这个类边界通过从这个网络到另一个网络来表达,通常这种网络被用来作为学习条件概率的一种方法。
另外,有的条件概率可能会从其他已经受过训练的网络转移过来:
老师的网络。
这种转移相当于让他们具备一些来自其他参数的一些参数(如高斯)。
形式和参数的任意选择通常导致对临时或不合理的做法的批评。
现在情况是,老师只是将自己的获得的知识的转移到学生(或电脑)身上。
这种做法使我们获得了新的理论,例如像所谓的“效用理论”。
效用理论是一种决策理论。
在图像对象中向物体分配标签就是一个决定。
在贝叶斯框架内,在Bayesian的结构理论中,我们做出这个决定是通过最大限度地把我们所获得信息全部输入到这个标签中。
在效用理论中,这种可能性函数被叫做“效用函数”,这表示主观偏好或每个标签可能带来的后果。
效用函数乘以每个标签的贝叶斯概率再加上上面所有可能性,这就导致只有一个可以传递到最后的标签。
所以,这种方法避免了马尔科夫场和PR的迭代。
效用函数可用来鉴定一些人对这个世界已经获得的元知识。
就是这样的知识,可以通过演算和从很多例子中学到,但现在通过我们现有的工具基础,它们是不能通过条件和偏见这些形式来表达的。
就是这样的知识告诉我们,当我们想要从一个经常推迟约定的人手中购买一辆车时要慎重,那样就不会立即产生维修记录。
没有人使用“实用功能”这个术语的这种想法已经有一段时间了。
例如,在九十年代中期,心理学家都在谈论所谓的P–map和m–map。
P–map主要是关于在我们生活中我们可能遇到情况的一些知识。
一个P-map可以或多或少的帮助我们抽样调查一个场景,无论这些地方重不重要,我们做一个m-map都是很特别的。
人们可能会把p-map看作是今天的实用功能而m-map主要是建立在我们已有的工具之上的,这里的m-map是指标签的贝叶斯部分。
在计算机视觉方面,实用的理论已被Marengoni用于选择本应被应用于空间图像方面的特色功能。
此外,人们可以把米勒等人的工作当作是用一个可以给那些不寻常的转换设置障碍的实用功能,这些转换必须和电脑认为的转换一致。
在假定转换和标签测量都是独立的情况下,通过最大限度的寻找所观察到的形式的概率密度函数和标签以及所观察到事物的密度方程之间的可能性,作者有效地提取了一些样本。
7建立“为什么”和“怎样”模型来回答“是什么”
让我们来考虑一下在图1中提到的知识塔。
为了在以后的情景中能够识别物体我们首先要给学习的问题建立一个方程,在这个场景中可以使用分层表述形式来说明知识和效用理论。
让我们假定我们可以最大可能的把标签分到每一个场景中,在通常情况下标签lj以及它的可能性pij将被分配给oi,表达式如下:
pij=p(lj|mi)p(mi)=p(mi|lj)p(lj)
(1)
这里mi代表我们在oi基础上所制造的所有工具,p(mi)和p(lj)分别是测量和标签之间的先验概率。
概率松弛理论将根据来自邻近地区的上下文收到的资料来更新这些概率。
在这里我们可以不遵守那些规则。
相反,我们将使用来从其他层知识的信息来平衡这个公式。
我们设定图一中的在“动词”水平线上的单位用fk来表示,而在描述水平线上的单元用dl表示,而后我们lji把给oi,表达式如下:
(2)
其中ujk表示对带标签lj的物体的重要程度,lj用来满足fk;vkl表示特征量dl对于一个物体有满足fk可能性的重要性,cik是指dl适用于oi。
假定效用函数的值表示我们手中的证据,区域oi可以满足作为区域lj的角色的特征,例如,分给oi的标签是一个“阳台”,效用函数必须能够表示出是否这个阳台有足够大空间以至于可以站下一个人,是否靠近墙,是否有个门面对它。
所有这些因素在一起就容许一个物体来扮演阳台的角色。
一个学习计划要能够学到ujk和vkl的值,要么是通过一些例子(这个过程表较缓慢的并且有点痛苦),要么选择相信一个已经亲身经历过这个过程而且了解那些值的老师,这样就可以把他们直接输入电脑处理器中。
电脑处理器必须有一个输入处理系统的装置来计算出cil的值。
图2(a)中,在边线上相邻的点和马尔科夫参数都是一致的,如果这个区域被释放,将会出现和上下不一样的彼此相似的标签水平带,在图像处理中它会导致水平方向的纹理图案。
图(b),在边线上相邻的点和马尔科夫参数是不一致的:
左边的和中间的是不一样的。
中间的看作是顶部左面的右底角邻居,它们是相似的。
8总结
我认为学习是一种归纳总结能力的体现,如果要学的东西并不是可以看到的物体的表面而是被分配标签的内部规律,那么学习就可以学好。
我也认为元知识可能被老师输送给他的老师,方式可以是一些规则,或是最简单的方法,这些都是人类通过自己的经验和体会应用算术参数完成的。
这使我和社会上大多数审稿人一样都很排斥论文,理由是这些参数已经被选过了:
这就是老师把他们潜心学到的知识传授给他的学生的例子。
另一种方法是学习者从大量的示例中慢慢地琢磨然后才学到他们要学的知识。
我同时认为我们不需要全部一致的场景标签。
通过玛格丽特画的场景,我们可以得出全部一致的标签从来不会让我们建立一个合适的关于一辆火车从大火中冲出来的场景,这是因为火车不是来自于有火灾的地方。
我永远不会让电脑来识别一个五条腿的马,但是我们人可以。
因此我们需要的是现实和知识的碎片。
从电脑的视角,抛弃全部一致的方案的想法现在已经成熟了。
这并不和其他科学相左。
战略分析家们会谈论‘学习行动的结构’,甚至是数学家们很早以前就应经抛弃了关于全部一致的数学科学的想法。
当奥尔德的证明出版的时候,数学家罗素不得不抛弃建立在一部分公理上全部一致算法的理念。
自然地系统都不是全部一致的:
他们在一些状态之间摇摆,而我们必须战胜这个动态的全部不一致的而且含糊不清的世界才能生存。
一个机器人系统也必须能做到这些,或许那样做成功的方法是去自己构造,这样才能和一些有限的理解力相符。
LearninginComputerVision:
SomeThoughts
MariaPetrou
CommunicationsandSignalProcessingGroup,
ElectricalandElectronicEngineeringDepartment,
ImperialCollege,
LondonSW72AZ,UK
Abstract.Itisarguedthattheabilitytogeneraliseisthemostimportantcharacteristicoflearningandthatgeneralisationmaybeachievedonlyifpatternrecognitionsystemslearntherulesofmeta-knowledgeratherthanthelabelsofobjects.Astructure,called“towerofknowledge”,accordingtowhichknowledgemaybeorganised,isproposed.Aschemeofinterpretingscenesusingthetowerofknowledgeandaspectsofutilitytheoryisalsoproposed.Finally,itisarguedthatgloballyconsistentsolutionsoflabellingsareneitherpossible,nordesirableforanartificialcognitivesystem.
1Introduction
Theword“learning”hasmanyinterpretationsamongthepatternrecognitioncommunityingeneral,andthecomputervisioncommunityinparticular.Ithasbeenusedtolooselymeananythingbetweentheidentificationofthebestva