自动化方法专题报告之迭代学习综述.docx
《自动化方法专题报告之迭代学习综述.docx》由会员分享,可在线阅读,更多相关《自动化方法专题报告之迭代学习综述.docx(9页珍藏版)》请在冰豆网上搜索。
![自动化方法专题报告之迭代学习综述.docx](https://file1.bdocx.com/fileroot1/2023-1/27/52389ab5-0a43-42bb-8241-081c361e6422/52389ab5-0a43-42bb-8241-081c361e64221.gif)
自动化方法专题报告之迭代学习综述
综合自动化方法专题综述报告
迭代学习控制理论与应用综述
姓名:
李飞
班级:
自研四班
学号:
2009211055
迭代学习控制理论与应用综述
李飞2009211055
一、迭代学习控制发展概述
1978年,日本学者Uchiyama提出一个控制高速运动机械手的思想,后来Arimoto等人发展了Uchiyama的思想,于1984年提出了迭代学习控制(IterativeLearningControl,ILC)的概念。
迭代学习控制最早是在工业机器人的快速跟踪控制的研究中提出的,这种控制方法适合于某种具有重复运动性质的被控对象,利用系统先前的控制经验和输出误差来修正当前的控制作用,使系统输出尽可能收敛于期望值。
与鲁捧控制一样,ILC也能处理实际动力学系统中的不确定性,但它能实现完全跟踪,控制器形式更为简单且需要较少的先验知识。
ILC经历了二十年的发展,不仅在实际应用中取得了良好效果,而且ILC的理论与方法不断地完善,取得了丰硕成果,其强大的生命力受到控制界的极大关注,已经成为智能控制的一个方向。
现有的大多数控制方法的目标是针对连续过程中给定的跟踪指标,实现沿时间轴的渐近收敛。
在实际生产中,存在着大量的在有限时间区间上重复执行相同控制任务的系统。
当控制任务被重复执行时,被控系统在重复过程中将表现出相似的特性。
因此,利用以往重复过程中的有用信息来修正控制律,可以改进该重复过程在以后的生产中的控制效果。
然而,大多数现有的控制方法均局限于研究时间轴上的控制问题,未能对以往重复过程中的有用信息加以利用,也即不具备从以往重复过程中学习的功能。
迭代学习控制的思想出发点是对于在有限时间区间上重复执行相同控制任务的系统,其性能可以通过对以往重复过程的学习来得到改善。
迭代学习控制算法期望利用前一个或多个批次的信息来更新下一批次的输入轨迹,使得输出轨迹尽快地收敛于期望的目标轨迹。
因此迭代学习控制适用于具有重复运行特性的系统,考虑利用其历史过程信息来改进当前表现,进而实现有限时间区间上的完全跟踪。
间歇过程具有重复运行的特点,是迭代学习控制应用的一个重要方面,目前迭代学习控制已在间歇过程中取得成功应用。
迭代学习控制研究的主要问题包括算法的收敛性和稳定性、学习速度、鲁棒性研究、分析方法、初值问题,以及迭代学习控制的应用问题等。
目前迭代学习控制正朝着理论研究和实际应用两个方向同时发展。
二、迭代学习控制的一般形式
这种方法意在使机器像人一样通过重复训练来进行学习,它可以用如下公式表达
其中
分别为状态变量,输入,输出,扰动和测量噪声,A,B,C是系统矩阵,T表示每个批次持续时间,k表示表示批次序号。
为初值,它不一定在设定时等于目标值,只要选择系统允许的值即可,因为迭代过程如果收敛的话,它自然会再不断迭代的过程中收敛于目标值。
可以定义
为目标误差,迭代学习控制的目标是使得
,ILC最简单的表述形式是
当前学习过的输入决定于上一过程的输入和误差乘以学习增益矩阵
,这种迭代控制方法叫P型迭代方法。
迭代学习控制最一般的一般形式可以写成
(5)
其中
被称为ILC的前馈部分;
被称为学习律(updatinglaw);
被称为Q-滤波器。
如果当
,
元素的取值范围在(0,1),
又被称为遗忘因子。
常用的Q-滤波器是
(6)
其中
,这样Q-滤波器就相对于一个对称窗口的加权运算。
一般而言,Q-滤波器能改善高频干扰,增加鲁棒性,同时会带来稳态误差。
有些文献中,直接令
。
而学习律常用的形式是
(7)
其中
叫做L-滤波器。
它也有不同的类型,如
称为P型ILC,
D型ILC。
下图给出了迭代学习控制的算法流程。
如下图中所示,迭代学习控制的基本步骤为:
(1)设当前批次为k,将第k个批次的输入
作用于系统,得到实际输出
;
(2)将输入
和输出
用存储器保存;
(3)将过程实际输出
和期望输出
比较,计算得到当前批次的跟踪误差;
(4)控制器根据上一步的
和
依照式(5)和(7)计算得到下一个批次的输入
;
(5)设当前批次为(k+1),重复上述步骤即可。
图1迭代学习控制的算法流程
三、迭代学习控制常见实用形式
迭代学习控制在实际应用中,根据学习律(updatinglaw)
的不同,有不同的实用形式。
常见的有PID型迭代学习控制,二次型最优迭代学习控制算法,自适应迭代学习控制等。
1、PID型迭代学习控制
如果一般形式的学习律中
(8)
则称该种形式的学习律为PID型学习律,其中
、
和
分别称为学习律的比例、积分和微分增益。
如果去掉式中的某些项也可以得到相应形式的学习律,如P型学习律、D型学习律等等。
2、二次型最优迭代学习控制算法
对于间歇过程来说,二次型最优迭代学习控制(Q-ILC)是一种设计迭代学习律的很重要的方法,一般采用二次型目标函数来构建迭代学习控制算法,使其满足某种优化条件下的跟踪误差最小化,并通过对目标函数的优化计算来推导得到迭代学习律。
通过在二次型最优迭代学习控制的目标函数中包含控制变量增量的范数,可以在有效消除随批次进行而出现的跟踪误差的同时,保证控制变量满足过程的软约束。
一个典型的二次型最优迭代学习控制的目标函数如下所示
(9)
其中,Q是N_N维的正定阵,R是N_N维的半正定阵,
为下一批次与当前批次之间的控制变量增量。
从式(9)可以看出,由于目标函数中包含了控制变量沿批次方向的增量的范数,相当于在批次间使用了积分作用,因此可以有效消除随批次进行而出现的跟踪误差。
通过最小化目标函数式(9),可得到二次型最优迭代学习控制算法如下
(10)
其中学习律矩阵即
二次型最优学习律矩阵
(11)
由式(9)和式(10)可见,二次型最优迭代学习控制算法的迭代学习律
也满足迭代学习控制算法的一般形式。
在计算二次型最优学习律矩阵时,仍然需要知晓线性系统模型(例如脉冲响应矩阵)。
在线性系统模型给定或估计得到后,权重矩阵Q与R决定了二次型最优学习律矩阵,因而也决定了算法的收敛性质、过渡性能及鲁棒性能。
通过调节权重矩阵Q与R,可在收敛速度、过渡性能及鲁棒性能之间进行适当的折中。
3、自适应迭代学习控制
自适应控制源于20世纪60年代,目的是为了解决控制对象的不确定性,例如系统扰动、模型参数变化等。
自适应控制按照被控对象的特点可以分为线性系统的自适应控制和非线性系统的自适应控制。
线性系统的自适应控制理论已较为成熟,主要包括模型参考自适应控制和自校正调节器,而非线性系统自适应控制则一直是自适应控制领域的研究难点和热点。
自适应控制和迭代学习控制结合的发展由来已久,很多学者提出了不同自适应学习更新律。
如文献[7]提出了一种基于学习增益自适应的学习控制框架,这个框架仅仅使用了BC乘积符号的信息。
文献[8]提出了一种基于仿射非线性ILC系统的输出反馈线性化的自适应控制框架。
在机器人操作控制方面,自适应控制应用很广,文献[9,10]通过同时使用反馈控制和前馈控制提出了一种用于机器人操纵的混合自适应学习控制框架。
所谓自适应迭代学习控制是指在适合采用迭代学习控制的系统中,为解决模型不确定性或者模型参数变化需要根据一定的规律对学习律动态更新的方法。
一般来说自适应迭代学习律都有一个共同的特点,就是所有的迭代学习律可以写成如下的形式
(12)
其中
为控制器参数,
为学习律函数,它会随着批次的变化自动更新。
与一般的迭代学习律相比,自适应迭代学习律的参数会随着批次的运行不断调整,所以能克服模型不确定性。
近年来,迭代学习控制已经在间歇过程的批次间控制中成功应用。
除了上述讨论的各种形式的学习律之外,其它形式的迭代学习律也得到了深入地研究。
例如将前面讨论的PID型学习律加以改进,用多个批次而非一个批次的跟踪误差来更新当前批次的输入,可以得到高阶学习律。
由于考虑了更多的信息,一般而言,高阶学习律具有更高的收敛精度,但在算法分析方面也会更复杂。
此外还有滤波器型学习律、鲁棒迭代学习律、基于神经网络的迭代学习律等,还有考虑任意初态下的迭代学习控制问题、学习算法的加速问题等等。
四、迭代学习控制的典型应用及研究方向
1、迭代学习控制的典型应用
由于ILC的控制思想,使得其具有基于记忆的无模型控制机制、学习收敛速度快、适应能力强、算法简洁、易于工程化的优点。
在诸多领域有着广泛应用。
图21998-2007ILC在不同应用领域的分布
从1998年到2004年,机器人控制一直是ILC应用最为活跃的领域。
机器人控制包括刚性执行器和柔性执行器,电机一体化设计,自适应学习机器人,水下机器人,桁架式机器人,表演机器人,微型机械装置等等。
旋转系统中,ILC也有着广泛应用。
旋转运动一般都会受到周期性的外部干扰,旋转系统的控制是ILC很有前景的应用领域。
如转到设备的振动抑制,开关磁阻电动机,永磁同步电机等控制问题。
ILC在过程控制方面的应用也占据着很大比例,并且从1998年以来,有着显著的增长。
过程控制的领域不仅涉及制造加工过程,还包括化工过程等。
具体如小批量生产中的产品质量跟踪,化学反应装置的控制,水体加热系统的控制,激光刻录控制等等。
除了以上,ILC在生物技术(Bio-application)领域,伺服执行装置(actuators),半导体生产,电力系统等领域也有广泛的应用。
2、迭代学习控制的研究方向
经历20多年的研究,迭代学习控制理论已形成体系并产生了丰硕的成果,如超级矢量ILC保证系统沿迭代轴单调地收敛;最优ILC改善学习系统性能;自适应ILC解决控制器参数快速辨识;非线性ILC改善非线性系统学习性能;高阶ILC提高收敛速度、改善性能;鲁棒ILC满足设计性能。
但发展中仍存在问题,需要不断地完善。
目前,有以下几个研究方向:
1)初态问题
就目前发表的大量文献,有关ILC算法的收敛性证明很大程度上都对每次运行的初始状态与期望初始状态做了限定,严格的限定是每次相同的,放宽的限定为有界的临域内,对于开环ILC系统,当存在初始误差时证明系统误差收敛到有界范围内。
但在实际系统中,零初始偏差是很难保证的,因而对存在初态偏差的鲁捧性研究具有非常重要的意义。
目前对存在初态误差的研究主要是利用当前反馈控制来保证ILC的跟踪误差,利用鲁棒设计和自适应都是间接引入当前反馈作用。
因此研究存在初始偏差,并能保证ILC收敛到较小误差范围内的算法更具有实际意义。
2)ILC的泛化问题
泛化问题即非一致轨迹跟踪问题,在实际工程中存在跟踪轨迹并不是每次严格一致的,由于现有的ILC算法都是针对某一特定的轨迹来学习的,因而对这一轨迹可以实现很好的跟踪,但希望轨迹改变时就必须重新学习,缺少泛化能力。
因此能否通过迭代学习了解过程的机理信息,不依赖参考轨迹的信息仍能保证跟踪误差的收敛性,使ILC具有泛化能力。
3)收敛速度问题
对ILC算法不仅要考虑其收敛性,还要考虑其收敛速度,一般来说,稳定性和收敛速度是成反比关系,如何兼顾是值得探讨问题,现有提高收敛速度的方法主要有两种:
一是初始状态重构以提高收敛速度,二是ILC律中算法的设计,如典型的方法是ILC律取过程模型的逆。
目前的收敛性分析较多,而收敛速度的分析较少,一些重要的学习算法收敛速度慢的问题仍没有解决。
4)ILC和其他控制理论的结合
ILC和其他控制理论的结合是最近几年ILC发展的主要特征,并且取得的大量成果,这也体现了现代控制方法的交叉和互相渗透,取长补短。
结合的理论主要有:
自适应控制、智能控制和鲁棒控制。
当过程的结构和参数不完全已知时,引入过程模型和参数的在线辨识,无疑会给现有的ILC应用开辟更广的领域。
目前的结合还不够深入和完善。
与智能控制的结合主要体现在过程的建模和优化方法上,由于智能方法的理论分析比较困难,主要限于仿真分析,同时也增加了算法的复杂性。
但智能控制对非线性系统的应用具有其独到之处,因此仍有发展空间。
鲁棒控制和自适应控制一样,都能针对过程的不确定性而提高控制性能,而鲁棒控制主要是针对过程结构的不确定性,而ILC对过程结构不定问题研究较少。
目前的ILC算法在对过去的信息利用是平等对待的,对过去信息的筛选、内涵没有深入开发。
在ILC中引入专家知识、逻辑推理机制,充分挖掘过去信息的内在机理,可能将会极大地提高ILC的性能。
5)分析手段
对ILC系统收敛性的分析和证明手段有范数理论、Lyapunov稳定理论、算子理论和2-D稳定理论。
大多数的ILC收敛性分析是用范数理论,尽管有些范数在某些意义下具有等价性,例如π范数和sup范数具有等价性,在跟踪任务中,sup范数比π范数能取得更准确的跟踪效果。
因此范数理论能够证明算法的收敛性,但在不同的意义下具有不同的性能。
用Lyapunov稳定理论来分析ILC的稳定性是常见方法,主要表现在鲁棒ILC和自适应ILC算法设计和稳定性分析,和鲁棒控制一样也需要分析算法的鲁棒度,只顾鲁棒势必降低算法的跟踪性能。
算子理论主要用来描述线性系统,不适合对非线性系统进行分析。
2-D稳定理论是真正的二维空间理论(与多变量的维数不同),ILC正是以时间轴t(当前运行)和重复操作数k(次数方向)两个方向进行的,两个方向又是相关的,因为对过去数据(k方向)的迭代学习影响着当前的控制(t方向)。
所以按单一方向来研究ILC的稳定性是有缺陷的。
早期的基于2-D稳定理论的ILC研究见文[4],最近几年基于2-D理论的ILC研究较少。
2-D系统理论已经成为ILC系统分析的有效方法,目前2-D系统理论还不够深入,随着2-D系统理论的发展,2-D理论将会成为ILC系统分析的最有效手段。
参考文献:
[1].李书臣等.迭代学习控制理论理论现状与展望[J].系统仿真学报,2005,17(4):
904-908.
[2].徐一新.间歇过程的自适应迭代学习控制研究[D].清华大学,2009年6月.
[3].Hyo-SungAhn,YangQuanChen,andKevinL.Moore.IterativeLearningControl:
BriefSurveyandCategorization[J].IEEETRANSACTIONSONSYSTEMS,MAN,ANDCYBERNETICS—PARTC:
APPLICATIONSANDREVIEWS,2007,37(6):
1099-1121.
[4].YouqingWang,FurongGao,FrancisJ.DoyleIII.Surveyoniterativelearningcontrol,repetitivecontrol,andrun-to-runcontrol[J].JournalofProcessControl19(2009)1589–1600
[5].谢胜利,田森平,谢振东.迭代学习控制的力量与应用[M].北京:
科学出版社,2004.
[6].马航,杨俊友,袁琳.迭代学习控制研究现状与趋势[J].控制工程,2009,16(3):
286-290
[7].FrenchM,MundeG,RogersE,etal.Recentdevelopmentsinadaptiveiterativelearningcontrol.Proceedingsofthe38thIEEEConferenceonDecisionandControl,1999,1:
264–269.
[8].ChienCJ,YaoCY.Iterativelearningofmodelreferenceadaptivecontrollerforuncertainnonlinearsystemswithonlyoutputmeasurement.Automatica,2004,40:
855–864.
[9]TayebiA.Adaptiveiterativelearningcontrolforrobotmanipulators.Automatica,2004,40:
1195–1203.
[10]ChoiJY,LeeJS.Adaptiveiterativelearningcontrolofuncertainroboticsystems.Proc.Inst.Elect.Eng.,2000,147:
217–223.