1、3主要内容主要内容n离散动态规划离散动态规划 n离散动态规划在离散系统最优控制中的应用离散动态规划在离散系统最优控制中的应用 n连续动态规划在连续系统最优控制中的应用连续动态规划在连续系统最优控制中的应用 47.1 7.1 离散动态规划离散动态规划n最优性原理最优性原理动态规划的基础动态规划的基础n若一个若一个 N N 级决策系统是最优的级决策系统是最优的,则以第则以第 k k 级(级()决策所形成的状态作为初态的任何一个)决策所形成的状态作为初态的任何一个 N-K N-K 级子决策也必然是最优的。级子决策也必然是最优的。5n根据最优性原理根据最优性原理n确定了一个从后向前的递推过程确定了一个
2、从后向前的递推过程n基于最优性原理的动态规划方法基于最优性原理的动态规划方法成为成为解决最优控制问题的有力工具解决最优控制问题的有力工具6动态规划原理求从S F 点路程最短的方法7枚举法S X1(1)X1(2)X1(3)F 4+6+1+4=15S X1(1)X2(2)X1(3)F 4+6+2+4=16S X1(1)X2(2)X2(3)F 4+6+2+3=15S X1(1)X1(2)X2(3)F 4+6+1+3=14S X2(1)X1(2)X1(3)F 5+4+1+4=14S X2(1)X1(2)X2(3)F 5+4+1+3=13S X2(1)X2(2)X1(3)F 5+7+2+4=18S X2
3、(1)X2(2)X2(3)F 5+7+2+3=178可能解数量为 2(n-1)n=4,为 23=8 种.加法次数为:(n-1)*2(n-1)n=4,为 (4-1)*23 =24 次.若n=10,则可能解数为:2(10-1)=29 =512 种.加法(10-1)*29=9*29=9*512=4608 次.9 动态规划法从最后一级开始:J X1(3)=4 J X2(3)=3,J*X1(3)=4,J*X2(3)=3倒数第二级:路线 X1(2)X1(3)F J=1+J*X1(3)=5 X1(2)X2(3)F J*=1+J*X2(3)=4 X2(2)X1(3)F J=2+J*X1(3)=6 X2(2)X
4、2(3)F J*=2+J*X2(3)=5 J*X1(2)=4,J*X2(2)=510倒数第三级路线 X1(1)X1(2)F J*=6+4=10 X1(1)X2(2)F J=6+5=11 X2(1)X1(2)F J*=4+4=8 X2(1)X2(2)F J=7+5=12 J*X1(1)=10,J*X2(1)=811第一级路线 S X1(1)F J=4+10=14 S X2(1)F J*=5+8=13 即 J*S=1312最优决策为 S X2(1)X1(2)X2(3)F J*S=13加法次数:4*(n-2)+2 次 n=4时,4*(4-2)+2=10 次 13各个状态到终点的最短距离各个状态到终点
5、的最短距离J*S=13J*X1(1)=10 J*X2(1)=8J*X1(2)=4J*X2(2)=5J*X1(3)=4J*X2(3)=31415n设离散系统的状态方程为设离散系统的状态方程为 nx x n n 维状态向量,维状态向量,u u m m 维控制向量维控制向量n始端始端 和终端和终端 固定固定7.2 7.2 离散动态规划在离散系统最优控制中的应用离散动态规划在离散系统最优控制中的应用 16n求最优控制序列求最优控制序列n使目标泛函使目标泛函n取极小值取极小值17n动态规划的目的动态规划的目的n使使 J J 最小最小n即即 n将以将以 为初态的为初态的 N-j(=k)N-j(=k)级最优
6、决策级最优决策 18n根据最优性定理根据最优性定理n如果如果 N N 级决策是最优的级决策是最优的n则以在前则以在前 j 1 j 1 决策上形成的决策上形成的 为初态的为初态的 N j N j 级决策是最优决策级决策是最优决策n从这点出发,形成了逆向递推的最优化方法,这种从这点出发,形成了逆向递推的最优化方法,这种方法被称为方法被称为动态规划动态规划19n根据最优性定理根据最优性定理n利用动态规划方法形成递推公式利用动态规划方法形成递推公式 n当终端固定时当终端固定时n直接利用递推公式求解最优控制问题直接利用递推公式求解最优控制问题 2021令:令:2223n例例 1 1n设离散系统的状态方程
7、为设离散系统的状态方程为n已知已知n求最优控制求最优控制 u u 使目标泛函为使目标泛函为n最小最小24n解:解:由递推公式由递推公式 K=3时时25上述最优化问题的解为上述最优化问题的解为最优目标函数为最优目标函数为K=2时时26K=1时求解求解可得可得最优目标函数为最优目标函数为27K=0时时求解求解可得可得最优目标函数为最优目标函数为28求解的求解的结果结果29307.3 7.3 连续动态规划连续动态规划在连续系统最优控制中的应用在连续系统最优控制中的应用 n动态规划动态规划n可用于连续系统的优化问题可用于连续系统的优化问题n对于连续系统对于连续系统n根据最优性原理根据最优性原理n可得到
8、可得到 Hamilton-Jacobi Hamilton-Jacobi 方程方程31n对于连续系统对于连续系统nx n x n 维状态向量,维状态向量,u u m m 维控制向量维控制向量n且容许控制且容许控制 u u 在在 m m 维欧氏空间维欧氏空间 的某一给定的某一给定域域 中取值即中取值即 32n已知始端固定已知始端固定n即即n求最优控制求最优控制n使目标泛函使目标泛函 n取极小值取极小值(3)33由最优性原理推导出极大值原理由最优性原理推导出极大值原理定义定义式中式中而而x(s)是在区间是在区间 上和最优控制函数有关的轨线,上和最优控制函数有关的轨线,其中其中 ,且,且 给定。给定。
9、(4)(5)34n显然显然n所有所有 都满足都满足n假设假设 V V 存在,连续存在,连续n并且具有连续的一阶和二阶偏导数并且具有连续的一阶和二阶偏导数(6)35推导动态规划的推导动态规划的Hamilton-Jacobi方程方程(7)36(8)37等式两边消去等式两边消去 ,得,得 上式称为上式称为Hamilton-Jacobi方程方程或者称为或者称为 Hamilton-Jacobi-Bellman方程方程(9)38对于所给最优控制问题,重复以上讨论,导致对于所给最优控制问题,重复以上讨论,导致由此,对于所有由此,对于所有 ,u必须满足必须满足(10)(11)(12)39 上上式式说明,说明,
10、Lagrange乘子向量(或协态向量)乘子向量(或协态向量)是最小目标函数在最优轨线上的梯度。是最小目标函数在最优轨线上的梯度。从(从(9)、()、(10)式可以看出)式可以看出即在最优轨线上应使即在最优轨线上应使Hamilton函数函数H为全局最小,为全局最小,这正是庞特里亚金的极大值原理。这正是庞特里亚金的极大值原理。40n例例 1 1n考虑线性定常系统考虑线性定常系统n式中式中n假定任何的假定任何的 都是容许控制都是容许控制n要求找到作为要求找到作为 的函数的函数 ,使得,使得 41n解:n即即 42n这样这样43n因为因为n 时不变时不变n且最优化是针对一个无限持续的过程且最优化是针对
11、一个无限持续的过程n 只依赖于初始状态只依赖于初始状态n即即44n由于由于n故故 Hamilton Jacobi Hamilton Jacobi 方程变成方程变成45n假设一个解假设一个解n则则n -对称矩阵对称矩阵46 则则Hamilton-Jacobi方程变成方程变成P必须满足的代数方程必须满足的代数方程47例例2 考虑如下系统考虑如下系统目标函数为目标函数为48Hamilton 函数为函数为令令49Hamilton-Jacobi方程为方程为若优化区间为无穷大,则若优化区间为无穷大,则我们求解如下微分方程我们求解如下微分方程50为了求解上述非线性微分方程,将为了求解上述非线性微分方程,将V(x)展展开成如下级数形式:开成如下级数形式:令令n=4,则得则得51所以最优控制作用为所以最优控制作用为闭环系统为闭环系统为52
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1