动态规划基础文档格式.docx
《动态规划基础文档格式.docx》由会员分享,可在线阅读,更多相关《动态规划基础文档格式.docx(34页珍藏版)》请在冰豆网上搜索。
4.写出规划方程(包括边界条件):
动态规划的基本方程是规划方程的通用形式化表达式。
一般说来,只要阶段、状态、决策和状态转移确定了,这一步还是比较简单的。
动态规划的主要难点在于理论上的设计,一旦设计完成,实现部分就会非常简单。
根据动态规划的基本方程可以直接递归计算最优值,但是一般将其改为递推计算,实现的大体上的框架如下:
标准动态规划的基本框架frame>
1.对fn+1(xn+1)初始化;
{边界条件}
2.fork:
=ndownto1do
3.for每一个xk∈Xkdo
4.for每一个uk∈Uk(xk)do
begin
5.fk(xk):
=一个极值;
{∞或-∞}
6.xk+1:
=Tk(xk,uk);
{状态转移方程}
7.t:
=φ(fk+1(xk+1),vk(xk,uk));
{基本方程(9)式}
8.ift比fk(xk)更优thenfk(xk):
=t;
{计算fk(xk)的最优值}
end;
9.t:
10.for每一个x1∈X1do
11.iff1(x1)比t更优thent:
=f1(x1);
{按照10式求出最优指标}
12.输出t;
但是,实际应用当中经常不显式地按照上面步骤设计动态规划,而是按以下几个步骤进行:
1.分析最优解的性质,并刻划其结构特征。
2.递归地定义最优值。
3.以自底向上的方式或自顶向下的记忆化方法(备忘录法)计算出最优值。
4.根据计算最优值时得到的信息,构造一个最优解。
步骤
(1)--(3)是动态规划算法的基本步骤。
在只需要求出最优值的情形,步骤(4)可以省略,若需要求出问题的一个最优解,则必须执行步骤(4)。
此时,在步骤(3)中计算最优值时,通常需记录更多的信息,以便在步骤(4)中,根据所记录的信息,快速地构造出一个最优解。
<
!
--#EndEditable-->
(三)、动态规划概述
1.基本思想:
将问题分解为若干小问题,解子问题,然后从子问题得到原问题的解。
2.特点:
将问题分解为子问题,这些子问题往往不相互独立。
(如果可以用分治法求解,分解的子问题太多,因此,用分治法时间代价太高,消耗指数时间)
3.且某些子问题可能被重复多次计算,因此将计算过的子问题的结果保存。
一般,放入表中。
4.应用:
往往求解具有某种最优性质的问题,此类问题往往具有多个解,我们要找到具有最优值的那个解。
5.步骤:
找出最优解的性质,刻画其特征;
递归地定义最优值;
以自底向上的方式计算出最优值;
根据计算最优值时得到的信息,构造一个最优解。
(四)、动态规划问题中的术语
阶段:
把所给求解问题的过程恰当地分成若干个相互联系的阶段,以便于求解,过程不同,阶段数就可能不同.描述阶段的变量称为阶段变量。
在多数情况下,阶段变量是离散的,用k表示。
此外,也有阶段变量是连续的情形。
如果过程可以在任何时刻作出决策,且在任意两个不同的时刻之间允许有无穷多个决策时,阶段变量就是连续的。
在前面的例子中,第一个阶段就是点A,而第二个阶段就是点A到点B,第三个阶段是点B到点C,而第四个阶段是点C到点D。
状态:
状态表示每个阶段开始面临的自然状况或客观条件,它不以人们的主观意志为转移,也称为不可控因素。
在上面的例子中状态就是某阶段的出发位置,它既是该阶段某路的起点,同时又是前一阶段某支路的终点。
在前面的例子中,第一个阶段有一个状态即A,而第二个阶段有两个状态B1和B2,第三个阶段是三个状态C1,C2和C3,而第四个阶段又是一个状态D。
过程的状态通常可以用一个或一组数来描述,称为状态变量。
一般,状态是离散的,但有时为了方便也将状态取成连续的。
当然,在现实生活中,由于变量形式的限制,所有的状态都是离散的,但从分析的观点,有时将状态作为连续的处理将会有很大的好处。
此外,状态可以有多个分量(多维情形),因而用向量来代表;
而且在每个阶段的状态维数可以不同。
当过程按所有可能不同的方式发展时,过程各段的状态变量将在某一确定的范围内取值。
状态变量取值的集合称为状态集合。
无后效性:
我们要求状态具有下面的性质:
如果给定某一阶段的状态,则在这一阶段以后过程的发展不受这阶段以前各段状态的影响,所有各阶段都确定时,整个过程也就确定了。
换句话说,过程的每一次实现可以用一个状态序列表示,在前面的例子中每阶段的状态是该线路的始点,确定了这些点的序列,整个线路也就完全确定。
从某一阶段以后的线路开始,当这段的始点给定时,不受以前线路(所通过的点)的影响。
状态的这个性质意味着过程的历史只能通过当前的状态去影响它的未来的发展,这个性质称为无后效性。
决策:
一个阶段的状态给定以后,从该状态演变到下一阶段某个状态的一种选择(行动)称为决策。
在最优控制中,也称为控制。
在许多间题中,决策可以自然而然地表示为一个数或一组数。
不同的决策对应着不同的数值。
描述决策的变量称决策变量,因状态满足无后效性,故在每个阶段选择决策时只需考虑当前的状态而无须考虑过程的历史。
决策变量的范围称为允许决策集合。
策略:
由每个阶段的决策组成的序列称为策略。
对于每一个实际的多阶段决策过程,可供选取的策略有一定的范围限制,这个范围称为允许策略集合。
允许策略集合中达到最优效果的策略称为最优策略。
给定k阶段状态变量x(k)的值后,如果这一阶段的决策变量一经确定,第k+1阶段的状态变量x(k+1)也就完全确定,即x(k+1)的值随x(k)和第k阶段的决策u(k)的值变化而变化,那么可以把这一关系看成(x(k),u(k))与x(k+1)确定的对应关系,用x(k+1)=Tk(x(k),u(k))表示。
这是从k阶段到k+1阶段的状态转移规律,称为状态转移方程。
最优性原理:
作为整个过程的最优策略,它满足:
相对前面决策所形成的状态而言,余下的子策略必然构成“最优子策略”。
实际上是要求问题的最优策略的子策略也是最优。
让我们通过对前面的例子再分析来具体说明这一点:
从A到D,我们知道,最短路径是Aà
B1à
C2à
D,这些点的选择构成了这个例子的最优策略,根据最优性原理,这个策略的每个子策略应是最优:
Aà
C2是A到C2的最短路径,B1à
D也是B1到D的最短路径……──事实正是如此,因此我们认为这个例子满足最优性原理的要求。
(五)、标号法
标号法是一种最佳算法,多用于求图的最短路问题。
一、标号法的概念:
所谓标号,是指与图的每一个顶点相对应的一个数字。
标号法可以说是动态规划,它采用顺推的方法,对图的每一边检测一次,没有重复的回溯搜索,因此标号法是一种最佳算法。
二、标号法的算法流程:
现有一图G,求从起点Vs到终点Ve的最短距离。
设:
Sum(j)───顶点Vj的标号,代表的是Vs到Vj的最短距离。
Vj已标味着Vs到Vj的最短路以及这条路径的长度已求出。
M(i,j)───Vi到Vj的非负长度。
H(j)───顶点Vj的前趋结点。
标号法的算法流程如下:
sum(s)←0
↓
Vs进入队列L
↓
-----→移出队列L的队首Vk←-----
|
|
Vk是不是Ve------------------|---→计算结束打印路径
N∣
Y
由Vk扩展出结点Vj
(Vk与Vj之间相连)
Sj←Sum(k)+M(k,j)
Sj小于Sum(j)
N
--------------------
Sum(j)←Sj
H(j)←
Vk
Vj加入队列L并对队列L按Sum值由小到大排序
---------------
注意:
1.只有两个顶点间的距离为非负时,才可用标号法。
2.只有队列的首结点是目标结点时,才可停止计算。
否则得出的不一定是最优解。
三、例题解析:
1.相邻项序列(GDOI97第四题)
问题描述:
对于一个N*N(<
=100)的正整数矩阵M,存在从M[A1,B1]
开始到M[A2,B2]结束的相邻项序列.两个项M[I,J]和M[K,L]相邻的件是指满足如下情况之一:
(1)I=K+-1和J=L
(2)I=K和J=L+-1。
任务:
从文件中输入矩阵M,再读入K(K<
=4)组M[A1,B1]和M[A2,B2]的值。
对于每一组M[A1,B1]和M[A2,B2],求一相邻项序列,使得相邻项之差的绝对值之和为最小。
输入格式:
4
───N
1
9
6
12
───每行N个数据,共N行
8
7
3
5
11
11
2
6
───K
───表示A1,B1和A2,B2的值,共K行
输出格式:
17
───第一组数据相邻项之差的绝对值之和的最小值是17
12───第一组数据的相邻项序列
4
解析:
本题若将相邻的两个数看作是两个顶点,两个数之差的绝对值作为权,则问题转化成求两个顶点的最短路问题。
Sum[I,J]为从起点Vs到结点M[I,J]的最短距离。
H[I,J]记录结点M[I,J]的前趋结点。
L为记录待扩展的结点的队列。
鉴于数组进行排序时速度较慢,所以用链表作为记录结点的队列的类型,适于排序。
参考程序:
Program
gdoi974;
const
fang:
array
[1..4,1..2]
of
integer
=((-1,0),(0,-1),(1,0),(0,1));
{上下左右四个方向}
type
{定义POINT类型,其中X,Y为结点在矩阵中的坐标,NEXT为队列中的后继结点}
point=^note;
note=record
x,y:
byte;
next:
point;
end;
I>
var<
/I>
sum:
Array
[1..100,1..100]
integer;
m:
h:
[1..100,1..100,1..2]
f1,f2:
text;
a,b,x1,y1,x2,y2,n,k,zz:
procedure
print;
a,b,x,y,x3,y3:
c:
[1..100]
flag:
boolean;
begin
=true;
a:
=1;
c[a]:
=m[x2,y2];
x:
=x2;
y:
=y2;
while
flag
do
=a+1;
x3:
=x;
y3:
=y;
=h[x3,y3,1];
=h[x3,y3,2];
=m[x,y];
if
(x=x1)
and
(y=y1)
then
=false;
{求出整条路径,放入数组C中}
writeln
(f2,zz,'
'
sum[x2,y2]);
for
b:
=a
downto
write
(f2,c[b],'
);
{打印结果}
(f2);
add(x,y,i:
l:
point);
e,f,g:
a,b,c:
new
(e);
e^.x:
e^.y:
i=0
l^.next:
=e
{加入队列}
else
f:
=l;
g:
=f^.next;
=1
to
i
sum[g^.x,g^.y]>
sum[x,y]
e^.next:
=g;
f^.next:
=e;
=i;
try(xz,yz:
byte);
a,b,c,sj,x,y,x1,y1:
e,l,v:
fillchar
(sum,sizeof
(sum),255);
{置Sum值为-1}
sum[xz,yz]:
=0;
{置起点Sum值为0}
=xz;
=yz;
(l);
{起点进入队列}
{现在队列结点个数}
v:
=l^.next;
dispose
{取出首结点V}
=v;
=c-1;
{指针下移一位,结点个数减一}
=v^.x;
=v^.y;
(x=x2)
(y=y2)
{若为目标结点,则结束计算}
then
do
{向四个方向扩展}
x1:
=x+fang[a,1];
y1:
=y+fang[a,2];
(x1>
0)
(x1<
=n)
(y1>
(y1<
sj:
=sum[x,y]+abs
(m[x,y]-m[x1,y1]);
(sj
sum[x1,y1])
or
(sum[x1,y1]=-1)
sum[x1,y1]:
=sj;
h[x1,y1,1]:
h[x1,y1,2]:
{记录路径}
add(x1,y1,c,l);
{将新扩展出来的结点进入队列}
=c+1;
{结点个数加一}
Begin
assign
(f1,'
gdoi974.dat'
(f2,'
gdoi974.out'
reset
(f1);
rewrite
readln
(f1,n);
n
read
(f1,m[a,b]);
{读入数组}
(f1,k);
k
zz:
=a;
(F1,x1,y1,x2,y2);
{读入任务}
try(x1,y1);
close(f1);
close(f2);
End.
四、小结
综上所述,标号法是动态规划的一种,它采用顺推的方法,对图的每一边检测一次,没有重复的回溯搜索,要比一般的搜索优秀得多。
它是一种最佳算法。
(六)、动态规划教程
一.动态规划含义:
在现实生活中,有一类活动的过程,由于它的特殊性,可将过程分成若干个互相联系的阶段,在它的每一阶段都要做出决策,从而使整个过程达到最好的活动效果.因此,各个阶段决策确定后,组成一个决策序列,因而也就确定了整个过程的一条活动路线.这种把一个问题看作是一个前后关联具有链状结构的多阶段过程,就称为多阶段决策过程,这种问题称为多阶段决策问题.
在多阶段决策问题中,各个阶段采取的决策,一般来说是和时间有关的,决策依赖于当前状态,又随即引起状态的转移,一个决策序列就是在变化的状态中产生出来的,故有"
动态"
的含义,我们称这种解决多阶段决策最优化的过程为动态规划.
二.动态规划特征
动态规划的显著特征是:
无后效性,有边界条件,且一般划分为很明显的阶段.
动态规划一般还存在一条或多条状态转移方程.
三.例题
1.
Catcher防卫导弹
(GDOI'
98)
题目讲得很麻烦,归根结底就是求一整串数中的最长不上升序列
这道题目一开始我使用回溯算法,大概可以拿到1/3的分吧,后来发现这其实是动态规划算法中最基础的题目,用一个二维数组C[1..Max,1..2]来建立动态规划状态转移方程(注:
C[1..Max,1]表示当前状态最多可击落的导弹数,C[1..Max,2]表示当前状态的前继标志):
Ci=Max{C[j]+1,(j=i+1..n)},然后程序也就不难实现了.
示范程序:
program
catcher_hh;
i,j,k,max,n,num:
[1..4000]
{导弹高度数组}
array