优控制第七章动态规划法

优控制第七章动态规划法

ID:39825102

大小:639.10 KB

页数:68页

时间:2019-07-12

优控制第七章动态规划法_第1页
优控制第七章动态规划法_第2页
优控制第七章动态规划法_第3页
优控制第七章动态规划法_第4页
优控制第七章动态规划法_第5页
资源描述:

《优控制第七章动态规划法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章动态规划法动态规划是贝尔曼在50年代作为多段决策过程研究出来的,现已在许多技术领域中获得广泛应用。动态规划是一种分段最优化方法,它既可用来求解约束条件下的函数极值问题,也可用于求解约束条件下的泛函极值问题。它与极小值原理一样,是处理控制矢量被限制在一定闭集内,求解最优控制问题的有效数学方法之一。动态最优的核心是最优性原理,它首先将一个多段决策问题转化为一系列单段决策问题,然后从最后一段状态开始逆向递推到初始段状态为止的一套求解最优策略的完整方法。下面先介绍动态规划的基本概念,然后讨论连续型动态规划。一、多段决策问题动态规划是解决多段决策过

2、程优化问题的一种强有力的工具。所谓多段决策过程,是指把一个过程按时间或空间顺序分为若干段,然后给每一步作出“决策”(或控制),以使整个过程取得最优的效果。如图1所示,对于中间的任意一段,例如第k+1段作出相应的“决策”(或控制)uk后,才能确定该段输入状态与输出状态间的关系,即从xk变化到xk+1的状态转移规律。在选择好每一段的“决策”(或控制)uk以后,那么整个过程的状态转移规律从x0经xk一直到xN也就被完全确定。全部“决策”的总体,称为“策略”。当然,如果对每一段的决策都是按照使某种性能指标为最优的原则作出的,那么这就是一个多段最优决策过

3、程。图1多段决策过程示意图容易理解,在多段决策过程中,每一段(如第k+1段)的输出状态(xk+1)都仅仅与该段的决策(uk)及该段的初始状态(xk)有关。而与其前面各段的决策及状态的转移规律无关。这种性质称为无后效性。下面以最优路线问题为例,来讨论动态规划求解多段决策问题。设汽车从A城出发到B城,途中需穿越三条河流,它们各有两座桥P、Q可供选择通过,如图2所示。各段间的行车时间(或里程、费用等)已标注在相应段旁。问题是要确定一条最优行驶路线,使从A城出发到B城的行车时间最短。现将A到B分成四段,每一段都要作一最优决策,使总过程时间为最短。所以这

4、是一个多段最优决策问题。由图2可知,所有可能的行车路线共有8条。如果将各条路线所需的时间都一一计算出来,并作一比较,便可求得最优路线是AQ1P2Q3B,历时12。这种一一计算的方法称为穷举算法。这种方法计算量大,如本例就要做3×23=24次加法和7次比较。如果决策一个n段过程,则共需(n-1)2n-1次加法和(2n-1-1)次比较。可见随着段数的增多,计算量将急剧增加。应用动态规划法可使计算量减少许多。动态规划法遵循一个最优化原则:即所选择的最优路线必须保证其后部子路线是最优的。例如在图2中,如果AQ1P2Q3B是最优路线,那么从这条路线上任一

5、中间点到终点之间的一段路线必定也是最优的。否则AQ1P2Q3B就不能是最优路线了。根据这一原则,求解最优路线问题,最好的办法就是从终点开始,按时间最短为目标,逐段向前逆推。依次计算出各站至终点之间的时间最优值,并据此决策出每一站的最优路线。如在图2中,从终点B开始逆推。最后一段(第四段):终点B的前站是P3或Q3,不论汽车先从哪一站始发,行驶路线如何,在这最后一段,总不外乎是从P3到B,历时为4,或从Q3到B,历时为2,将其标明在图3中相应的圆圈内。比较P3与Q3这一最后一段最优决策为Q3B。最后一段(第四段):终点B的前站是P3或Q3,不论汽

6、车先从哪一站始发,行驶路线如何,在这最后一段,总不外乎是从P3到B,历时为4,或从Q3到B,历时为2,将其标明在图3中相应的圆圈内。比较P3与Q3这一最后一段最优决策为Q3B。第三段:P3、Q3的前站是P2、Q2。在这一段也不论其先后的情况如何,只需对从P2或Q2到B进行最优决策。从P2到B有两条路线:P2P3B,历时为6;P2Q3B,历时为4,取最短历时4,标注在P2旁。从Q2到B也有两条路线:Q2P3B,历时为7;Q2Q3B,历时为5,取最短历时5,标注在Q2旁。比较P2与Q2的最优值,可知这一段的最优路线是P2Q3B。第二段:P2、Q2的

7、前站是P1、Q1。同样不管汽车是如何到达的P1、Q1,重要的是保证从P1或Q1到B要构成最优路线。从P1到B的两条路线中,P1P2Q3B,历时为11;P1Q2Q3B,历时为11,取最短历时11,标注在P1旁。从Q1到B的也有两条路线中,Q1P2Q3B,历时为8;Q1Q2Q3B,历时为13,取最短历时8,标注在Q1旁。比较P1与Q1的最优值,可知这一段的最优路线是Q1P2Q3B。第一段:P1、Q1的前站是始发站A。显见从A到B的最优值为12,故得最优路线为AQ1P2Q3B。综上可见,动态规划法的特点是:1)与穷举算法相比,可使计算量大大减少。如上

8、述最优路线问题,用动态规划法只须做10次加法和6次比较。如果过程为n段,则需做加法。以上例为例,用穷举法需作4608次加法,而后者只需做34次加法。2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。