欢迎来到天天文库
浏览记录
ID:59413163
大小:794.00 KB
页数:70页
时间:2020-09-19
《[工学]动态规划ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、动态规划动态规划是贝尔曼(Bellman)在五十年代为解决多级决策过程而提出来的。它可以解决很多领域中的问题,如生产过程的决策,收益和投资问题,有多级反应器的化工装置的设计,多级轧钢机的最速轧制问题,资源分配、机器负荷分配、生产计划编制,特别是控制工程问题。它和极小值原理一样,可解决控制变量受约束的最优控制问题,而且在这两种方法之间存在某种内在的联系。动态规划的中心思想是利用所谓“最优性原理”,把一个级决策过程化为个单级决策过程,从而使问题简单。6.1多级决策的例子——最短时间问题设有人要从点开车到站,中间要经过任意三个中间站,站名在
2、图中圆圈内表示。站与站之间称为段,每段路程所需时间(小时)标在段上。现要问,这人应如何选择路线才能最快到达目的地?为了便于理解动态规划的思想,我们来研究图6-1所示的最短时间问题。图6-1按最短时间的路径选择(一)穷举法从走到一共有六条路线,每条路线由四段组成。这六条路线和对应的行车时间如下路线行车时间(小时)13111413129显然最优路线是,它所花时间为9小时。这里每条路线由四段组成,也可以说是四级决策。为了计算每条路线所花时间,要做三次加法运算,为了计算六条路线所花的时间要作3×6=18次运算。这种方法称为“穷举法”。显然当段
3、数很多时,计算量是很大的。这种方法的特点是从起点站往前进行,而且把这四级决策一起考虑。应注意从到下一站所花的时间为1,而到所花时间为3,但最优路线却不经过。这说明只看下一步的“眼前利益”来作决策是没有意义的。(二)动态规划法为将问题表达得清楚,引进下面的术语。令表示由某点到终点的段数(如到为2段)。令表示当前所处点的位置(如),称为状态变量。令为决策(控制)变量,它表示当处在位置而还有段要走时,所要选取的下一点。例如,从出发,下一点为时,则表示为。令表示在位置,向终点还有段要走时,由到终点的最短时间。例如,从C2到E的最短时间为4,可
4、表示为T2(C2)=4。令表示从点到点的时间。例如,从到的时间为有了这些术语后,就可用动态规划来解这个例子。从最后一段出发进行计算,并将计算出的最短时间用括号表示在相应的点处(见图6-1)。1(倒数第一段)考虑从和到的路线,由定义可知,最短时间分别为n=12(倒数第二段)考虑从、或到的路线。由到有两种路线:,。两种路线中的最短时间由下式确定:最优决策为。由到只有一种路线,其时间为由到E也只有一种路线,其时间为EDC233(倒数第三段)考虑从B1或B2到E的路线。B1到E有两种路线:和。最短时间为最优决策从B2到E有两种路线:和。最短时
5、间为最优决策为。4(倒数第四段)从到的路线有两种:和。最短时间为:最优决策为。至此求出了A到E的最短时间为9,最优路线为。在图6-1中用粗线表示。这里,为决定最优路线进行了10次加法,比穷举法的18次少了8次。当段数n更多时,节省计算将会更多。从上面解题过程可见,动态规划解题的两个特点:它是从最后一级往后倒着计算的;它把一个级决策问题(这里是决定一整条路线)化为个单级决策问题,即把一个复杂问题化为多个简单问题来求解。我们可看出阶段与阶段有下面的关系()(6-1)(表示最后一级)(6-1)式称为函数方程,从(6-1)式可见,在选择了决策
6、后有两个影响,其一是直接影响下一段的时间(眼前利益),其二是影响以后段的最短时间(未来利益)。因此动态规划方法可以说是把眼前利益和未来利益区分开来又结合起来考虑的一种优化方法。这些特点都是由动态规划法的基本原理——最优性原理所决定的。最优性原理贝尔曼的最优性原理可叙述如下:“一个多级决策问题的最优决策具有这样的性质:当把其中任何一级及其状态作为初始级和初始状态时,则不管初始状态是什么,达到这个初始状态的决策是什么,余下的决策对此初始状态必定构成最优策略。”以上面的最短时间问题为例,如把当作初始状态,则余下的决策2E对来讲是最优策略;如
7、把当初始状态,则余下的决策对来讲也构成最优策略。一般来说,如果一个最优过程用状态来表示,最优决策为,则对状态来讲,必定是最优的,这可用图6-2来表示。图6-2最优性原理示意图在多数实际问题中,级决策的性能指标取如下形式是由某级状态和决策决定的性能函数,要求寻找决策使J取极小值。最优性原理可表示为(6-2)根据上式就可证明最优性原理的正确性。若以为初态时,余下的决策不是最优的,那么就存在另一决策序列所决定的指标值,于是这与是极小值发生矛盾,所以余下的决策必须是最优的。(6-1)式的函数方程与(6-2)式所表示的最优性原理是一致的,只是表
8、示方法不同。(6-1)式中的下标n表示离终点的级数,(6-2)式中的下标表示离起点的级数。两式的对照留给读者去做。(6-3)由上式可见,最优化的过程是从最里面的方括号开始向外扩展的,即寻找最优控制的次序是。因此根据最优性
此文档下载收益归作者所有