欢迎来到天天文库
浏览记录
ID:18256327
大小:409.50 KB
页数:6页
时间:2018-09-16
《动态规划与随机控制》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、动态规划与随机控制1953年,R.Bellman等人,根据某类多阶段序贯决策问题的特点,提出了著名的“最优性原理”。在这个原理的指导下,他将此类多阶段决策问题转变为一系列的互相联系的单阶段决策问题,然后,逐个阶段予以解决,最后再形成总体解决。从而创建了求解优化问题的新方法——动态规划。1957年,他的名著《动态规划》出版。1.离散型动态规划离散型确定性动态规划在解决美式期权问题时,我们通常采用倒向递推的方法来比较即时执行价格与继续持有价格。这是利用动态规划原理的一个典型例子。RichardBellman在1953年首次提出动态规划原理.最优化原理:无论过去的状态和决策如何,相对
2、于前面的决策侧所形成的的状态而言,余下的决策序列必然构成最优子策略.求解最短路径问题:来看下面一个具体的例子:我们要求从Q点到T点的最短路径其基本思想是分阶段求出各段到T点的最短路径:•Ⅳ:C1—T3•Ⅲ--Ⅳ:B1—C1—T4•Ⅱ--Ⅲ--Ⅳ:A2—B1—C1—T7•Ⅰ--Ⅱ--Ⅲ--Ⅳ:•Q—A2—B1—C1—T11•Q--A3—B1—C1—T11•Q--A3—B2—C2—T11从以上分析可以看出最短路径不唯一。最短路径解的特点•1、可以将全过程求解分为若干阶段求解;------多阶段决策问题•2、在全过程最短路径中,将会出现阶段的最优路径;-----递推性•3、前面的终点
3、确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终点)无关;-----无后效性•3、逐段地求解最优路径,势必会找到一个全过程最优路径。-----动态规划离散型不确定性动态规划离散型不确定性动态规划的特点就是每一阶段的决策不是确定的,是一个随机变量,带有一定的随机性,因此处理起来就相对复杂些。一个动态规划的经典问题:你打算与一个你遇到的最富有的人结婚,你的最优策略是什么?这里做几点基本的假设:1、如果碰到满足你要求的人,他无条件接受;2、有个人供你选择;3、每个备选对象的财富值都服从[0,1].区间上的均匀分布;那么你要找具有最大期望财富值的结婚对象的最优策略是什么?这
4、是一个看似简单但是很难解决的问题.通常的方法是顺序递推法,如果首先考虑碰到第一个人的财富,接着考虑碰到下一个人的财富值与第一个人的财富值进行比较,依次进行下去,但是你期望下一个对象的财富值的确定是一个很复杂的问题,并且很难进行比较.因此这里我们考虑倒向递推的方法进行计算,我们首先逆向考虑一个简单的问题就是假如你只面对2个人的情况,当你只碰到倒数第一个人时,我们认为他的财富期望值为0.5,我们知道,你将选择与倒数第二个对象结婚时只有在他的财富值大于0.5的情况下,否则你将与倒数第一个对象结婚。一般的,我们用表示倒数第一个人的财富期望值,用表示表示倒数第二个人的财富值,假设你的最优
5、行动时在倒数第二步,则倒数第二个人的财富期望值为:这里一般的倒向递推公式就是:·设,(1)是倒数第个人的财富值,是你在倒数第阶段的最优策略的财富期望值。如果我们把取,则此时我们可以算出2.连续型动态规划问题确定性控制问题给定,考虑一个如下控制问题(2)是允许控制集,在,是一个度量空间,,为一给定的映射.则最优控制问题就是在控制系统(2)的条件下极小化如下成本函数(3)对于给定的映射和。值函数的确定设;在区间考虑以下控制系统:这里控制是区间上可测函数。则成本函数就是如下函数:现在我们来定义如下形式的值函数:(4)这里值函数就是在允许控制集的范围内,找出所有成本函数中的极小化函数并
6、且满足一定的终止条件的函数。定理1.贝尔曼最优化原理假设是可分的度量空间,和是一致连续,并且存在常数使得对于,有则对于任何和任意有:(5)方程(5)就是我们通常所讲的动态规划方程。也就是说,全局最优一定导致局部最优,这也是贝尔曼原理的精髓。定理2.HJBequation如果值函数:则是如下带有终止条件的一阶偏微分方程(HJBequation)的解(6)定理的简要证明:固定,让为控制的相应状态轨迹,由贝尔曼原理,由:对于任意,有另一方面,对于任意当充分小,存在使得,这也就有。例:考虑如下系统;目标函数为解:根据以上分析,系统的拉格朗日型值函数为令则HJBequation为若优化区
7、间为无穷的大,则我们求解以下微分方程:为了求解上述非线性微分方程,将V(x)展开成如下级数形式:令n=4,则得所以最优控制作用为闭环系统为随机控制问题设为一布朗运动,我们考虑如下随机控制系统:(7)定义区间上可测的允许控制集,和是适应的,最优随机控制问题就是如下允许集下的成本函数(8)值函数就是如下系统下的极小化函数:设,我们考虑区间上以下控制系统(9)这里控制,成本函数是我们定义值函数如下:(10)定理3.贝尔曼最优化原理对于任意和任意有定理4.HJBequation如果值函数:则是以下带
此文档下载收益归作者所有