马尔可夫决策规划5

马尔可夫决策规划5

ID:46687592

大小:79.50 KB

页数:10页

时间:2019-11-26

马尔可夫决策规划5_第1页
马尔可夫决策规划5_第2页
马尔可夫决策规划5_第3页
马尔可夫决策规划5_第4页
马尔可夫决策规划5_第5页
资源描述:

《马尔可夫决策规划5》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、马余可夫决策规划第五讲有限阶段模型及其他有限阶段模型的目标只有有限项,即附(刃“+%+0%p血+…+0%匕…Ph叽1)当斤充分大时,近似令n=co2)用动态规划法求解注意:用Bellmon最优化原理可推出平稳策略优势。§5.1向后归纳法在确定性动态规划问题求解中,向后归纳法是寻求最优策略的•种有效解法,同样也是求解有限阶段Markov决策规划问题中最优策略与最优值函数的有效解法。定理5.1在状态集与所有行动集均为有限的有限阶段模型中,定义函数V;(0,使其满足如下等式:曲,Q)+工jwS(5.1)=Hi'fn(0)+SP^fn(0k"+10)jwS(沱S’=

2、N,N-1,N-2,…,0)其屮v?+,G>0。则由上述算式求出的v>(K°(l),K°⑵,…”⑴)即为有限阶段模型的最优值函数,即对每个iwS,均有K()(z)=supV4^0;与此同时求得的决策序列兀=(/o‘£'•••‘九)即为最优策略,其中S={1,2,...,/}。由于所有的(人⑴,沱S)及S={1,2,...,Z}均为有限集,故由(5.1)式求得的力;⑴一定存在,月.达到最优的行动可能多于一个(此时可任取一个作为/;(0)o定理5.1不仅解决了有限阶段模型求解最优策略的方法问题,而且还表明对任何〃,X"(i)表示在阶段",从状态2•出发,在余下N

3、+-n的阶段的最优期望总报酬,(龙,…,兀)也构成从71到阶段N的最优策略,这体现了Bellman的最优化原理。例5.1求解例3.1中当2=3时的最优策略与最优值函数。[解]:由题意知,机器只有两个状态,即S={1,2},对应的行动集分别为^(1)={«!},^(2)={a2,a3}。故最优值函数的形式为V>(K°(1),K°(2)),其中吟⑴与吟⑵可通过(5.1)式分别求解得到。注意题设2=3,因而根据向后归纳法的求解顺序应为K4(0tK3(z)TK2(0tVj(z)tK°(z),其中i^s={1,2}o下面分别列出心3,2,1,0时按照(5.1)式计算

4、的有关结果。1)x3,有:K4(1)=K4⑵=0刃(1)俩严)+R1皿G)=max心(1){厂(1卫)}=厂(1卫1)=10到达厂(1)右边最大的行动为“故令人⑴二坷;r(2,«)+^p(j2,a)K4(j)>jwS」=max{r(2,a2r(2,a3)}=max{-5,-2}=-2到达右端最大的行动为。3,故令人'(2)=色。匕2(1)何2)n=2,由(5.1)式及上一步计算得到的K3(1),V?(2)有r(i,a)+》pGi,d”;C/)jwsJ=r(l,6/,)+0.7x10+0.3x(-2)=16.4故令Ed;=maxjr(2,a)+gp(j2

5、,a处(j)jr(2,°2)+0.6x10+0.4x(-2),1r(2,a3)+0.4x10+0.6x(-2)J=max{0.2,0.8}=0.8达到K2(2)右端最大的行动为°3,故令k(2)=色。3)n=l,由(5.1)式及上一步计算得到的匕2⑴,匕2(2)有厂(l,d)+工〃帥,»?(丿・)K1(2)=max'7心⑵=max<‘=10+0.7X16.4+0.3X0.8=21.72故令fl⑴=a;厂(2卫)+工#G2,Q)V?C/)>正sJ2^2)+0.6x16.4+0.4x0.8;r(2,(73)+0.4x16.4+0.6x0.8达到刃(2)右端最

6、大的行动为色,故令人(2)=色。4)n=0,由(5.1)式及上一步计算得到的刃(1),刃⑵有V°(1)=max]r(l9a)+工叙(J)[jwSJ=10+0.7x21.72+0.3x5.16=26.752K°(2)=maxaeA(2)尸(2卫)+工加2卫加(丿・)>-5+0.6x21.72+0.4x5.16,=max<-2+0.4x21.72+0.6x5」6=max{10.096,9.784}=10.096达到厂(2)右端最大的行动为°2,故令兀(2)=°2。由定理5.1可知最优函数为K°=(K°(1),K°(2))=(26.752,10.096)=(匕(龙

7、,1皿(八2)),相应的最优策略为n=(A,/;,/;,/;)=(/,/,g,g),其屮f(l)=g(l)=%,/⑵之2,g⑵=色。注:本例屮的最优策略不是平稳的,决策函数尼九沧不同。由此可见,有限阶段问题的最优策略一般不是平稳策略。例5.2假设一设备制造厂承接了某工程屮一台关键设备的制造任务,工程对此设备的质量标准有非常严格的要求。以该厂现有的技术水准而言,每台制成的设备能通过质量检验而被接受的概率仅为0.25。再因该工程对此设备乂有一足的时限要求,所以厂方决定,至多安排三个生产周期完成此项任务,每一生产周期可制造j(o

8、时,均对已制成的设备进行检验,只要其中有一台是合格的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。