马尔可夫决策.ppt

马尔可夫决策.ppt

ID:52059934

大小:566.00 KB

页数:20页

时间:2020-03-31

马尔可夫决策.ppt_第1页
马尔可夫决策.ppt_第2页
马尔可夫决策.ppt_第3页
马尔可夫决策.ppt_第4页
马尔可夫决策.ppt_第5页
资源描述:

《马尔可夫决策.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、MarkovDecision马尔可夫决策第九组:史文祥曹海歌设计一个回报函数,如果learningagent在决定一步后,获得了较好的结果,那么我们给agent一些回报(比如回报函数结果为正),若得到较差的结果,那么回报函数为负。比如,四足机器人,如果他向前走了一步(接近目标),那么回报函数为正,后退为负。如果我们能够对每一步进行评价,得到相应的回报函数,那么就好办了,我们只需要找到一条回报值最大的路径(每步的回报之和最大),就认为是最佳的路径。马尔可夫决策过程(MDP,Markovdecisionprocesses)是基于马尔可夫过程理论的随机动态系统的最优决策过程

2、。它是马尔可夫过程与确定性的动态规划相结合的产物,又称马尔可夫型随机动态规划。研究一类可周期地或连续地进行观察的随机动态系统的最优化问题。在各个时刻根据观察到的状态,从它的马尔可夫决策相关书籍允许决策(控制、行动、措施等)集合中选用一个决策而决定了系统下次的转移规律与相应的运行效果。并假设这两者都不依赖于系统过去的历史。在各个时刻选取决策的目的,是使系统运行的全过程达到某种最优运行效果,即选取控制(影响)系统发展的最优策略。MDP五元组(S,A,{Psa},γ,R)S:状态集(states)A:一组动作(actions)Psa:状态转移概率γ:阻尼系数(discoun

3、tfactor)R:回报函数(rewardfunction)S中一个状态到另一个状态的转变,需要A来参与。Psa表示在当前s∈S状态下,经过a∈A作用后,会转移到的其它状态的概率分布情况一个较小的MDP模型(机器人导航任务)+1-11234321S:11statesA={N,S,W,E}PSN(s')P(3,1)N((3,2))=0.8P(3,1)N((4,1))=0.1P(3,1)N((2,1))=0.1RR((4,3))=+1R((4,2))=-1R(s)=-0.02(S,A,{Psa},γ,R)MDP是如何工作的时间0,从状态S0出发...取出你在哪个地方ats

4、tateS0选择一个动作A0决定actiona0得到一个新状态S1~PS0a0循环S0S2S1S3a0a1a2......R(S0)R(S1)R(S2)R(S3)......+++R(S0)γR(S1)γ2R(S2)γ3R(S3)......γ∈[0,1)+++目标:E[R(S0)γR(S1)γ2R(S2)γ3R(S3)+...]+++Policy(策略)已经处于某个状态s时,我们会以一定的策略π来选择下一个动作a的执行,然后转换到另一个状态。π:S→Aa=π(s)值函数(valuefunction)Vπ(s)=E[R(S0)+γR(S1)+γ2R(S2)+γ3R(S

5、3)+...

6、s0=s,π]值函数是回报的加权和期望,给定π也就给定了一条未来的行动方案,这个行动方案会经过一个个状态,而到达每个状态都会有一定回报值,距离当前状态越近的其它状态对方案的影响越大,权重越高。递推Vπ(s)=E[R(S0)+γR(S1)+γ2R(S2)+γ3R(S3)+...]Vπ(s1)下一个状态值函数的期望值然而我们需要注意的是:给定π后,在给定状态s下,a是唯一的,但A→S可能不是多到一的映射立即回报=R(S0)+γ(E[R(S1)+γ2R(S2)+γ3R(S3)+...])=R(S0)+γVπ(s')(s':下一个状态)给定一个固定的策略π,我们

7、怎么解这个等式Vπ(s)=?(3,1)(3,2)(4,1)(2,1)0.80.10.1.....

8、S

9、个方程,

10、S

11、个未知数+1-112343210.520.330.37+1-0.09-0.82-1-0.88-0.83-0.85-1.001234321一个具体的例子对于给定的策略,我们可以写下这一策略的价值函数这是一个策略,但这不是一个伟大的策略Vπ(策略的价值函数)目的:找到一个当前状态s下,最优的行动策略π。定义最优的V*如下:Bellman等式:(2)第二项是一个π就决定了每个状态s的下一步动作,执行a后,s'按概率分布的回报概率和的期望定义了最优的V*,我们再

12、定义最优的策略π*:S→Aπ*:实际上是最佳策略,最大化我们的收益。选择最优的π*,也就确定了每个状态s的下一步动作a。(3)注意:如果我们能够求得每一个s下最优的a,那么从全局来看,S→A的映射即可生成,并且是最优映射π*。π*针对全局的s,确定了每一个s的下一个行动a,不会因为初始状态s选取的不同而不同。如何计算最优策略?(MDP是有限状态,有限动作时)值迭代法1、将每一个s的V(s)初始化为02、循环直到收敛{对于每一个状态s,对V(s)做更新}i)同步迭代法初始状态所有的v(s)都为0.对s都计算新的V(s)=R(s)+0=R(s)。在计算每

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。