欢迎来到天天文库
浏览记录
ID:36334521
大小:310.50 KB
页数:15页
时间:2019-05-09
《基于值迭代的MDP算法求解最优策略》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于值迭代的MDP算法求解最优策略姓名:陈丽学号:E13301110参考文献石轲,基于马尔可夫决策过程理论的Agent决策问题研究,中国科学技术大学,2010孙湧,仵博,冯延蓬,基于策略迭代和值迭代的POMDP算法,计算机研究与发展,2008年刘克,实用马尔可夫决策过程[M].北京:清华大学出版社,2004鲁庆,基于栅格法的移动机器人路径规划研究,电脑与信息技术,2007年问题背景描述利用栅格法对空间划分,搜索一条从起始栅格到终点栅格的路径,构成机器人运动的可行路径。目标、吸收状态障碍物禁止、吸收状态实验内容:基于值迭代的MDP算法,找出从某状态到达目标状态时,使状态值函数达到最大值的
2、最优策略。马尔可夫决策过程(MDP)基本的MDP模型是一个四元组:。例如P(s’
3、s,a),显然0≤P(s’
4、s,a)≤1,并且策略Π:指决策者对于特定状态,应选择的动作。MDP决策的策略是将状态映射到动作,同时满足使Agent选择的动作能够获得环境报酬的累计值最大。值函数值函数:指对于特定策略和某一状态,执行该策略直到达到吸收状态,所获得的累计回报的期望。值函数为:其中γ为折扣因子,其目标是让期望值有界.问题陈述(1)状态空间S:小机器人有11个活动状态,编号0~10;(2)动作空间A:{N,E,S,W},小机器人有北,东,南,西四个可选动作。(3)状态转移概率
5、模型{P}:每个动作以0.8的概率到达动作期望状态,分别以0.1的概率到达动作的两个侧向状态。(4)状态转移回报模型R:R((10))=+1.0,R((9))=-1.0,R(其他状态)=-0.02。(5)γ=0.99(6)定义状态10和9为吸收状态,第一次到达吸收状态时,获得对应吸收状态回报;问题陈述例如P(6)
6、(5),N=0.8,P(8)
7、(5),N=0.1,P(3)
8、(5),N=0.1,P(其他状态)
9、(5),N=0.0。目标、吸收状态禁止、吸收状态算法设计一轮迭代后,当各状态的V值变化量小于阀值时,我们称此时找到问题的最优策略;实验结果设立阈值THRESHOLD为0.0001,
10、算法经过12轮迭代结束;结果分析方格中显示对应状态的V值。算法改进动作值函数:回报函数根据下个可能到达的状态的值函数实验结果实验结果结果分析ThankYou!
此文档下载收益归作者所有