浅议基于强化学习的多机器人围捕策略的研究

浅议基于强化学习的多机器人围捕策略的研究

ID:34823543

大小:1.48 MB

页数:36页

时间:2019-03-11

浅议基于强化学习的多机器人围捕策略的研究_第1页
浅议基于强化学习的多机器人围捕策略的研究_第2页
浅议基于强化学习的多机器人围捕策略的研究_第3页
浅议基于强化学习的多机器人围捕策略的研究_第4页
浅议基于强化学习的多机器人围捕策略的研究_第5页
资源描述:

《浅议基于强化学习的多机器人围捕策略的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北师范大学硕士学位论文基于强化学习的多机器人围捕策略的研究姓名:刘杰申请学位级别:硕士专业:计算机软件与理论指导教师:刘淑华20090501摘要追捕逃跑问题是研究多智能体协调与合作的理想平台,在多机器人系统上实现追捕过程具有较大的挑战性,这项研究涉及到动态环境下的实时知识处理、无线通信、多机器人控制与协作,实时动态路径规划等多学科的知识。本文以多个追捕者追捕单个逃跑者问题为背景,研究四个追捕者之间通过学习进行合作与协调并将一个逃跑者抓获。强化学习的特点是无监督学习和在线学习,通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,且不要求对环境有先验知识,是

2、一种可以应用到实时环境中的在线学习方式,因此在智能控制领域得到了广泛而深入的研究。强化学习中较为经典的学习算法有Watkins提出的Q学习方法和Sutton提出的TD(时序差分)学习方法。随着机器人数目的增多,状态空间呈指数级增长,因此,强化学习的速度会明显下降。为了解决这种维数灾难问题,研究者引入了分层强化学习的概念并提出了一些有效的方法。比较典型的分层强化学习包括HAM、MAXQ和Option方法。Option方法以其灵活性和易于设计的特点受到研究者的青睐,因此本文将分层强化学习中的Option方法应用于多机器人围捕领域,取得了很好的效果。仿真实验表明,Option方法无论是从学习速度上

3、还是围捕质量上都明显优于Q学习。关键词:强化学习;追捕问题;分层强化学习;Option方法AbstractThepursuit-evasionproblemisakindofproblemwidelyfocused,atypicalproblemforMulti-Agentcollaborationandcooperationstrategyresearchindynamicenvironment.Itincludesreal—timeprocessingknowledge,wirelesscommunication,multi—robotcooperationandcoordination

4、anddynamicpathplanningandSOon.Thispaperfocusedonthemulti—robotcooperationandcoordinationbasedonpursuit—evasionproblem.Itcomprisesfourpredatoragentswhosegoalistocaptureapreyagentbysurroundingitonfoursides.Reinforcementlearningisanunsupervisedandonlinelearningmethod.Itimprovesitsbehavioursbytrialande

5、rrorwithenvironment.Theempiricalknowledgenotrequiredinreinforcementlearning.Therefore,reinforcementleamingisareal—timeandonlinelearningmethod.ThetypicalreinforcememlearningmethodsincludeQ-learningproposedbYWatkinsandTemporalDifferencemethodproposedbySutton.Thecomplexityde舒eeofreinforcementlearningi

6、ncreasesexponently、析tlltheincreaseofagentnumber.ToavoidtheSO—called‘cursesofdimensionality’,somemethodshavebeenputforward,HRL(hierarchicalreinforcementlearning)wasamongofthem.ThefamousHRLmethodsincludeHAM,MAXQandOption.Becauseofitsflexibilityanditssimplicity,Optioniswidelyappliedintomulti-robotsyst

7、em.ThispaperadoptedOptionmethodtodeal、杭thpursuit-evasionproblem.SimulationresultsshowOptionmethodisbetterthanQ—learningintrainingtimeandpursmtquality.Keywords:ReinforcememLearning;pursuit—evasionproblem;hie

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。