多Agent协同的强化学习方法研究

多Agent协同的强化学习方法研究

ID:36858020

大小:2.94 MB

页数:80页

时间:2019-05-16

多Agent协同的强化学习方法研究_第1页
多Agent协同的强化学习方法研究_第2页
多Agent协同的强化学习方法研究_第3页
多Agent协同的强化学习方法研究_第4页
多Agent协同的强化学习方法研究_第5页
资源描述:

《多Agent协同的强化学习方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国防科技大学研究生院硕士学位论文摘要强化学习,因其不需要环境模型、通过Agent和所在环境的自主交互进行学习的特点,现已成为多Agent系统和机器学习领域的研究热点。多Agent系统常被应用于开放、复杂、动态变化的环境,单个Agent的能力己不能胜任所面临的任务,尤其是具有相同目标的系统,Agent之间必须协同求解。同时,Agent还必须具备学习能力以适应环境的动态变化。但传统的单Agent学习原理并不适用于多Agent环境,因此亚待根据多Agent系统的协同性,提出新的学习方法。Pursuitg

2、ame问题常用于来测试人工智能领域的学习算法,本文就此问题提出了两种多Agent协同强化学习方法:基于目标分解的方法和最优行为策略学习方法。博弈论反映了个人或组织之间的社会关系,将博弈论应用到多Agent系统以研究Agent之间的相互关系是合适的。本文正是基于这一点将马尔可夫博弈与强化学习结合起来,对多Agent的协同博弈强化学习方法进行了初探。文章首先介绍了Agent和多Agent系统、以及多Agent学习的一些基本概念,然后介绍了强化学习的基本原理以及几个常用的强化学习算法。在对pursuit

3、game问题进行初步分析的基础上,提出了基于目标分解的强化学习方法。但基于目标分解的方法有可能学习到的是局部最优解,为此对它进行了改进,提出了最优行为策略学习方法。文中对上述两种方法都进行了实验验证。最后,在对上述两种方法进行一般化和扩充的基础上,对多Agent的协同博弈强化学习进行了初步研究,提出了协同博弈强化学习算法,并就算法的收敛性进行了证明。本文的主要成果及创新见解是,提出了两种适用于pursuitgame问题的多Agent协同强化学习算法,并进行了实验验证。此外,通过施加一定的约束,将马

4、尔可夫博弈与强化学习相结合并应用到多Agent系统中,对协同博弈强化学习进行了初探。在理论分析的基础上,提出了协同博弈的强化学习算法,并证明了算法的收敛性。关键词:多Agent系统强化学习PursuitGame基于目标分解最优行为策略协同博弈第I页一--一—一下—国防科技大学研究生院硕士学位论文AbstractReinforcementlearninghasbeenthehotpotintheresearchofmulti-agentsystemsWAS)andmachinelearning(ML

5、),becauseitdoesn'trequiretheenvironmentmodel.Infact,areinforcement-learningagentlearnsthroughitsinteractionwiththeenvironment.MASisoftenappliedintoopen,complexanddynamicenviroment,inwhichasingleagentisinsufficienttosolvethefacedtask,sothatagentsmustdo

6、theirworkcooperatively.Inordertoadapttotheenvironment'sdynamicchangesagentsmusthavethelearningcapabilityaswell.ButthetraditionalsingleagentlearningtheorycannotholdtrueinthecaseofMAS.Soitisdesideratedtoputforwardanewlearningmethod,accordingtothecoopera

7、tivecharacterofMAS.InArtificialIntelligencefield,Pursuitgameisoftenusedtotestlearningalgorithms,andforthisproblem,thethesisestablishestwocooperativereinforcementlearningmethodsformulti-agents:GoalDecomposingBasedLearning(GDBL)methodandBestActionStrate

8、gyLearning(BASL)method.AsGameTheory(GT)reflectsthesocialrelationshipsamongpeopleororganizations,itisveryappropriatetoapplytheGTtoresearchthemutualrelationsinMAS.Basedonthispoint,thethesisintegratesMarkovGameswithreinforcementlearningandmakespr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。