欢迎来到天天文库
浏览记录
ID:36858020
大小:2.94 MB
页数:80页
时间:2019-05-16
《多Agent协同的强化学习方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国防科技大学研究生院硕士学位论文摘要强化学习,因其不需要环境模型、通过Agent和所在环境的自主交互进行学习的特点,现已成为多Agent系统和机器学习领域的研究热点。多Agent系统常被应用于开放、复杂、动态变化的环境,单个Agent的能力己不能胜任所面临的任务,尤其是具有相同目标的系统,Agent之间必须协同求解。同时,Agent还必须具备学习能力以适应环境的动态变化。但传统的单Agent学习原理并不适用于多Agent环境,因此亚待根据多Agent系统的协同性,提出新的学习方法。Pursuitg
2、ame问题常用于来测试人工智能领域的学习算法,本文就此问题提出了两种多Agent协同强化学习方法:基于目标分解的方法和最优行为策略学习方法。博弈论反映了个人或组织之间的社会关系,将博弈论应用到多Agent系统以研究Agent之间的相互关系是合适的。本文正是基于这一点将马尔可夫博弈与强化学习结合起来,对多Agent的协同博弈强化学习方法进行了初探。文章首先介绍了Agent和多Agent系统、以及多Agent学习的一些基本概念,然后介绍了强化学习的基本原理以及几个常用的强化学习算法。在对pursuit
3、game问题进行初步分析的基础上,提出了基于目标分解的强化学习方法。但基于目标分解的方法有可能学习到的是局部最优解,为此对它进行了改进,提出了最优行为策略学习方法。文中对上述两种方法都进行了实验验证。最后,在对上述两种方法进行一般化和扩充的基础上,对多Agent的协同博弈强化学习进行了初步研究,提出了协同博弈强化学习算法,并就算法的收敛性进行了证明。本文的主要成果及创新见解是,提出了两种适用于pursuitgame问题的多Agent协同强化学习算法,并进行了实验验证。此外,通过施加一定的约束,将马
4、尔可夫博弈与强化学习相结合并应用到多Agent系统中,对协同博弈强化学习进行了初探。在理论分析的基础上,提出了协同博弈的强化学习算法,并证明了算法的收敛性。关键词:多Agent系统强化学习PursuitGame基于目标分解最优行为策略协同博弈第I页一--一—一下—国防科技大学研究生院硕士学位论文AbstractReinforcementlearninghasbeenthehotpotintheresearchofmulti-agentsystemsWAS)andmachinelearning(ML
5、),becauseitdoesn'trequiretheenvironmentmodel.Infact,areinforcement-learningagentlearnsthroughitsinteractionwiththeenvironment.MASisoftenappliedintoopen,complexanddynamicenviroment,inwhichasingleagentisinsufficienttosolvethefacedtask,sothatagentsmustdo
6、theirworkcooperatively.Inordertoadapttotheenvironment'sdynamicchangesagentsmusthavethelearningcapabilityaswell.ButthetraditionalsingleagentlearningtheorycannotholdtrueinthecaseofMAS.Soitisdesideratedtoputforwardanewlearningmethod,accordingtothecoopera
7、tivecharacterofMAS.InArtificialIntelligencefield,Pursuitgameisoftenusedtotestlearningalgorithms,andforthisproblem,thethesisestablishestwocooperativereinforcementlearningmethodsformulti-agents:GoalDecomposingBasedLearning(GDBL)methodandBestActionStrate
8、gyLearning(BASL)method.AsGameTheory(GT)reflectsthesocialrelationshipsamongpeopleororganizations,itisveryappropriatetoapplytheGTtoresearchthemutualrelationsinMAS.Basedonthispoint,thethesisintegratesMarkovGameswithreinforcementlearningandmakespr
此文档下载收益归作者所有