合作型多智能体决策技术的研究

合作型多智能体决策技术的研究

ID:32511062

大小:2.50 MB

页数:66页

时间:2019-02-10

合作型多智能体决策技术的研究_第1页
合作型多智能体决策技术的研究_第2页
合作型多智能体决策技术的研究_第3页
合作型多智能体决策技术的研究_第4页
合作型多智能体决策技术的研究_第5页
资源描述:

《合作型多智能体决策技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要合作型多智能体决策技术研究给定的~组智能体如何协调彼此的动作,与环境进行受溉,麸同党成一个长远的目标。合作型多智能体决策技术有相当多的应用背景。例如,机器人足球队,球员之间楣互配合,共同为赢得比赛而努力;机器人髓救。多个机器人相互协谭,以最快的速度,落救地震尉的幸存者.本论文重点研究台作型多智能体决策技术中的三个谍题:1)值函数分解;2)☆作溅多镏髓体协调技术;3)合作型多智能体强化学习技术。本论文研究的主要内客及取得的成浆商12l下凡方掰:1.磁究了合{蕈壁多智韪传系统毽函数分麟按零,挺壅7一秘基于蠹副譬定主下文熬德溺数分瓣方

2、法。该方法梅系统擅函数近似为一些褥部德丽数的和。每个竭郝蓬函数只毽含需簧协调彼此动作的--,j,部分智能体。提出的值酶数分解方法紧致地描述了系统中智能体之间的协调笑系,降低了“维数诅咒”带来的影响。2.研究了合作犁多智能体协调技术,诞明了在合作型多智能体系统中。Paxeto最优同时也是Nash平衡,并提出了构造合作掣多智裁体协调算法的‘般方法.在此摹础之上,撼出了⋯种基于模拟退火的合作犁多智能体协调算法。理论分析和实验都表明该算法比辛流的合作溅多智能体协调算法盲更高的效率。3。穗出了一秘薪鬏靛多智裁体Q学嚣算法。该冀法运矮篷最数分解

3、技术,有效恁减少7学习过程孛震要访趣豹菝峦一动律对。实骏袭臻,谯学习到梵乎赣嚣约筐函数露,本文鬟港瓣学习舞法瓣收敛速度比传统豹多智能俸强偬学邂算法抉4嵇。芙键词:合作型多智能体决策,值两数分解,多智能体协调,合作型多智能体强化学习ABSTRACTGivenagroupofagents,aCooperativeMultiagentDecisionMakingproblemisaproblemofcoordinationactionsbetweentheagentstofulfillalong-termc01]ⅫQongoal.Exam

4、plesareateamof800c口pla)ringrobotswhoplayfootballagainstA-notherteamandagroupofresalerobotsthat,afteranearthquake,mustsafelyfindvictimsa8fastaspossible.Inthisdissertation,weaddressthreeresearchissueslieintheCooperativeMultiagentDecisionMakingproblem二1)valuefunc-tiondeco

5、mposition;2)multiagentcoordination;3)cooperativemultiagentreinforcementlearning.Contributionsofthedissertationinclude:1.WeproposeaRoleBasedContext-Specificvaluefunctiondecompositionapproach.Inthismethod,thevaluefunctionisapproximatedasafrillsofalotoflocalvaluefunctions

6、.Eachlocalvaluefunctiononlyinvolvesasmallgroupofagentswhoneedtocoordinatetheiractions.Ourapproachrepresentsthecoordinationdependenciesbetweentheagentsverycompactlyandthereforealleviatethe"curseofdimensionalitf'.2.WeprovethatinaCooperativeMultiagentSystem,aParetoOptimal

7、isalsoaNashEquilib-riumandproposethegeneralprincipletoconstructmultiagentcoordinationalgorithm.Basedontheseresults,wealsoproposeaSimulatedAnnealing(SA)basedmultiagentcoordinationalgorithm.TheoreticalanalysisandempiricalresultsshowthatSAbasedalgorithmfindsthenearoptimal

8、payoffswithsignificantperform∞ceimprovementsthanthestate-of-artmultia-gentcoordinationalgorithm.3.Weproposeanovelmult

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。