基于交替跟踪的分布式多智能体合作学习算法研究

ID：33510916

大小：6.79 MB

页数：64页

时间：2019-02-26

资源描述：

《基于交替跟踪的分布式多智能体合作学习算法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、万方数据中图分类号至￡!墨!UDC620硕士学位论文学校代码10533密级公珏基于交替跟踪的分布式多智能体合作学习算法研究DecentralizedMulti--agentCooperativeLearningBasedonTimesharingTrackingFramework作者姓名学科专业研究方向学院(系、所)指导教师副指导教师：傅波：控制科学与工程：多智能体系统、强化学习：信息科学与工程学院：何勇教授：陈鑫副教授论文答辩日期&垒c竺，￡s墨答辩委员会主席缸I-I万方数据原创性声明本人声明，所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所

2、知，除了论文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得中南大学或其它单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。作者签名：盛退日期：叠雌年上月班日学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定，即：学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》，并通过网络

3、向社会公众提供信息服务。作者签名：盛选聊签名：鲺日期：坐年』盟日万方数据基于交替跟踪的分布式多智能体合作学习算法研究摘要：本文以合作式多智能体系统为研究对象，研究应用强化学习对多智能体系统的合作策略进行优化，其中关键问题主要包括学习降维、信度分配与收敛证明三个方面。本文研究的思路来源于强化学习理论，其相关定义以离散环境为基础展开，由于其良好的自学习性质广泛应用于合作式的多智能体系统。同时，随着多智能体系统理论研究的进展，对理论在实际中的应用要求进一步提高。然而，“维数灾”问题突出、学习效率低下以及无收敛性理论保证等阻碍了其在合作式多智能体系统的推广和应用。本文针对合作

4、式多智能体强化学习中的降维、信度分配以及收敛理论三个关键问题进行研究。在分布式强化学习的降维手段基础上，提出一种新的多智能体合作学习框架一一交替跟踪学习。一方面通过降维的Q学习缓解维数灾，另一方面基于交替跟踪学习框架提高学习效率的同时保证合作策略的收敛，并实现学习智能体的信度分配。此外，针对分布式的多智能体同时学习进行了初步的探讨。首先，以强化学习基本理论框架为对比基础，结合分布式多智能体合作学习环境，定义了新型的降维的奖励以及值函数。从适应性角度分析了最佳响应学习的合理性，假设非学习智能体策略稳定环境下，提出了降维的最佳响应学习算法，并证明了其收敛性。其次，在定义降

5、维跟踪学习值函数的基础之上，提出一种交替跟踪的分布式多智能体合作学习框架，并重点分析了框架的策略搜索、降维、同时学习等特点。并针对实际应用，给出了框架下多智能体进行交替学习的切换机制。此外，在个体奖励已知情况下，将现有的最佳响应算法融入交替跟踪框架，形成一种完全合作式的分布式多智能体强化学习算法。个体奖励相同条件下，多智能体合作推箱子作为仿真对象，验证了所提算法的正确性和有效性。再次，为进一步扩展算法的应用范围，针对一般的合作式多智能体系统，个体奖励未知情况下，提出采用随机逼近方式获取学习智能体的个体奖励以实现信度分配。同样，建立在交替跟踪的交替学习框架下，结合基于信

6、度分配的最佳响应学习算法，克服了个体奖励的逼近问题，提出了一般合作式多智能体系统的强化学习算法。以多智能体合作推箱子作为仿真对象，在信度分配未知下，验证了III万方数据所提算法的能有效逼近个体奖励并获得较好的学习效果。最后，针对多智能体完全合作环境下学习速度慢及收敛效果不佳问题，提出了基于分布式强化学习的二阶段适应学习方法，依次实现了智能体对环境的适应以及系统内部的协作，有利于大规模空间环境下的实际应用问题。三连杆捉取物体的仿真验证了所提算法的高效性。图15幅，表3个，参考文献64篇。关键词：合作式多智能体系统；分布式强化学习；最佳响应学习；交替跟踪；适应性学习分类号

7、：TPl81万方数据DecentralizedMulti—agentCooperativeLearningBasedonrn‘1’r一1‘”1lmesnanng1racklngrrameworKAbstract：Aimingatcooperativemulti-agentsystem(MAS)，whichiswidespreadinourdailylives，thisthesisstudieslearningbehavioralstrategiesofMASbyreinforcementlearning(RL)，andthekeyofthisstud

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 64



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于交替跟踪的分布式多智能体合作学习算法研究

基于交替跟踪的分布式多智能体合作学习算法研究

相关文章

相关标签