多智能体增强学习算法及应用研究

多智能体增强学习算法及应用研究

ID:36858175

大小:3.78 MB

页数:66页

时间:2019-05-16

多智能体增强学习算法及应用研究_第1页
多智能体增强学习算法及应用研究_第2页
多智能体增强学习算法及应用研究_第3页
多智能体增强学习算法及应用研究_第4页
多智能体增强学习算法及应用研究_第5页
资源描述:

《多智能体增强学习算法及应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国防科学技术大学硕士学位论文多智能体增强学习算法及应用研究姓名:连传强申请学位级别:硕士专业:控制科学与工程指导教师:徐昕2010-11国防科学技术大学研究生院学位论文摘要随着物理机器人和软件智能体的不断普及,对于多智能体的需求和应用,如足球机器人、搜索和营救等变得越来越普遍。多智能体系统的增强学习(ReinforcementLearning:RL)在近年来吸引了越来越多研究者的注意力。由于多智能体系统往往面临着巨大或连续的状态动作空间以及更多的环境不确定性和随机性,因此高效的多智能体增强学习算法仍然是目前研究的难点和热点之一。本文在国家自然科学基金项目“基于核的增强学习与近似动态规划方法研

2、究”的支持下,对多智能体增强学习算法进行了研究:首先对一类自适应评价增强学习方法--对偶启发式规划(DualHeuristicProgramming:DHP)算法进行了改进,然后面向多机器人编队控制和网络资源分配两类典型的多智能体协作控制问题,分别提出了IL-DHP(IndividuallyLearning-DualHeuristicProgramming)和Q-CF(Q-ChainFeedback)两类多智能体增强学习算法。在整个研究过程中,取得的主要成果包括:(1)DHP方法中的执行器模块和评价器模块通常采用神经网络来构建,在以往的训练中采用的是固定不变的学习率,这限制了神经网络的学习收

3、敛速度,进而影响了DHP方法的学习收敛速度和学习成功率。本文针对这个问题将Delta-Bar-Delta学习规则引入到DHP算法中,使其在学习过程中两个网络模块动态的调节学习率,提高了收敛速度和学习成功率,仿真实验验证了其有效性。(2)在多机器人编队控制问题中,提出了基于独立增强学习(ReinforcementLearningIndividually:RLI)思想的IL-DHP方法。IL-DHP算法是一种分布式的多智能体增强学习算法,每个智能体不依赖于其他智能体的状态和动作独立的采用DHP算法进行学习。在基于距离角度信息的l-φ反馈控制方法的基础上,每个智能体采用DHP算法优化其反馈控制参数

4、。仿真结果表明,在队形或领航机器人速度发生改变时,IL-DHP方法相比单纯的l-φ反馈控制方法具有更优的性能。(3)针对网络资源分配问题,将Q-学习算法和链式反馈(ChainFeedback:CF)学习算法相结合,提出了Q-CF多智能体增强学习算法,利用一种称为信息链式反馈的机制实现了多智能体之间的高效协同。仿真结果表明,和已有的多智能体Q-学习算法相比,本文方法具有更加快速的收敛速度,同时保证了协同策略的性能优化。关键词:增强学习,多智能体系统,多机器人编队控制,Delta-Bar-Delta学习规则,DHP,神经网络,资源分配,协同控制第i页国防科学技术大学研究生院学位论文ABSTRAC

5、TAsthepopularizationofphysicsrobotsandsoftwareagents,therearemoreneedsandapplicationsformulti-agentsuchasrobotsoccer,searching,rescuingandsoon.Inrecentyears,reinforcementlearninginmulti-agentsystemhastakenmoreandmoreattention.However,multi-agentsystemoftenfaceshugeorcontinuousstateandactionspacesan

6、dmoreuncertaintyandrandomness,somulti-agentreinforcementlearningisstilladifficultandhottopic.SupportedbytheNationalNaturalScienceFoundationofChina(NSFC),theresearchtopicofthispaperhasbeenfocusonthekernel-basedreinforcementlearningandapproximatedynamicprogramming.Multi-agentreinforcementlearningalgo

7、rithmwasstudiedinthispaper:DHP(DualHeuristicProgramming)algorithmwhichisoneofACD(AdaptiveCriticDesign)methodswasameliorated,andIL-DHP(IndividuallyLearning-DualHeuristicProgramming)andQ-CF(Q-ChainFeedback)mu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。