基于高斯回归的连续空间多智能体强化学习算法研究

基于高斯回归的连续空间多智能体强化学习算法研究

ID:36603680

大小:6.37 MB

页数:71页

时间:2019-05-12

基于高斯回归的连续空间多智能体强化学习算法研究_第1页
基于高斯回归的连续空间多智能体强化学习算法研究_第2页
基于高斯回归的连续空间多智能体强化学习算法研究_第3页
基于高斯回归的连续空间多智能体强化学习算法研究_第4页
基于高斯回归的连续空间多智能体强化学习算法研究_第5页
资源描述:

《基于高斯回归的连续空间多智能体强化学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号UDCTPl81681硕士学位论文学校代码密级10533基于高斯回归的连续空间多智能体强化学习算法研究Multi·—agentReinforcementLearningBasedonGaussianRegressioninContinuousSpaces作者姓名学科专业研究方向学院(系、所)指导教师:魏海军:控制科学与工程:多智能体系统、强化学习:信息科学与工程学院:陈鑫副教授论文答辩日期盈如牡答辩委员会主中南大学二零一三年四月一夸一二=中心月原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果

2、。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其它单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均己在论文中作了明确的说明。作者签名:铀雄日期:驰年坳号日学位论文版权使用授权书本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《

3、中国学位论文全文数据库》,并通过网络向社会公众提供信息服务。作一:辚新虢丝吼盐年』月号曰基于高斯回归的连续空间多智能体强化学习算法研究摘要:本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限制了强化学习的适应范围,使得空间泛化成为提高强化学习的实用性的一个重要步骤。同时,随着多智能体系统理论研究的进展,强化学习理论也从简单的单智能体强化学习发展到复杂的多智能体强化学习。

4、然而,在多智能体系统环境下,学习和存储空间将随着智能体个数的增加而呈指数级增长,“维数灾难”问题更加突出,导致学习效率低下,甚至破坏学习的收敛性。本文针对多智能体强化学习中的空间泛化与学习降维两个关键问题进行研究。一方面,通过建立状态值函数模型、状态一动作对值函数模型、策略函数模型分别实现状态空间、动作空间、策略空间的泛化。另一方面提出一种基于联合状态.个体动作的降维Q函数定义,实现学习空间与存储空间的双重降维,同时采用基于模型的学习方法提高学习效率。首先,根据强化学习基本定义,结合多智能体系统应用环境,讨论多智能体强化学习的一般框架及

5、其相对应的典型算法。分析多智能体强化学习中泛化与降维这两个问题的本质,并给出解决问题的总体思路与理论指导。其次,假设己知环境联合奖赏函数、非学习智能体执行静态稳定策略,在定义降维跟踪学习值函数的基础之上,提出一种基于高斯回归的连续空间多智能体跟踪学习算法。通过高斯回归方法建立值函数模型实现空间泛化,采用基于模型的学习方法提高学习效率,并从时间复杂度、空间复杂度两个方面分析算法性能。再次,为进一步扩展算法的适应性,突破上述假设条件,提出改进型多智能体连续空间基于模型的跟踪学习算法。通过观察环境对系统的联合鉴赏与记录个体历史鉴赏,采用一种新

6、型的个体鉴赏函数迭代逼近方法,获取智能体个体鉴赏函数。此外,在线建立实时的行为策略模型,用于改进学习样本空间的更新方法。III然后,在MASMBRL.CPT算法的基础上,引入基于分时学习的协调机制,使得所有智能体均能通过交替学习轮番更新自己的响应策略,引导合作策略的持续优化,最终实现同时学习功能,并形成最优合作策略。最后,利用Multi—Cart.Pole与Line—up平衡控制系统仿真验证所提算法的正确性和有效性。关键词:多智能体系统;基于模型的强化学习;泛化;维数灾难;高斯回归分类号:TPl81IVMulti—agentReinfo

7、rcementLearningBasedonGaussianRegressioninContinuousSpacesAbstract:Aimingatmulti-agentsystem(MAS),whichiswidespreadinourdailylives.thisthesisstudieslearningbehavioralstrategiesofMASbyreinforcementleaming(RL),andthekeyofthisstudyisongeneralizationand‘‘curseofdimensionalit

8、y”.Theinitial.RLtheoryanditsrelateddefinitionwerediscussediustbasedondiscreteenvironment,andthepractica

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。