欢迎来到天天文库
浏览记录
ID:35174536
大小:3.91 MB
页数:74页
时间:2019-03-20
《基于动作抽象的分层强化学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校倾:10285学号:201342270的■襄1牡考SOOCHOWUNIVERSITY醒t—基于动作抽象的分层强化学习算法研究.民esearchesonHierarchicalReinforcementLearningBasedonAbstractAnions—…?.:,研究生姓名志鹏-j年指导教师姓名伏玉琢教授)朱斐语i(j教授) ̄ ̄专业名称软件工程..一■、■勺^_祐;;'->早;i門V研究方向机器学习—心’I,.
2、:,■巧在院部计算机科学与技术学院论文提交日期2016年5月苏州大学学位论文独创性声明本人郑重声明;所提交的学位论文是本人在导师的指导下,独立进行研巧工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均己在文中明确方式标明。本人承担本声明的法律责任。LS论文作者签名I^曰:气会耐期:-.苏州大学学位论女使用授权黄明本人完
3、全了解苏州大学关于收集、爆存和德用学位论文肋规定;,即学位论文蕃作权归屬苏州大学。本学位论父电子文挡的肉容聯鑛厦途义一的内容相致。苏州大学有权向團家圏书鑛、中園社科酶文献停息情概^中也、中国科学技术信息研宛巧(含万方数擬电子出版社)、中闇学术期刊论(光盘版)电子杂志化送交本学位论文饒复巧件和电子文機,愈许位文被查阐和借阅,可W采用影印、鑛印或其倫變制手段顧蒋顧氾編学论文,可W将学位论文的全擲或鄭分内容编入将关数擬库进巧機索。渉密论文口本学位论文属在年月解密后适甩本规定◎離涉蜜论文□i
4、论文作者签名;B扇:L可'导师签名;.作vM ̄^管日顯;列M.r?r1基于动作抽象的分层强化学习算法研究中文摘要基于动作抽象的分层强化学习算法研究中文摘要强化学习可以通过与环境交互完成自主学习与优化,是一类重要的机器学习方法。然而强化学习也存在若干难点亟待解决,如“维数灾难”问题,在提高算法效果的前提下同时提高算法效率等。作为强化学习中的一个重要领域,分层强化学习将学习任务分解成多个子任务然后分别求解,可以有效地解决强化学习问题中的“维数灾难”问题并提高算法效率。抽象机制是分层强化学习主要实现方法,包括动作抽象
5、、任务抽象和状态抽象。本文围绕如何快速高效地发现抽象动作以及如何高效地利用好抽象动作展开研究,提出了几种控制优化和自动发现抽象动作的分层强化学习算法,主要包括以下三部分内容:(1)经典的基于Option框架的抽象动作方法不能很好解决动态环境下的学习和控制问题,针对此问题,本文提出一种在线学习的使用可中断动作抽象的算法(InterruptingMacro-Q,IMQ)。IMQ通过原有抽象动作算法基础上引入中断,能够有效解决动态环境下一般强化学习算法由于时间复杂度过高而不能解决的问题。IMQ算法将中断的思想与动态环境的特性相结合,
6、在动态的环境下学习并改进控制策略,提高了算法的学习和控制效率。(2)基于多样性密度度量方法的抽象动作发现算法轨迹采样噪声大,导致Agent识别子目标时间长且学习效果差,针对此问题,本文提出一种采用无环轨迹降噪的多样性密度度量抽象动作发现算法。该算法对Agent得到的轨迹样本进行降噪处理,达到减少学习时间和优化抽象动作的效果。该算法避免了过度采样导致的计算量过大的问题,不但能够大大降低识别子目标所需要的时间,而且能够发现较好的抽象动作,提高了算法的学习效率。(3)传统的基于离散时间半马尔科夫决策过程(Discrete-timeS
7、emi-MarkovDecisionProcesses,DT-SMDP)的自动分层强化学习方法无法直接用于解决连续时间无穷任务,针对此问题,本文提出一种基于连续时间半马尔科夫决策过程(Continues-timeSemi-MarkovDecisionProcesses,CT-SMDP)的自动分层强化学习方I中文摘要基于动作抽象的分层强化学习算法研究法,该方法可用于解决连续时间无穷任务的自动分层问题。实验表明,在求解连续时间任务时,该算法具有很好的学习和控制效果。关键词:分层强化学习;Option;抽象;自动分层作者:许志鹏指导
8、教师:伏玉琛(教授)协助指导教师:朱斐(副教授)IIResearchesonHierarchicalReinforcementLearningBasedonAbstractActionsAbstractResearchesonHierarchicalReinforcement
此文档下载收益归作者所有