非参数化值函数逼近强化学习研究

非参数化值函数逼近强化学习研究

ID:37067609

大小:3.85 MB

页数:115页

时间:2019-05-17

非参数化值函数逼近强化学习研究_第1页
非参数化值函数逼近强化学习研究_第2页
非参数化值函数逼近强化学习研究_第3页
非参数化值函数逼近强化学习研究_第4页
非参数化值函数逼近强化学习研究_第5页
资源描述:

《非参数化值函数逼近强化学习研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:UDC:355906010001:学号南昌大学博士研究生学位论文非参数化值函数逼近强化学习研究ResearchonNonarametricValueFunctionAroximationpppReinforcementLearning季挺培养单位(院、系):机电工程学院指导教师姓名、职称:张华教授申请学位的学科门类:工学学科专业名称:机械电子工程论文答辩日期:2018年月日’答辩委员会主席:咐丨评阅人:2018年月t日摘要摘要值函数逼近是将经典强化学习应用于大规

2、模、连续状态空间的主要思路之一,并由此形成了值函数逼近强化学习研究方向。但目前,其在应用中还普遍存在收敛速度较慢、计算量较大、自适应能力不强等问题,特别是大部分算法的泛化结构及其相关参数均依赖先验知识或通过反复试凑确定,使得算法本身具有较强的领域相关性,若人为设定的泛化偏置与问题不匹配甚至导致算法不能正确收敛,易用性较差。本文针对上述问题,立足已有研究成果提出了一系列非参数化值函数逼近强化学习算法。(1)提出了基于CMAC的非参数化近似策略迭代强化学习(NPAPIRL-CMAC)算法。该算法设计了一种新的基于CMAC的强化学习网络结构,并定义了网络结构的

3、工作机制;基于FUNSample算法实现了样本的自动采集和泛化参数的自动获取,基于FUNT&E算法和FUNBI算法实现了量化编码结构的自动构建,基于量化编码结构单元的构建样本数集合自动计算其平均学习率;基于delta规则实现了值函数逼近器参数和量化编码结构的自动更新;基于广义策略迭代思想实现算法整体步骤,提升了算法的在线计算能力。一级倒立摆平衡控制的仿真实验结果验证了该算法在单个量化编码结构的激活区间数分别取1和2时,强化学习允许误差率在不同取值下的有效性、鲁棒性和快速收敛能力。(2)提出了基于状态聚类的非参数化近似广义策略迭代强化学习(NPAGPIRL

4、-SC)算法。该算法对基于FRBF(FuzzyRBF)的强化学习网络结构进行了改进,并定义了网络结构的工作机制;基于FUNSample算法实现了样本的自动采集,基于FUNBase算法实现了初始状态基函数及其自适应调整参数的自动构建;基于delta规则实现了值函数逼近器参数和状态基函数的自动更新;基于广义策略迭代思想实现算法整体步骤,提升了算法的在线计算能力。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同离散动作取值下、不同强化学习允许误差率下的有效性、鲁棒性和快速收敛能力。(3)提出了非参数化近似策略迭代并行强化学习(NPAPIRL-P)算法。该算法

5、设计了一种新的并行强化学习网络结构及相应的并行学习方式,其单个学习单元基于NPAGPIRL-SC算法实现。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同离散动作取值下、不同强化学习允许误差率下的有效性和鲁棒I摘要性,实验还重点对该算法平衡加速比与效率的能力进行了检验,并与NPAGPIRL-SC算法的实验数据进行对比,结果表明NPAPIRL-P算法具有良好的并行加速性能。(4)提出了基于Dyna框架的非参数化近似策略迭代强化学习(NPAPIRL-Dyna)算法。该算法在NPAGPIRL-SC算法的基础上进行了改进,一是在网络结构中引入了内部状态转移矩阵

6、D,以时间上的相继特征弥补状态基函数仅通过欧式距离从空间上判定输入状态对各状态基函数隶属度的不足;二是利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型B和B′,而后基于Dyna框架的模型辨识思想,将学习和规划过程进行了有机整合;三是进一步强化了算法网络结构与参数的自适应调整能力,包括新增结构、合并结构、调整参数等操作。一级倒立摆平衡控制的仿真实验结果验证了该算法在不同强化学习允许误差率下的有效性和鲁棒性,并通过与NPAGPIRL-SC算法的比较验证了基于模型的规划过程对算法效率和精确性的提升确有帮助。关键词:强化学习;值函数逼近;非参数化;策

7、略迭代;小脑关节模型控制器;Dyna框架;倒立摆IIABSTRACTABSTRACTValuefunctionapproximationisoneofthemainideasofapplyingclassicalreinforcementlearningtolarge-scaleandcontinuousstatespace,anditformstheresearchdirectionofvaluefunctionapproximationreinforcementlearning.However,atpresent,italsohassomeprobl

8、emssuchasslowconvergencespeed,largecalcu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。