欢迎来到天天文库
浏览记录
ID:35102110
大小:5.79 MB
页数:63页
时间:2019-03-17
《面向强化学习的模型学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10285学号:20134227042■《側乂爭SOOCHOWUNIVERSITY心‘-HHt"、ww戦漏祖S^EBBEK:泰‘邏VhHh::^f,IVH^H...m面向强化学习的模型学习算法研究民esearchon民einfbixemcmLearningOrientedModelLearninAlorithmsgg■■龍生;三三立zzH指导教师姓名刘全(教授)II专业名称软件工程研究方向机器学习M
2、所在院部计算机科学与技术学院论文提交日期2016年5月——.'='i?'.…ttA.'叫vy:.,。、.,冲'IH''苏州大学学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。论文作者签名:日期:苏州大
3、学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中心、中国科学技术信息研究所(含万方数据电子出版社)、中国学术期刊(光盘版)电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索。涉密论文□本学位论文属在年月解密后适用本规定。非涉密论文□论文作
4、者签名:日期:导师签名:日期:面向强化学习的模型学习算法研究中文摘要面向强化学习的模型学习算法研究中文摘要强化学习(ReinforcementLearning,RL)是机器学习方法的重要组成部分。它通过Agent不断地与环境进行交互,学习从环境状态到行为动作的映射,最终目标是最大化从环境获得的累计奖赏。随着强化学习的数学基础研究取得突破性进展后,强化学习成为目前机器学习领域的研究热点之一。本文针对强化学习算法中存在的收敛速度慢,收敛精度低的问题,围绕模型学习方法,提出了几种提高收敛速度和精度的强化学习算法。主要研
5、究包括以下三部分内容:(1)针对Dyna-2算法中将已经学习到的模型视为一个黑盒对待,没有充分利用模型的问题,在Dyna-2的基础上,提出轨迹采样值迭代的方法来实现模型学习中的规划过程。与从模型中采样的方式相比,这种方法直接利用模型中的参数,将模型视为一个白盒,提高了模型的利用率,从而可以在不失计算速度的情况下,提高规划结果的精度,最终提高值函数的精度。(2)针对模型学习方法中存在的探索效率不高的问题,提出R-MAX和自模拟度量相结合的方法来实现模型学习中的探索过程。将整个探索过程置于R-MAX的算法框架中,既保
6、证探索的广度,又不过多地重复探索某个状态导致计算资源的浪费。自模拟度量在距离的度量上比传统采用欧式距离的方式更为准确,因此能保证探索效率的提升,同时应用轨迹采样值迭代的规划方法,在两个方面都能有效地提高值函数的收敛效率。(3)针对现有模型学习方法在解决连续状态空间问题上的不足,通过近似模型来表示状态转移函数和奖赏函数。由于近似模型初期不完整,不能提供有效样本,因此提出一种自适应的规划强度的方法,减少初期生成的错误样本,提高样本的准确性。同时,加入一系列的优化样本的方法,提高收敛速率。关键词:强化学习;模型学习;D
7、yna结构;连续状态空间作者:周谊成指导教师:刘全(教授)IAbstractResearchonReinforcementLearningOrientedModelLearningAlgorithmsResearchonReinforcementLearningOrientedModelLearningAlgorithmsAbstractReinforcementlearning(RL)isanimportantpartofmachinelearning.Itlearnsthemappingfromthestat
8、esoftheenvironmenttotheactionsbycontinuouslyinteractingwiththeenvironment.ThetargetofRListomaximizethecumulativerewardreceivedfromtheenvironment.Sincethebreakthroughofmathematicaltheoryre
此文档下载收益归作者所有