方差相关的策略梯度方法研究

方差相关的策略梯度方法研究

ID:35083846

大小:4.25 MB

页数:83页

时间:2019-03-17

方差相关的策略梯度方法研究_第1页
方差相关的策略梯度方法研究_第2页
方差相关的策略梯度方法研究_第3页
方差相关的策略梯度方法研究_第4页
方差相关的策略梯度方法研究_第5页
资源描述:

《方差相关的策略梯度方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:誦5学号;2013422眉々■襄1u、考SOOGHOWUNI糧SFTY:方差相关的策略梯度方法硏究ResearchoiiPolicyGradientMethodswithVarianceRelated:^::RiskCriteria硏究生姓名许丹指导教师姓名刘全(教搜)专业名称歎件工程^1^研究方向机器学习__所在院部计算机科学与技术学院论文提交日期2016年4月苏州大学学位论文独创

2、性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。论文作者签名:日期:苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸质论文的内容相一致。

3、苏州大学有权向国家图书馆、中国社科院文献信息情报中心、中国科学技术信息研究所(含万方数据电子出版社)、中国学术期刊(光盘版)电子杂志社送交本学位论文的复印件和电子文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数据库进行检索。涉密论文□本学位论文属在年月解密后适用本规定。非涉密论文□论文作者签名:日期:导师签名:日期:方差相关的策略梯度方法研究中文摘要方差相关的策略梯度方法研究中文摘要强化学习作为机器学习的一个重要分支,它允许智

4、能体直接与环境进行交互,并且可以在无标签数据以及模型未知的情况下进行自主在线学习。目前绝大多数强化学习算法的目标是最大化平均奖赏或者长期累积(折扣)奖赏,但是对于控制、金融以及医疗诊断等风险敏感的问题,在最大化上述目标的同时应该考虑控制奖赏的方差,使得整个控制或者学习过程更加稳定。本文着眼于风险敏感的强化学习问题,将方差相关的风险评估标准引入策略梯度方法中,提出方差相关的策略梯度算法。主要研究可以概括为以下三部分:(1)当离策略行动者-评论家算法采用探索性强的行为策略时,它的方差会增加,往往不能满

5、足风险敏感问题对于方差的要求。针对此问题,将方差相关的风险评估标准引入该算法中,提出一种方差相关的离策略行动者-评论家算法—VOPAC。从理论上分析了算法的收敛性,并通过一个复杂的连续状态空间控制问题验证算法在控制方差方面的有效性。(2)时间差分与资格迹是强化学习中解决时间信度分配问题的非常有效的方法,并且被广泛运用于各种强化学习算法中。基于真实在线TD()算法,引入方差相关风险评估标准,提出一种方差相关的策略梯度时间差分算法—VPGTD()。从理论上证明了该算法的向前观点与向后观点的完全一致

6、,并通过一个情节式的连续状态空间控制问题验证算法在控制方差方面的有效性。(3)上述两个研究是基于MDP模型的,对于POMDP模型,由于其对环境的感知是不准确的,所以不确定性更强,方差更大。针对此问题,将带中间状态的策略梯度算法结合值函数方法,提出带中间状态的行动者-评论家算法—ACIS,并从理论上分析算法的收敛性。基于此引入方差控制机制,提出一种带中间状态的方差相关行动者-评论家算法—VACIS,并通过实验验证算法在降低方差方面的性能。关键词:强化学习,方差相关,策略梯度,时间差分,POMDP作者

7、:许丹指导教师:刘全(教授)IAbstractResearchonPolicyGradientMethodswithVarianceRelatedRiskCriteriaResearchonPolicyGradientMethodswithVarianceRelatedRiskCriteriaAbstractReinforcementlearning,asanimportantbranchofmachinelearning,canlearnbyinteractingwiththeenvironme

8、ntcontinuouslyeventhoughithasnolabeldataortheacturalknowledgeofthemodel.Thegoalofmostreinforcementlearningalgorithmsistomaximizetheaveragerewardorthelong-termaccumulative(discount)reward.However,fortherisk-sensitiveproblemssuchascontrol,financ

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。