基于改进策略梯度方法的游戏智能研究

基于改进策略梯度方法的游戏智能研究

ID:37062396

大小:1.44 MB

页数:57页

时间:2019-05-16

基于改进策略梯度方法的游戏智能研究_第1页
基于改进策略梯度方法的游戏智能研究_第2页
基于改进策略梯度方法的游戏智能研究_第3页
基于改进策略梯度方法的游戏智能研究_第4页
基于改进策略梯度方法的游戏智能研究_第5页
资源描述:

《基于改进策略梯度方法的游戏智能研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于改进策略梯度方法的游戏智能研究作者姓名张世龙学科专业计算数学指导教师雷秀仁副教授所在学院数学学院论文提交日期2018年4月ResearchofGameIntelligenceBasedonImprovedPolicyGradientMethodADissertationSubmittedfortheDegreeofMasterCandidate:ZhangShilongSupervisor:Prof.LeiXiurenSouthChinaUniversityofTechnologyGuangzhou,China摘要目前研究

2、人员大多把目光放在以深度Q网络(DeepQNetwork,DQN)为代表的基于价值的强化学习算法,忽视了理论更为坚实和更新过程更为直观的基于策略方法。本文通过对增强算法(Reinforce)等基于策略的一类方法做出研究思考和优缺点分析,提出熵正则化与经验池增强算法(EntropyRegularizationandExperienceReplayReinforce,2ER-Reinforce)算法,并探讨在不同重要超参数的改变下对实验结果的影响。最后对实验结果进行展示,并通过训练一个模拟人类玩Atari游戏的智能体证明2ER-Reinfor

3、ce算法的性能得到提高。本论文主要工作如下:(1)介绍深度强化学习的研究背景及意义,并列举其在游戏及商业中的应用;(2)简述马尔可夫决策过程的概念,为强化学习的研究制定框架。重点阐述有模型学习中的Bellman等式与动态规划求解方法,从而导出策略迭代和值迭代的策略改进方法,为之后章节的免模型学习提供理论基础;(3)简述强化学习中的免模型学习基础知识,主要涉及基于价值的算法。阐述并比较了蒙特卡罗方法与时序差分学习的异同,引出著名的Sarsa算法、Q-学习(Q-Learning)算法和对Q-Learning算法改进得到的DQN算法;(4)提出

4、改进的2ER-Reinforce算法并将其应用到视频游戏领域中,实验的成功证明了2ER-Reinforce算法具有实际意义。先对Reinforce算法的优缺点进行分析,结合经验池与熵正则化技巧提出改进的2ER-Reinforce算法;然后以Atari系列的Pong游戏作为测试环境,多角度比较四种算法的性能,并对若干超参数不同取值对训练效果的影响做出探讨;接着展示游戏智能的表现,最后对算法学习与人类学习的思考模式做出思考与比较。关键字:机器学习;深度强化学习;策略梯度;增强学习;游戏智能IAbstractAtpresent,research

5、ersmostlyfocusonthevalue-basedreinforcementlearningalgorithmrepresentedbyDeepQNetwork(DQN),ignoringthepolicy-basedapproachthatismoresolidintheoryandmoreintuitiveintheupdateprocess.Inthispaper,throughresearchandconsiderationofalgorithmssuchasReinforceandanalysisofadvantage

6、sanddisadvantages,the2ER-ReinforcealgorithmofReinforcealgorithmthatintegratesentropyregularizationandexperiencereplaytechniqueisproposed,andtheeffectofdifferentimportanthyperparametersonexperimentalresultsisdiscussed.Finally,theexperimentalresultsincludingthenetworkweight

7、sareanalyzedvisually,andtheperformanceofthe2ER-ReinforcealgorithmisimprovedbytraininganagentthatsimulateshumanplayingAtarigames.Themainworkofthispaperisasfollows:(1)Introducetheresearchbackgroundandsignificanceofdeepreinforcementlearning,andlistitsapplicationingamesandcom

8、merce;(2)OutlinetheconceptofMarkovDecisionProcessandformulateaframeworkforstrengtheningresearch.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。