基于深度强化学习的游戏控制算法研究与实现

基于深度强化学习的游戏控制算法研究与实现

ID:23941560

大小:8.25 MB

页数:77页

时间:2018-11-11

基于深度强化学习的游戏控制算法研究与实现_第1页
基于深度强化学习的游戏控制算法研究与实现_第2页
基于深度强化学习的游戏控制算法研究与实现_第3页
基于深度强化学习的游戏控制算法研究与实现_第4页
基于深度强化学习的游戏控制算法研究与实现_第5页
资源描述:

《基于深度强化学习的游戏控制算法研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级注1UDC学位论文基于深度强化学习的游戏控制算法研究与实现(题名和副题名)颜志鹏(作者姓名)指导教师屈鸿教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2018.3.23论文答辩日期2018.5.23学位授予单位和日期电子科技大学2018年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。ResearchandImplementationonGameControlAlgorithmBasedonDeepeningReinforcementLearningAMasterThesisSubmittedtoU

2、niversityofElectronicScienceandTechnologyofChinaDiscipline:SoftwareandTheoryofComputerAuthor:ZhipengYanSupervisor:Prof.HongQuSchool:SchoolofComputerScienceandEngineering摘要摘要一直以来,强化学习算法在解决与环境进行交互的控制决策问题时由于无法直接处理来自环境的原始感官数据,因而应用范围非常有限,并且已知成功的应用都高度依赖于人工设计的特征。近几年深度学习的发展将人工智能的研究推向了一个新的高峰。其中一个重要的

3、成果就是,通过深度神经网络能够自动提取出高维图像中的特征,甚至比人工标注的特征更好。于是将深度学习技术融入到强化学习算法中所形成的深度强化学习算法逐渐成为强化学习领域新的研究方向。然而用强化学习算法生成的训练样本来训练深度神经网络需要消除样本之间的高度相关性。目前已有的方法是基于单个agent的经验回放技术,通过对历史经验数据的随机采样来获得相对独立的训练样本。然而经验回放需要消耗大量的内存,并且网络的迭代速度有限。本文则利用多个agent并行执行生成彼此独立的训练样本,并将其混合以后最终用于网络的训练当中,从而解决复杂游戏环境下的控制决策问题。具体工作如下:首先设计了一套针

4、对游戏环境的预处理方案,方便网络训练的同时减小计算规模。然后对基于策略梯度的Actor-Critic算法结合多步TD方法的思想进行改进以减小回报值的估计偏差。接着设计了一个深度卷积神经网络结构来近似算法中的价值函数和策略函数,并完成对各种复杂游戏环境的特征表达。最后设计了一个基于多生产者-单消费者的并行化实现框架,通过多个agent和预测线程所组成的生产者以及作为消费者的训练线程的配合,消除了训练样本之间的相关性,从而提高网络的训练效率。实验表明,通过混合多个agent生成的训练样本来训练价值网络和策略网络的方式确实可以消除样本之间的相关性,并且能够稳定地输出最优策略。并且在

5、本文实验的5个游戏环境中,算法的表现都超过了人类玩家的水平。同时该方法相比基于经验回放的deepQ-learning算法以及同样基于多agent并行的GA3C算法无论在训练效率还是最终表现上都有明显的提升。关键词:深度强化学习,策略梯度,经验回放,多agent并行,卷积神经网络IABSTRACTABSTRACTForalongtime,thereinforcementlearningalgorithmcannotdirectlyprocesstheoriginalsensorydatafromtheenvironmentwhensolvingthecontroldecisio

6、nproblemthatinteractswiththeenvironment,sotheapplicationrangeisverylimited,andtheknownsuccessfulapplicationsarehighlydependentonthecharacteristicsofartificialdesign.Thedevelopmentofdeeplearninginrecentyearshaspushedtheresearchofartificialintelligencetoanewpeak.Oneoftheimportantresultsisthat

7、deepneuralnetworkscanautomaticallyextractfeaturesinhigh-dimensionalimages,evenbetterthanmanuallylabeledfeatures.Therefore,thedeepreinforcementlearningalgorithmformedbyincorporatingdeeplearningtechniquesintoreinforcementlearningalgorithmshasgraduallybecom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。