基于A3C模型的带预判游戏智能体研究.pdf

基于A3C模型的带预判游戏智能体研究.pdf

ID:35007621

大小:2.63 MB

页数:65页

时间:2019-03-16

基于A3C模型的带预判游戏智能体研究.pdf_第1页
基于A3C模型的带预判游戏智能体研究.pdf_第2页
基于A3C模型的带预判游戏智能体研究.pdf_第3页
基于A3C模型的带预判游戏智能体研究.pdf_第4页
基于A3C模型的带预判游戏智能体研究.pdf_第5页
资源描述:

《基于A3C模型的带预判游戏智能体研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于A3C模型的带预判游戏智能体研究RESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATOR王耶利哈尔滨工业大学2018年6月国内图书分类号:TP391.4学校代码:10213国际图书分类号:004.8密级:公开工学硕士学位论文基于A3C模型的带预判游戏智能体研究硕士研究生:王耶利导师:姜峰教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.4U.D.C:004.8Dissertationforthe

2、MasterDegreeinEngineeringRESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATORCandidate:WangYeliSupervisor:Prof.JiangFengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Instit

3、ution:HarbinInstituteofTechnology摘要摘要目前,常见的游戏内置机器人在进行对抗时都是根据事先编写好的脚本进行决策,采取行动,而且可以获取利用一些不平等信息,并不是像人类玩家一样只根据游戏画面(或者再结合声音)进行分析决策,灵活多变。本课题主要研究深度学习和强化学习在游戏智能体领域的应用,以及相关算法的改进,使游戏智能体的决策过程更像人类,并使其摆脱对不公平信息的依赖。首先,本文采用VizDoom作为游戏智能体的研究平台,该游戏是一款第一人称视角的射击游戏。根据A3C算法设计实现了一个游戏智能体(即卷积神经网络),该智能

4、体以原始的实时游戏画面作为网络输入,输出为对应的离散动作(即决策)。智能体会和VizDoom进行交互,读取实时游戏画面,然后进行决策,控制游戏中的角色行动。其次,本文对A3C算法做了一个改进,在其原有的基础上加入了一个预判网络,预判网络的目的是使智能体可以像人类玩家一样,在进行决策前做出一个预判,然后将实时游戏画面和预判画面一起作为A3C算法的网络输入,进行决策,输出对应的离散动作。由于这个改动仅仅改变了A3C算法的网络输入的数据结构,因此是一个模型无关的方法,易于移植到其他算法上。最后,本文分析比较了A3C算法和改进后的A3C算法在VizDoom上

5、的表现差异,并且搜集了目前在该游戏平台上的相同游戏场景下的最新论文中的实验数据作为对照。实验结果表明,加入预判的A3C算法的表现要优于改进前的A3C算法。关键词:深度学习;强化学习;DQN;A3C;预判网络;VizDoom-I-AbstractAbstractAtthepresentday,thosecommonbuilt-inbotsingamesactaccordingtoscriptswritteninadvance.Theywillmakedecisions,takeactionsliketheyhavebeentold,andtheycan

6、acquireandtakeadvantageofsomeunfairinformation,insteadofactingflexiblylikehumanplayers,whomakedecisionsonlybasedongamescreens(orcombinedwithsounds).ThesubjectofthispapermainlyfocusesonstudyingtheapplicationofDeepLearningandReinforcementLearninginthefieldofthegameagentandtheimpr

7、ovementofrelatedalgorithm.Thegoalistomakegameagentmakesdecisionsinhuman’swayandgetsridofrelyingonunfairinformation.Firstofall,thispaperusesVizDoomastheplatformforstudyinggameagent.ItisaFirst-Person-Perspectiveshootinggame.Agameagent(ConvolutionalNeuralNetwork)hasbeenimplemented

8、accordingtoA3Calgorithm.Thisagenttakesoriginalrealtime

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。