欢迎来到天天文库
浏览记录
ID:35007621
大小:2.63 MB
页数:65页
时间:2019-03-16
《基于A3C模型的带预判游戏智能体研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于A3C模型的带预判游戏智能体研究RESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATOR王耶利哈尔滨工业大学2018年6月国内图书分类号:TP391.4学校代码:10213国际图书分类号:004.8密级:公开工学硕士学位论文基于A3C模型的带预判游戏智能体研究硕士研究生:王耶利导师:姜峰教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.4U.D.C:004.8Dissertationforthe
2、MasterDegreeinEngineeringRESEARCHONA3CBASEDGAMEAGENTWITHANTICIPATORCandidate:WangYeliSupervisor:Prof.JiangFengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Instit
3、ution:HarbinInstituteofTechnology摘要摘要目前,常见的游戏内置机器人在进行对抗时都是根据事先编写好的脚本进行决策,采取行动,而且可以获取利用一些不平等信息,并不是像人类玩家一样只根据游戏画面(或者再结合声音)进行分析决策,灵活多变。本课题主要研究深度学习和强化学习在游戏智能体领域的应用,以及相关算法的改进,使游戏智能体的决策过程更像人类,并使其摆脱对不公平信息的依赖。首先,本文采用VizDoom作为游戏智能体的研究平台,该游戏是一款第一人称视角的射击游戏。根据A3C算法设计实现了一个游戏智能体(即卷积神经网络),该智能
4、体以原始的实时游戏画面作为网络输入,输出为对应的离散动作(即决策)。智能体会和VizDoom进行交互,读取实时游戏画面,然后进行决策,控制游戏中的角色行动。其次,本文对A3C算法做了一个改进,在其原有的基础上加入了一个预判网络,预判网络的目的是使智能体可以像人类玩家一样,在进行决策前做出一个预判,然后将实时游戏画面和预判画面一起作为A3C算法的网络输入,进行决策,输出对应的离散动作。由于这个改动仅仅改变了A3C算法的网络输入的数据结构,因此是一个模型无关的方法,易于移植到其他算法上。最后,本文分析比较了A3C算法和改进后的A3C算法在VizDoom上
5、的表现差异,并且搜集了目前在该游戏平台上的相同游戏场景下的最新论文中的实验数据作为对照。实验结果表明,加入预判的A3C算法的表现要优于改进前的A3C算法。关键词:深度学习;强化学习;DQN;A3C;预判网络;VizDoom-I-AbstractAbstractAtthepresentday,thosecommonbuilt-inbotsingamesactaccordingtoscriptswritteninadvance.Theywillmakedecisions,takeactionsliketheyhavebeentold,andtheycan
6、acquireandtakeadvantageofsomeunfairinformation,insteadofactingflexiblylikehumanplayers,whomakedecisionsonlybasedongamescreens(orcombinedwithsounds).ThesubjectofthispapermainlyfocusesonstudyingtheapplicationofDeepLearningandReinforcementLearninginthefieldofthegameagentandtheimpr
7、ovementofrelatedalgorithm.Thegoalistomakegameagentmakesdecisionsinhuman’swayandgetsridofrelyingonunfairinformation.Firstofall,thispaperusesVizDoomastheplatformforstudyinggameagent.ItisaFirst-Person-Perspectiveshootinggame.Agameagent(ConvolutionalNeuralNetwork)hasbeenimplemented
8、accordingtoA3Calgorithm.Thisagenttakesoriginalrealtime
此文档下载收益归作者所有