欢迎来到天天文库
浏览记录
ID:33978896
大小:2.91 MB
页数:57页
时间:2019-03-02
《强化学习在robocup agent智能策略中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要基于Q学习的RoboCupAgent智能策略的研究与应用机器人世界杯足球赛(TheRobotWorldCup,简称RoboCup),是典型的MAS问题,可以用来评价各种不同的人工智能理论、算法和体系结构。强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。强化学习可以分为两类。一
2、类是基于模型的强化学习。另一类是模型无关的。环境模型用形象化的描述就是环境的行为方式。本文针对RoboCup中的Keepaway子任务,从模型无关与基于模型的强化学习两个方面分别阐述其在RoboCup中的Agent智能决策学习中的应用。本文的研究内容主要包括以下两个方面:首先,针对RoboCup中的Keepaway子问题,传统的Q表已经不能有效的表示连续的状态和动作空间,我们使用神经网络来代替Q表来表示Q值。同时使用批学习的方法来提高训练数据的利用率和收速度敛。在实验结果中比较了其与传统Q学习的
3、学习结果,验证了基于神经网络的批Q学习算法在Keepaway决策学习问题上的有效性和高效性。然后,从基于模型的强化学习方法入手,尝试给Keepaway问题建立模型,将基于模型的强化学习方法和批学习相结合,不但提高了训练数据的利用率而且由于环境模型的使用使得产生的经验能够更加有效的覆盖状态空间,使训练的结果优于模型无关的方法。关键词:RoboCup;Agent系统;Q学习;批学习算法;基于模型的强化学习;Keepaway强化学习在RoboCupAgent智能策略中的研究与应用AbstractRob
4、otWorldCupisatypicalMASissue,andcanusedforappraisingallkindsofartificialintelligencetheory,algorithm,systemstructure.Reinforcementpractisestobeonemachinelearningmethod,anditcanmakesystemobtainaheavyoneawardvaluemostinenvironment.Couplebackwiththeenvi
5、ronmentasimportingandcanadapttotheenvironment,hasabilityofthemappingarrivesatbehaviorfromenvironmentstate.Thismethodisdifferentfromsupervisingthetechnologyofstudyingthroughthestraightexamplelikethat,tellsagainsttheexamplewhichkindofbehaviorisadopted,
6、butfindthetacticsofoptimumbehaviorthroughtryingthemethodbymistake,sotheintelligenceappliestotheagentintelligencedecision-makingbroadly.ReinforcementLearningcanbedividedintotwocategories.Oneismodel-freemodel-basedreinforcementlearning.Theotherismodel-
7、basedreinforcementlearning.Inthispaper,fortheKeepaway,onesubtaskoftheRoboCup,wedescripethereinforcementlearningintheapplicationofagentdecision-makinginRoboCupfromthemodelfreeandmodel-basedAlgorithmrespectively.Thisstudyincludesthefollowingtwoaspects:
8、Firstofall,forthesubtaskKeepawayoftheRoboCup,thetraditionalformofQ-tablecannotbeeffectiverepresentthestateandactionspace,weuseneuralnetworktostoreQinsteadoftheQ-table.Atthesametimeusingthebatchreinforcementmethodtoimprovetheutilizationoftrainingdataa
此文档下载收益归作者所有