强化学习在robocup agent智能策略中的研究与应用

强化学习在robocup agent智能策略中的研究与应用

ID:33978896

大小:2.91 MB

页数:57页

时间:2019-03-02

强化学习在robocup agent智能策略中的研究与应用_第1页
强化学习在robocup agent智能策略中的研究与应用_第2页
强化学习在robocup agent智能策略中的研究与应用_第3页
强化学习在robocup agent智能策略中的研究与应用_第4页
强化学习在robocup agent智能策略中的研究与应用_第5页
资源描述:

《强化学习在robocup agent智能策略中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要基于Q学习的RoboCupAgent智能策略的研究与应用机器人世界杯足球赛(TheRobotWorldCup,简称RoboCup),是典型的MAS问题,可以用来评价各种不同的人工智能理论、算法和体系结构。强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。强化学习可以分为两类。一

2、类是基于模型的强化学习。另一类是模型无关的。环境模型用形象化的描述就是环境的行为方式。本文针对RoboCup中的Keepaway子任务,从模型无关与基于模型的强化学习两个方面分别阐述其在RoboCup中的Agent智能决策学习中的应用。本文的研究内容主要包括以下两个方面:首先,针对RoboCup中的Keepaway子问题,传统的Q表已经不能有效的表示连续的状态和动作空间,我们使用神经网络来代替Q表来表示Q值。同时使用批学习的方法来提高训练数据的利用率和收速度敛。在实验结果中比较了其与传统Q学习的

3、学习结果,验证了基于神经网络的批Q学习算法在Keepaway决策学习问题上的有效性和高效性。然后,从基于模型的强化学习方法入手,尝试给Keepaway问题建立模型,将基于模型的强化学习方法和批学习相结合,不但提高了训练数据的利用率而且由于环境模型的使用使得产生的经验能够更加有效的覆盖状态空间,使训练的结果优于模型无关的方法。关键词:RoboCup;Agent系统;Q学习;批学习算法;基于模型的强化学习;Keepaway强化学习在RoboCupAgent智能策略中的研究与应用AbstractRob

4、otWorldCupisatypicalMASissue,andcanusedforappraisingallkindsofartificialintelligencetheory,algorithm,systemstructure.Reinforcementpractisestobeonemachinelearningmethod,anditcanmakesystemobtainaheavyoneawardvaluemostinenvironment.Couplebackwiththeenvi

5、ronmentasimportingandcanadapttotheenvironment,hasabilityofthemappingarrivesatbehaviorfromenvironmentstate.Thismethodisdifferentfromsupervisingthetechnologyofstudyingthroughthestraightexamplelikethat,tellsagainsttheexamplewhichkindofbehaviorisadopted,

6、butfindthetacticsofoptimumbehaviorthroughtryingthemethodbymistake,sotheintelligenceappliestotheagentintelligencedecision-makingbroadly.ReinforcementLearningcanbedividedintotwocategories.Oneismodel-freemodel-basedreinforcementlearning.Theotherismodel-

7、basedreinforcementlearning.Inthispaper,fortheKeepaway,onesubtaskoftheRoboCup,wedescripethereinforcementlearningintheapplicationofagentdecision-makinginRoboCupfromthemodelfreeandmodel-basedAlgorithmrespectively.Thisstudyincludesthefollowingtwoaspects:

8、Firstofall,forthesubtaskKeepawayoftheRoboCup,thetraditionalformofQ-tablecannotbeeffectiverepresentthestateandactionspace,weuseneuralnetworktostoreQinsteadoftheQ-table.Atthesametimeusingthebatchreinforcementmethodtoimprovetheutilizationoftrainingdataa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。