欢迎来到天天文库
浏览记录
ID:9130617
大小:71.38 KB
页数:9页
时间:2018-04-18
《基于蒙特卡洛树搜索的仿真足球防守策略研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于蒙特卡洛树搜索的仿真足球防守策略研宄柴伟凡梁志伟夏晨曦南京邮电大学自动化学院针对Robocup仿真足球比赛屮本位点区域化跑位的局限性,在三角剖分的阵型设计基础上将蒙特卡洛树搜索算法引入2D仿真中,将球员智能体在球场上的状态定义为博弈树节点,将双方球员的动作选择视为节点间的状态转移,对于球队的防守任务建立蒙特卡洛树模型。利用极染标方式对球场进行区域分割,结合Q学习与蒙特卡洛树搜索中的信心上限树算法(UpperConfidenceBoundApplytoTreeofMonteCarlo)进行球队训练,将训练结果的动作评估值用于优化比赛代码,使得球队的防守能力得到了较大程度的提升
2、。关键词:roboc叩2D仿真;蒙特卡洛树搜索算法;Q学;J;动作选择;。基金:江苏省自然科学基金(BK2012832)ResearchonsimulatedsoccerdefensivestrategybasedonMonteCarlotreesearchalgorithmChaiWeifanLiangZhiweiXiaChenxiCollegeofAutomation,NanjingUniversityofPostandTelecommunications;Abstract:Aimingatthelimitationofregionalizationofstandardpo
3、intinRoboCupsimulating,inthisdissertation,MonteCarloexploringmethodisintroducedto2DstimulationatthebasicofDelaunaytriangulation,anditusesplayeragenttodefinenodalpointofgametree,andplayers’choicesofmovementarcregardedastransitionamongnodes.Fordefensiveworks,itbuildstheMonteCarlotreemodel.Itut
4、ilizespolarcoordinatessystemtomakeregionsegmentation,alsomakescombinationofQlearningandUpperConfidenceBoundApplytoTreeofMonteCarloexploringmethodtotraintheteamplayers.Whi1eusingtheevaluatedvalueofthetrainingresultsasoptimizcdcompctitioncodes,andteam’sdefensiveabilityhasbeenimprovedenormously
5、inthisway.Keyword:robocup2Dsimulation;MonteCarlotreesearch;Q-learning;actionselection;0引言RobOCUp2D仿真比赛平台是一套能够让由不同语言编写的自主球员程序进行足球比赛的仿真平台。服务器端程序SoccerServer提供了一个虚拟场地并且模拟包括球和球员在内的所有物体移动。在仿真2D足球机器人这一对抗环境屮,口本Helios球队使用树搜索算法优化了球队动作链U1。这种方式在小区域策略中起到了很好的作用,对于仿真足球是很好的启发。基于Delaunay三角剖分的阵型设计是南邮Apollo2D
6、球队之前的工作重点位1,如图1所示,将球场分割成三角网模型,以此实现球员的站位。这套阵型由于本位点区域化的跑位在本质上很不灵活且有一定的局限性,本文在三角剖分的阵型基础上引入蒙特卡洛树搜索算法改善球队的防守策略,分组大量实验获取动作在不同区域的评估值编入比赛代码,在此基础上增加球队动作选择的科学性与灵活性。图1RoboCUp2D球场图及三角剖分的阵型设计1仿真足球的蒙特卡洛树模型蒙特卡洛树搜索算法是机器学>』中的一种博弈树搜索算法,它是博弈树搜索算法以及蒙特卡洛模拟方法的结合,该算法属于一个纯粹的数学模型,在多领域具有很好的通用性。将通过2D仿真介绍这一算法。蒙特卡洛树搜索算法
7、一般分为4个阶段:选择阶段、扩展阶段、模拟阶段和回溯更新阶段。算法会重复地执行这4个阶段,直到满足场上的某一个特定情况为止。在2D仿真中,这种情况包括我方犯规、我方拦截成功、敌方进球等,整个模拟过程如图2所示。图2蒙特卡洛树的建立图2中,长方形模块代表根节点,树的建立由根节点向下扩展。该节点的状态一般是指敌方持球进攻II进入我方半场。另外,当发生敌方获得定位球等使游戏中断的状态时,此状态也将成为下一次防守任务该博弈树的根节点。椭圆形模块表示子节点,子节点是游戏中发生状态转移的一般节点,当我方
此文档下载收益归作者所有