基于强化学习的冰壶比赛策略生成方法研究

基于强化学习的冰壶比赛策略生成方法研究

ID:34954662

大小:1.29 MB

页数:52页

时间:2019-03-15

基于强化学习的冰壶比赛策略生成方法研究_第1页
基于强化学习的冰壶比赛策略生成方法研究_第2页
基于强化学习的冰壶比赛策略生成方法研究_第3页
基于强化学习的冰壶比赛策略生成方法研究_第4页
基于强化学习的冰壶比赛策略生成方法研究_第5页
资源描述:

《基于强化学习的冰壶比赛策略生成方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于强化学习的冰壶比赛策略生成方法研究RESEARCHOFTHROWINGSTRATEGYOFCURLINGCONTESTBASEDONREINFORCEMENTLEARNING邵蔚哈尔滨工业大学2018年6月国内图书分类号:TP391学校代码:10213国际图书分类号:004.9密级:公开工学硕士学位论文基于强化学习的冰壶比赛策略生成方法研究硕士研究生:邵蔚导师:刘家锋副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391U.D.C:004

2、.9DissertationfortheMasterDegreeRESEARCHOFTHROWINGSTRATEGYOFCURLINGCONTESTBASEDONREINFORCEMENTLEARNINGCandidate:ShaoWeiSupervisor:LiuJiafengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:Ju

3、ne,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着强化学习的飞速发展,越来越多的强化学习算法涌现出来,对于离散状态空间环境,已经有许多成熟的强化学习方法,并逐渐应用于各行各业的人工智能体中。但是在连续状态空间领域,强化学习的能力仍然捉襟见肘,仅存在一些理论上的研究,并未落地开展实际测试。本课题针对冰壶场地环境,对连续状态空间下的策略生成方法进行了研究,尝试通过强化学习算法生成冰壶的投掷策略,并结合搜索算法,对冰壶投掷策略进行相关的探索。冰壶场地环境下,状

4、态与动作空间均位于连续空间,且有多维自由变量,想要将经典的强化学习算法迁移到此场景中是很难实现的。而且冰壶场地环境存在许多不确定因素,投掷策略在执行时会产生误差,偏离原定轨迹,也对策略生成算法的能力产生了很大的挑战。本文利用多种方法对冰壶投掷策略生成方法进行了研究,主要研究内容如下:(1)冰壶仿真对抗平台建设。首先需要将冰壶比赛场景转化为合理的动力学模型。将实际场景转化为动力学模型,不仅要合理的设计系统的状态与动作,还要考虑投掷误差对场景及算法的影响。其次进行冰壶仿真对抗平台前端的设计。冰壶仿真对抗平台前端用于接收用户输入,并将设计成型的数学模型直观的展现出来,对冰壶

5、投掷进行可视化处理。最后完成对冰壶仿真对抗平台后台的体系架构。后台将投掷过程中的滑行过程与碰撞过程以数据的方式进行记录,并能够执行回放、撤销等功能。冰壶仿真对抗平台是冰壶投掷策略生成所依靠的必要基础,为冰壶投掷策略生成提供海量的数据参考与支持。(2)设计冰壶投掷策略生成算法。首先应对PSO粒子群算法进行了合理的优化,调整到合适的参数,保证其在有限时间内生成可靠的投掷策略;其次尝试将蒙特卡洛树与监督学习网络结合起来,探寻投掷策略的生成模式;最后设计强化学习算法结构的四要素:策略、回报函数、动作值函数和环境数学模型。只有建立合适的数学模型,设计合理的回报函数,计算机才能够

6、通过强化学习算法训练得到最优策略。(3)冰壶对抗策略的量化分析。各国家运动员依靠比赛经验制定了许多冰壶投掷策略,可以将其与强化学习生成的投掷策略进行比较,互相借鉴,互相进步。既通过已有的比赛策略经验对强化学习算法进行适当的修改,又可以将强化学习算法生成的投掷策略供给运动员作为比赛参考。关键词:强化学习;连续状态空间;冰壶投掷策略;未知环境-I-哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentofreinforcementlearning,moreandmorereinforcementlearningalgorithmsha

7、veemerged.Forthediscretestatespaceenvironment,therehavebeenmanymaturereinforcementlearningmethods,andtheyhavegraduallybeenappliedtoartificialagentsofallwalksoflife.However,inthefieldofcontinuousstatespace,theabilitytoreinforcementlearningisstillstretched.Thereareonlysometheoret

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。