基于强化学习的路径规划方法研究.pdf

基于强化学习的路径规划方法研究.pdf

ID:35099471

大小:1.35 MB

页数:70页

时间:2019-03-17

基于强化学习的路径规划方法研究.pdf_第1页
基于强化学习的路径规划方法研究.pdf_第2页
基于强化学习的路径规划方法研究.pdf_第3页
基于强化学习的路径规划方法研究.pdf_第4页
基于强化学习的路径规划方法研究.pdf_第5页
资源描述:

《基于强化学习的路径规划方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于强化学习的路径规划方法研究RESEARCHONPATHPLANNINGBASEDONREINFORCEMENTLEARNING张汕璠哈尔滨工业大学2018年6月国内图书分类号:TP242.6学校代码:10213国际图书分类号:621.586密级:公开工程硕士学位论文基于强化学习的路径规划方法研究硕士研究生:张汕璠导师:曾庆双教授申请学位:工程硕士学科:控制工程所在单位:航天学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP242.6U.D.C

2、:621.586DissertationfortheMaster’sDegreeinEngineeringRESEARCHONPATHPLANNINGBASEDONREINFORCEMENTLEARNINGCandidate:ZhangShanfanSupervisor:Prof.ZengQingshuangAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ControlEngineeringAffiliation:SchoolofAstr

3、onauticsDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要随着信息化的不断加深,人工智能技术的发展进入黄金时期。人工智能技术作为现代化社会和信息化社会发展的分水岭,技术成熟和应用受到各个科技领域的广泛关注,与移动机器人技术的结合更是越来越多的专家的研究热点。其中,强化学习作为一种非监督且自身更新能力较强的机器学习方法,非常符合移动机器人合理应对各种情况的需求。针对地图残缺或环

4、境未知状况的路径规划问题,研究基于强化学习的路径规划方法。首先,针对强化学习算法的探索权衡问题,设计一种基于策略选择模型的Q-Learning算法。该方法根据Agent运动过程中的环境信息,结合路径规划任务需求,对经典Q-Learning算法进行改进。以策略迭代算法为基础设计策略选择算法,并将策略选择算法容嵌在Q-Learning算法前端,增加Agent策略选择策略集的能力,提高计算效率和最优策略的适应度。与传统的Q-Learning算法相比,基于策略选择算法的Q-Learning算法能够得到一个更

5、加优化的策略结果。然后,针对动态未知环境的情况,设计一种情感学习系统,将Agent的情感学习系统划分为外环境系统和内环境系统双层结构,辅助强化学习系统。在外环境系统中,针对强化学习系统设计外环境奖惩制度。在内环境中,针对强化系统构建MDP模型和以情感学习系统为基础的函数体系。情感学习系统对强化学习系统会产生联动影响,进一步提高强化学习决策系统的稳定性,增强Agent在未知环境下的适应性决策能力。最后,将复杂结构的强化学习系统与A*算法进行融合构建,搭建Agent路径规划系统的软件平台。在Window

6、s操作系统下编写机器人操作系统软件Python框架,实现基于强化学习的路径规划的仿真实验。关键词:强化学习;路径规划;情感学习;策略选择算法-I-AbstractAbstractWiththedevelopmentoftheinformationsocietyenvironment,theArtificialIntelligenceTechnologyisonthethresholdofagoldenage.Asthewatershedofthetechnologydevelopment,Artif

7、icialIntelligenceTechnologyhasattractedwideattentionfromvariousfieldsofscienceandtechnology,andithasmoreandmorefocusofexpertsandresearchincombinationwithmobilerobottechnology.Meanwhile,asakindofunsupervisedandself-updatedmachinelearningmethod,reinforce

8、mentlearningmeetstheneedsofmobilerobotscopingwithallkindsofsituations.Aimingatthepathplanningproblemwithincompletemaporuncertaintyenvironment,thepathplanningmethodbasedonreinforcementlearningisstudied.First,aimingatthetrade-offpartinrei

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。