基于强化学习方法的飞行姿态模拟器控制系统设计.pdf

基于强化学习方法的飞行姿态模拟器控制系统设计.pdf

ID:35007945

大小:1.57 MB

页数:74页

时间:2019-03-16

基于强化学习方法的飞行姿态模拟器控制系统设计.pdf_第1页
基于强化学习方法的飞行姿态模拟器控制系统设计.pdf_第2页
基于强化学习方法的飞行姿态模拟器控制系统设计.pdf_第3页
基于强化学习方法的飞行姿态模拟器控制系统设计.pdf_第4页
基于强化学习方法的飞行姿态模拟器控制系统设计.pdf_第5页
资源描述:

《基于强化学习方法的飞行姿态模拟器控制系统设计.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于强化学习方法的飞行姿态模拟器控制系统设计FLIGHTATTITUDESIMULATORCONTROLLERDESIGNBASEDONREINFORCEMENTLEARNINGALGORITHM邓凯哈尔滨工业大学2018年6月国内图书分类号:TP273学校代码:10213国际图书分类号:681.5密级:公开工学硕士学位论文基于强化学习方法的飞行姿态模拟器控制系统设计硕士研究生:邓凯导师:班晓军教授申请学位:工学硕士学科:控制科学与工程所在单位:航天学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP273U.D.

2、C:681.5ThesisfortheMasterDegreeinEngineeringFLIGHTATTITUDESIMULATORCONTROLLERDESIGNBASEDONREINFORCEMENTLEARNINGALGORITHMCandidate:DengKaiSupervisor:Prof.BanXiaojunAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ControlScienceandEngineeringAffiliation:SchoolofAstronauticsDateofDe

3、fence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要由于旋翼式飞行器具有机动性好、成本低和机械结构简单等特点,在近些年已经成为消费市场的新宠,无论是在民用还是军用领域,它都扮演着重要的角色。对于高校或一些科研机构来说,制作一台实际的旋翼式飞行器是不太现实的,尤其是对于控制学科。所以,为了对飞行姿态的控制方法进行试验验证,很多高校自主设计研发了一些模拟飞行姿态的实验平台,其中二自由度的飞行姿态模拟器最为常见。本文以实验室自主研发的一套二自由度飞行姿

4、态模拟器系统作为研究对象,基于强化学习(ReinforcementLearning)算法对其进行控制算法设计。强化学习方法的优势为在于它不需要直接建立被控对象的动力学模型,仅仅依据系统的输入输出数据即可完成对控制率参数的更新,并且通过迭代能够使整个闭环系统工作在某种指标意义下的最优状态。首先,本文研究了无模型(Model-free)的强化学习算法。利用DQN(DeepQNetwork)算法对飞行姿态模拟系统进行了控制算法设计,首先利用值函数对当前时刻的状态做一个评估,再通过贪婪策略来进行动作的选取,数值仿真结果表明,经过一定时间的学习之后,能达到良好的控制效果。但是

5、,该算法只适用于离散的情况,所以针对实际的连续控制系统,又采用Policy-Gradient算法进行算法设计,建立了一个策略网络,用环境给出的奖励信息来评价由神经网络算出的梯度信息,从而进行训练。此算法由于是回合更新的机制,具有数据利用率不高的缺点,需要耗费大量时间去进行训练。为克服以上两种方法的缺点,采用DDPG(DeepDeterministicPolicyGradient)算法设计了控制算法。此方法融合了DQN算法和Policy-Gradient算法的优点,建立了策略网络和值网络,用值网络输出的Q值来评判策略网络输出的梯度,从而很大程度上提高了学习的效率,并且

6、达到了更好的控制效果。进而,对于飞行姿态模拟器这类实际的机械系统,本文研究了具有更好效果的基于模型(Model-based)的强化学习算法。采用PILCO(probabilisticinferenceforlearningcontrol)算法来学习出径向基网络控制器的参数,先用高斯过程拟合出系统的概率模型,然后再根据这个概率学模型来进行状态的预测,由预测的状态算出预测的奖励信息,然后根据这个奖励信息来进行控制器参数的优化。-I-哈尔滨工业大学硕士学位论文最后,本文提出一种基于PILCO算法框架的整定PID控制器参数的方法,很好的解决了PID参数调节的难题。本文将此方

7、法进行了数值仿真和实际试验的实现,达到了理论与实际结合的目的。关键词:飞行姿态模拟器系统;强化学习;高斯过程-II-哈尔滨工业大学硕士学位论文AbstractDuetorotorcraft’sgoodmaneuverability,lowcost,andsimplemechanicalstructure,rotorcrafthasbeenpopularintheconsumermarketinrecentyears.Itplaysanimportantroleinbothcivilandmilitaryapplications.Forauniversityors

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。