基于强化学习的模型参考自适应控制

基于强化学习的模型参考自适应控制

ID:18571115

大小:192.53 KB

页数:5页

时间:2018-09-18

基于强化学习的模型参考自适应控制_第1页
基于强化学习的模型参考自适应控制_第2页
基于强化学习的模型参考自适应控制_第3页
基于强化学习的模型参考自适应控制_第4页
基于强化学习的模型参考自适应控制_第5页
资源描述:

《基于强化学习的模型参考自适应控制》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第22卷第2期控制理论与应用Vo1.22No.22005年4月ControlTheory&ApplicationsApr.2005文章编号:1000-8152(2005)02-0291-04基于强化学习的模型参考自适应控制112郭红霞,吴捷,王春茹(1华南理工大学电力学院,广东广州510640;2广东工业大学自动化学院,广东广州510090)摘要:提出了一种基于强化学习的模型参考自适应控制方法,控制器采用自适应启发评价算法,它由两部分组成:自适应评价单元及联想搜索单元.由参考模型给出系统

2、的性能指标,利用系统反馈的强化信号在线更新控制器的参数.仿真结果表明:基于强化学习的模型参考自适应控制方法可以实现对一类复杂的非线性系统的稳定控制和鲁棒控制,该控制方法不仅响应速度快,而且具有较高的学习速率,实时性较强.关键词:强化学习;模型参考自适应控制;联想搜索单元;自适应评价单元中图分类号:TP273文献标识码:AModelreferenceadaptivecontrolbasedonreinforcementlearning112GUOHong_xia,WUJie,WANGChun_ru

3、(1.CollegeofElectricalEngineering,SouthChinaUniversityofTechnology,GuangzhouGuangdong510640,China;2.CollegeofAutomation,GuangdongUniversityofTechnology,GuangzhouGuangdong510090,China)Abstract:Aimingatadaptivecontrolproblemsofasortofnonlinearsystem,mod

4、elreferenceadaptivecontrolbasedonreinforcementlearningisproposed.Thecontrollerusesadaptiveheuristiccriticalgorithm,whichconsistsoftwoelements:adaptivecriticelement,associativesearchelement.Thedesiredperformanceindexispresentedbythereferencemodel,andthe

5、controllerparametersareupdatedbyreinforcementsignalgivenbysystem.Thesimulationshowsthattheproposedmethodisefficientforaclassofcomplexnonlinearsystem,andithasahighlearningrate,whichisimportanttoonlinelearning.Keywords:reinforcementlearning;modelreference

6、adaptivecontrol;associativesearchelement;adaptivecriticelements1引言(Introduction)由参考模型给出系统的性能指标,利用奖罚信号训近来,神经网络由于具有很强的非线性映射能练网络参数.最后通过仿真实验,并与一般的模糊神力、并行处理能力和自适应、自学习能力,被广泛用经网络模型参考自适应控制器的仿真结果相比较,[1,2]验证了该算法的正确性和优越性.于非线性系统的自适应控制中.在这些非线性自适应控制系统中,神经网络大多以监督学习和非

7、2基于强化学习的模型参考自适应控制系监督学习方式,通过精确的训练样本学习隐含在样统(Modelreferenceadaptivecontrolbasedon本中的有关非线性系统本身的内在规律性,以调整reinforcementlearning)网络连接权系数.但在一些复杂的实际应用中,精确基于强化学习的MRAC(ModelReferenceAdap的训练样本通常难以获得,或其代价昂贵.强化学习tiveControl)系统的结构如图1所示.作为一种重要的学习方法,不需要外部环境的数学图中,model

8、是参考模型,它的输出Ym作为系模型,只是把控制系统的性能指标要求直接转换为统期望的闭环响应,与被控对象的输出y相比较,由一种评价指标,当系统性能指标满足要求时,所施加奖罚机构给出控制效果好坏的评价信号(奖或罚)r,的控制动作得到奖励,否则得到惩罚.控制器通过奖当y不满足性能指标时,r=-1,否则r=0.控制器[3,4]罚学习,最终获到对系统的最优控制动作.采用自适应启发评价(adaptiveheuristiccritic)算法,本文将强化学习用于一类非线

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。