基于评价网络近似误差的自适应动态规划优化控制

基于评价网络近似误差的自适应动态规划优化控制

ID:18571109

大小:231.22 KB

页数:5页

时间:2018-09-18

基于评价网络近似误差的自适应动态规划优化控制_第1页
基于评价网络近似误差的自适应动态规划优化控制_第2页
基于评价网络近似误差的自适应动态规划优化控制_第3页
基于评价网络近似误差的自适应动态规划优化控制_第4页
基于评价网络近似误差的自适应动态规划优化控制_第5页
资源描述:

《基于评价网络近似误差的自适应动态规划优化控制》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第30卷第3期控制与决策2015年3月Vol.30No.3ControlandDecisionMar.2015文章编号:1001-0920(2015)03-0495-05DOI:10.13195/j.kzyjc.2014.0102基于评价网络近似误差的自适应动态规划优化控制林小峰,丁强(广西大学电气工程学院,南宁530004)摘要:为了求解有限时域最优控制问题,自适应动态规划(ADP)算法要求受控系统能一步控制到零.针对不能一步控制到零的非线性系统,提出一种改进的ADP算法,其初始代价函数由任意的有限时间容许序列构造.推导了算法的迭代过程并证明了算法的收敛性.当考虑评价网络的近

2、似误差并满足假设条件时,迭代代价函数将收敛到最优代价函数的有界邻域.仿真例子验证了所提出方法的有效性.关键词:自适应动态规划;优化控制;人工神经网络;近似误差中图分类号:TP18文献标志码:AAdaptivedynamicprogrammingoptimalcontrolbasedonapproximationerrorofcriticnetworkLINXiao-feng,DINGQiang(SchoolofElectricalEngineering,GuangxiUniversity,Nanning530004,China.Correspondent:DINGQiang,E

3、-mail:819476292@qq.com)Abstract:Inordertosolvefinitehorizonoptimalcontrolproblems,theadaptivedynamicprogramming(ADP)algorithmdemandsthesystemcanreachzeroinonestepofcontrol.Forthenonlinearsystemswhichcannotbecontrolledtozeroinonestep,animprovedADPalgorithmispresented,andtheinitialcostisconstru

4、ctedbyarbitraryfinitehorizonadmissiblesequence.Aftergivingtheiterativeprocess,theconvergenceanalysisoftheimprovedalgorithmisconducted.Iftheapproximationerrorofthecriticnetworkisconsideredandseveralassumptionsaresatisfied,theiterativecostfunctionwillconvergetoafiniteneighborhoodoftheoptimalcostf

5、unction.Asimulationexampleisprovidedtoverifytheeffectivenessofthepresentedapproach.Keywords:adaptivedynamicprogramming;optimalcontrol;artificialneuralnetwork;approximationerror0引引引言言言解离散系统最优控制问题提供了理论依据.文献[9]动态规划是处理最优控制的有效方法,但在实提出了一种在线执行-评价算法,为求解连续时间系际求解非线性系统最优控制问题时,它的反向搜索统最优控制问题提供了新的思路.文献[10]

6、为了实现特点以及维数灾问题[1]极大地限制了其应用.由在线学习和优化,提出了一种新的ADP结构,与传统Werbos[2-4]提出的自适应动态规划(ADP)本质上基于ADP结构不同,该结构增加了一个参考网络用来自适强化学习原理,将动态规划与人工神经网络有机结合应地建立内部强化信号.在一起,是解决复杂非线性系统最优控制的重要理论为了求解离散非线性系统的有限时域最优控制和方法.ADP采用非线性函数拟合方法逼近动态规划问题,文献[11]提出了一种迭代ADP算法,目前,它已成功地用于解决跟踪控制[12]、执行器饱和[13]、状的性能指标,在求解非线性Hamilton-Jacobi-Bel

7、lman(HJB)方程[5-6]的同时避免了维数灾难题.作为一种态时滞[14]等问题.文献[12]处理跟踪问题的策略是将有效的智能控制方法,近年来ADP及其相关研究受其转化为最优控制问题进行求解.文献[13]针对执行到了人们的关注,取得了一些进展[7-10].文献[7]严格器饱和约束,引入新的性能指标,继而推导出带饱和证明了迭代ADP算法的收敛性,为迭代ADP算法求约束的非线性HJB方程,并采用迭代ADP算法求解.收稿日期:2014-01-17;修回日期:2014-06-27.基金项目:国家

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。