基于自适应评价的非线性系统神经网络控制 (1)

基于自适应评价的非线性系统神经网络控制 (1)

ID:18739789

大小:423.43 KB

页数:5页

时间:2018-09-18

基于自适应评价的非线性系统神经网络控制 (1)_第1页
基于自适应评价的非线性系统神经网络控制 (1)_第2页
基于自适应评价的非线性系统神经网络控制 (1)_第3页
基于自适应评价的非线性系统神经网络控制 (1)_第4页
基于自适应评价的非线性系统神经网络控制 (1)_第5页
资源描述:

《基于自适应评价的非线性系统神经网络控制 (1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第22卷第7期控制与决策2007年7月Vol.22No.7ControlandDecisionJuly2007文章编号:10010920(2007)07076504基于自适应评价的非线性系统神经网络控制陈宗海,文锋,王智灵(中国科学技术大学自动化系,合肥230027)摘要:针对一类非线性系统,提出了一种自适应评价方法.该方法可以控制系统输出对参考信号进行跟踪,其评价函数可直接解析求出.该方法只需一个动作网络用于产生控制动作,并且方法中的网络权值初始化可随机选取.使用Lyapunov方法对整个系统的动态性能进行分析,证明了在一定条件下此

2、方法能保证闭环误差及网络权值一致最终有界.仿真结果与理论分析相一致,证明了所提出方法的有效性.关键词:自适应评价;神经网络;Lyapunov方法;强化学习中图分类号:TP13文献标识码:ANeuralnetworkcontrolofnonlinearsystemsbasedonadaptivecriticCHENZonghai,WENFeng,WANGZhiling(DepartmentofAutomation,UniversityofScienceandTechnologyofChina,Hefei230027,China.Correspond

3、ent:CHENZonghai,Email:chenzh@ustc.edu.cn)Abstract:Anoveladaptivecriticmethodisproposedforaclassofnonlinearsystems,byusingwhichsystemoutputiscontrolledtotrackareferencetrajectory.Inthismethod,criticfunctioncanbesolvedanalyticallyandonlyoneactionnetworkisneededtogeneratecontrolacti

4、on.Moreover,networkweightsareinitializedrandomly.TheanalysisofdynamicperformanceoftheoverallsystemisperformedbyusingLyapunovmethod,whichprovedthatbyusingtheproposedmethoduniformultimateboundnessofcloselooperrorisguaranteedundercertainconditions.Simulationresultsareconsistentwithth

5、eoreticalanalysisandshowtheeffectivenessofthemethod.Keywords:Adaptivecritic;Neuralnetworks;Lyapunovmethod;Reinforcementlearning1引言(TemporalDifference)强化学习算法的推广形式.对非线性系统进行控制的常规方法是在操作点其中评价网络对动作网络性能进行评估,训练是使附近对系统进行线性化;然后使用线性控制方法设其输出满足Bellman方程;动作网络则产生控制动计控制器.当系统状态不在线性范围内时,控制器的作,根

6、据评价网络的评价调整网络权值,使控制性能性能会大大下降.非线性控制方法虽然能够改进系达到最优.根据评价网络的训练方法不同,可分为统的瞬态性能,但其本身的结构和实现要比线性控HDP(Heuristicdynamicprogramming)方法、DHP制器复杂得多.反馈线性化方法虽然能够抵消系统(Dualheuristicprogramming)方法、GDHP(Global的非线性部分,但需要知道系统的精确参数,这在实dualheuristicprogramming)方法.TD强化学习算际中难以保证.基于学习的神经网络控制方法,利用法通常归结为HDP方法的一种.

7、一系列实践表明,神经网络的非线性逼近能力,在常规解析方法之外自适应评价方法具有能克服系统的不稳定性,不受提供了另一种选择.一般而言,大都首先使用一个神系统辨识误差的影响,能处理输入不确定性以及计经网络辨识得到系统模型;然后使用该模型训练一算量小,适于在线训练等特点.但上述特点多为经验个神经网络控制器,但这种方法通常不能保证系统总结,缺少严格的理论证明.[1][3]的稳定性.在对象模型完全已知的情况下,Landelius给[2]Prokhorov等使用自适应评价方法训练神经出了针对LQR控制的自适应评价方法的收敛证[4]网络控制器.该方法基于动态规划的思想,是

8、TD明;Prokhorov等则给出了控制以马尔科夫链

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。