一种基于递归神经网络的自适应控制方法研究

一种基于递归神经网络的自适应控制方法研究

ID:38199408

大小:166.98 KB

页数:4页

时间:2019-05-25

一种基于递归神经网络的自适应控制方法研究_第1页
一种基于递归神经网络的自适应控制方法研究_第2页
一种基于递归神经网络的自适应控制方法研究_第3页
一种基于递归神经网络的自适应控制方法研究_第4页
资源描述:

《一种基于递归神经网络的自适应控制方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1一种基于递归神经网络的自适应控制方法研究钱征孙亮阮晓钢(北京工业大学信息与控制研究所北京100022)摘要:本文针对快速、多变量、强非线性的复杂系统的控制问题,在强化学习方式的基础上,提出一种新的自适应控制方法。该方法在没有先验知识的条件下,基于递归神经网络并结合强化学习的自调节能力,通过自身神经网络的在线学习,有效控制不稳定的非线性系统。本文以一级倒立摆系统为实验对象,仿真实验结果表明:所提出的控制方法具有非常好的控制效果和稳定精度,抗干扰能力强。关键词:强化学习;OIFElman网络;BP网络;一级倒立摆系统中图分类号:TP18文献标识码:AANovelAdaptive

2、ControlAlgorithmBasedonRecurrentNeuralNetworkQianzheng,Sunliang,Ruanxiaogang(InstituteofInformationandControl,BeijingUniversityofTechnologyBeijing100022)Abstract:Basedonreinforcementlearning,anoveladaptivecontrolalgorithmisproposedforthecomplexsystemswhichhavethecharacteristicsofspeediness,

3、multiplevariables,seriousnonlinear.Themethodbasedonrecurrentneuralnetworkneedsnotknowtheprioriknowledgeofsystem,combinestheself-tunepropertyofreinforcementlearningthroughon-linelearningofnetwork,andatlasteffectivelycontrolstheunstablynonlinearsystem.Theexperimentalobjectisasingleinvertedpen

4、dulum.Itisshownfromthesimulationresultsthatthismethodhasgoodcontroleffect,goodsteadyaccuracyandgoodinterferencerejection.Keywords:reinforcementlearning;OIFElman-network;BPnetwork;singleinvertedpendulum1引言随着智能控制研究的不断深入,人们通过模拟人的决策过程,将强化学习方式融入控制策略,用来解决复杂非线性系统的控制问题。强化学习(ReinforcementLearning)是一

5、种试探学习方式,外界没有明显的教师信号给出正确的指令,只通过与环境的交互得到评价信息来学习如何执行恰当的动作。近年来,强化学习在算法和应用上已取得了大量的研究成果,如[1,2][3,4]用静态神经网络控制倒立摆系统、多种动态规划算法的提出等。递归神经网络(RNN)由于存在输出变量到输入端的反馈,因而其变量中包含时间延时网络,是真正的动态网络系统,为动态系统的辨识和控制开辟了一个极有前途的领域。本文在强化学习方式的基础上,提出一种基于递归神经网络的自适应控制方法。该控制方法采用的强化学习学习方式基于“动作网络/评价网络”的框架结构。其中,动作网络部分由BP神经网络构成的,它将系

6、统状态量映射为一个可能的实际动作;评价网络部由递归神经网络构成的,根据系统状态和系统的控制量来评价系统的运行状态,检验当前的控制效果,产生“奖励/惩罚”值作为反馈,以进行自适应学习。通过对一级倒立摆系统的控制实验仿真研究,验证了所提控制方法的可行性。2强化学习2.1基本算法流程整个算法结构如图1所示,由两个部分组成的:评价网络CriticNetwork(CN)和动作网络ActionNetwork(AN)。其中AN实现将系统状态映射为一个可能的实际动作,而CN则根据状态X()t和控制量Ut()来评价系统的运行状态,生成评价函数Vt(),评价函数Vt()又和'外部再励信号rt()

7、产生时间差分误差(TDerror)rt()(又称内部再励信号)。1基金项目:国家自然科学基金资助项目(60375017)αVtVt()−(1)−图1强化学习算法结构2.2评价网络(CN)CN用系统状态量X()t和控制量Ut()做为输入,而输出为评价函数Vt(),是t时刻起未来外部再励信号的加权和,形式为:2Vt()=++++rt(1)ααrt(2)rt(3)++⋅⋅⋅(1)其中α为折扣因子(0<α<1),而外部再励信号r是由系统状态量X()t和控制量Ut()决定的,其值∈−{1,0},“0”表示成功,“

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。