欢迎来到天天文库
浏览记录
ID:38199408
大小:166.98 KB
页数:4页
时间:2019-05-25
《一种基于递归神经网络的自适应控制方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1一种基于递归神经网络的自适应控制方法研究钱征孙亮阮晓钢(北京工业大学信息与控制研究所北京100022)摘要:本文针对快速、多变量、强非线性的复杂系统的控制问题,在强化学习方式的基础上,提出一种新的自适应控制方法。该方法在没有先验知识的条件下,基于递归神经网络并结合强化学习的自调节能力,通过自身神经网络的在线学习,有效控制不稳定的非线性系统。本文以一级倒立摆系统为实验对象,仿真实验结果表明:所提出的控制方法具有非常好的控制效果和稳定精度,抗干扰能力强。关键词:强化学习;OIFElman网络;BP网络;一级倒立摆系统中图分类号:TP18文献标识码:AANovelAdaptive
2、ControlAlgorithmBasedonRecurrentNeuralNetworkQianzheng,Sunliang,Ruanxiaogang(InstituteofInformationandControl,BeijingUniversityofTechnologyBeijing100022)Abstract:Basedonreinforcementlearning,anoveladaptivecontrolalgorithmisproposedforthecomplexsystemswhichhavethecharacteristicsofspeediness,
3、multiplevariables,seriousnonlinear.Themethodbasedonrecurrentneuralnetworkneedsnotknowtheprioriknowledgeofsystem,combinestheself-tunepropertyofreinforcementlearningthroughon-linelearningofnetwork,andatlasteffectivelycontrolstheunstablynonlinearsystem.Theexperimentalobjectisasingleinvertedpen
4、dulum.Itisshownfromthesimulationresultsthatthismethodhasgoodcontroleffect,goodsteadyaccuracyandgoodinterferencerejection.Keywords:reinforcementlearning;OIFElman-network;BPnetwork;singleinvertedpendulum1引言随着智能控制研究的不断深入,人们通过模拟人的决策过程,将强化学习方式融入控制策略,用来解决复杂非线性系统的控制问题。强化学习(ReinforcementLearning)是一
5、种试探学习方式,外界没有明显的教师信号给出正确的指令,只通过与环境的交互得到评价信息来学习如何执行恰当的动作。近年来,强化学习在算法和应用上已取得了大量的研究成果,如[1,2][3,4]用静态神经网络控制倒立摆系统、多种动态规划算法的提出等。递归神经网络(RNN)由于存在输出变量到输入端的反馈,因而其变量中包含时间延时网络,是真正的动态网络系统,为动态系统的辨识和控制开辟了一个极有前途的领域。本文在强化学习方式的基础上,提出一种基于递归神经网络的自适应控制方法。该控制方法采用的强化学习学习方式基于“动作网络/评价网络”的框架结构。其中,动作网络部分由BP神经网络构成的,它将系
6、统状态量映射为一个可能的实际动作;评价网络部由递归神经网络构成的,根据系统状态和系统的控制量来评价系统的运行状态,检验当前的控制效果,产生“奖励/惩罚”值作为反馈,以进行自适应学习。通过对一级倒立摆系统的控制实验仿真研究,验证了所提控制方法的可行性。2强化学习2.1基本算法流程整个算法结构如图1所示,由两个部分组成的:评价网络CriticNetwork(CN)和动作网络ActionNetwork(AN)。其中AN实现将系统状态映射为一个可能的实际动作,而CN则根据状态X()t和控制量Ut()来评价系统的运行状态,生成评价函数Vt(),评价函数Vt()又和'外部再励信号rt()
7、产生时间差分误差(TDerror)rt()(又称内部再励信号)。1基金项目:国家自然科学基金资助项目(60375017)αVtVt()−(1)−图1强化学习算法结构2.2评价网络(CN)CN用系统状态量X()t和控制量Ut()做为输入,而输出为评价函数Vt(),是t时刻起未来外部再励信号的加权和,形式为:2Vt()=++++rt(1)ααrt(2)rt(3)++⋅⋅⋅(1)其中α为折扣因子(0<α<1),而外部再励信号r是由系统状态量X()t和控制量Ut()决定的,其值∈−{1,0},“0”表示成功,“
此文档下载收益归作者所有