一种基于递归神经网络的自适应控制方法研究

ID：38199408

大小：166.98 KB

页数：4页

时间：2019-05-25

资源描述：

《一种基于递归神经网络的自适应控制方法研究》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、1一种基于递归神经网络的自适应控制方法研究钱征孙亮阮晓钢（北京工业大学信息与控制研究所北京100022）摘要：本文针对快速、多变量、强非线性的复杂系统的控制问题，在强化学习方式的基础上，提出一种新的自适应控制方法。该方法在没有先验知识的条件下，基于递归神经网络并结合强化学习的自调节能力，通过自身神经网络的在线学习，有效控制不稳定的非线性系统。本文以一级倒立摆系统为实验对象，仿真实验结果表明：所提出的控制方法具有非常好的控制效果和稳定精度，抗干扰能力强。关键词：强化学习；OIFElman网络；BP网络；一级倒立摆系统中图分类号：TP18文献标识码：AANovelAdaptive

2、ControlAlgorithmBasedonRecurrentNeuralNetworkQianzheng,Sunliang,Ruanxiaogang（InstituteofInformationandControl,BeijingUniversityofTechnologyBeijing100022）Abstract:Basedonreinforcementlearning,anoveladaptivecontrolalgorithmisproposedforthecomplexsystemswhichhavethecharacteristicsofspeediness,

3、multiplevariables,seriousnonlinear.Themethodbasedonrecurrentneuralnetworkneedsnotknowtheprioriknowledgeofsystem,combinestheself-tunepropertyofreinforcementlearningthroughon-linelearningofnetwork,andatlasteffectivelycontrolstheunstablynonlinearsystem.Theexperimentalobjectisasingleinvertedpen

4、dulum.Itisshownfromthesimulationresultsthatthismethodhasgoodcontroleffect,goodsteadyaccuracyandgoodinterferencerejection.Keywords:reinforcementlearning;OIFElman-network;BPnetwork;singleinvertedpendulum1引言随着智能控制研究的不断深入，人们通过模拟人的决策过程，将强化学习方式融入控制策略，用来解决复杂非线性系统的控制问题。强化学习(ReinforcementLearning)是一

5、种试探学习方式，外界没有明显的教师信号给出正确的指令，只通过与环境的交互得到评价信息来学习如何执行恰当的动作。近年来，强化学习在算法和应用上已取得了大量的研究成果，如[1,2][3,4]用静态神经网络控制倒立摆系统、多种动态规划算法的提出等。递归神经网络(RNN)由于存在输出变量到输入端的反馈，因而其变量中包含时间延时网络,是真正的动态网络系统，为动态系统的辨识和控制开辟了一个极有前途的领域。本文在强化学习方式的基础上,提出一种基于递归神经网络的自适应控制方法。该控制方法采用的强化学习学习方式基于“动作网络/评价网络”的框架结构。其中，动作网络部分由BP神经网络构成的，它将系

6、统状态量映射为一个可能的实际动作；评价网络部由递归神经网络构成的，根据系统状态和系统的控制量来评价系统的运行状态，检验当前的控制效果，产生“奖励/惩罚”值作为反馈，以进行自适应学习。通过对一级倒立摆系统的控制实验仿真研究，验证了所提控制方法的可行性。2强化学习2.1基本算法流程整个算法结构如图1所示，由两个部分组成的：评价网络CriticNetwork(CN)和动作网络ActionNetwork(AN)。其中AN实现将系统状态映射为一个可能的实际动作，而CN则根据状态X()t和控制量Ut()来评价系统的运行状态，生成评价函数Vt(),评价函数Vt()又和'外部再励信号rt()

7、产生时间差分误差(TDerror)rt()(又称内部再励信号)。1基金项目:国家自然科学基金资助项目(60375017)αVtVt()−(1)−图1强化学习算法结构2.2评价网络(CN)CN用系统状态量X()t和控制量Ut()做为输入,而输出为评价函数Vt()，是t时刻起未来外部再励信号的加权和，形式为：2Vt()=++++rt(1)ααrt(2)rt(3)++⋅⋅⋅(1)其中α为折扣因子(0<α<1),而外部再励信号r是由系统状态量X()t和控制量Ut()决定的，其值∈−{1,0}，“0”表示成功，“

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种基于递归神经网络的自适应控制方法研究

一种基于递归神经网络的自适应控制方法研究

相关文章

相关标签