欢迎来到天天文库
浏览记录
ID:47701358
大小:151.26 KB
页数:7页
时间:2019-10-22
《经济控制论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、DP算法和MP之间的关系及其优越性姜奎摘要:在最优控制中变分法、最大值原理(MP)以及动态规划(DP)是经常用到的理论方法。其中,DP法不仅是性能指标取极值最优控制问题的必要条件而且述是充分条件。本文给出了充分条件的证明,显示出DP法的优越性。DP法与MP有着密切的联系,可以用DP法来推导MP。关键词:最优控制;最大值原理;动态规划1引言最优控制屈于最优化⑴的范畴,因此最优控制与最优化冇其共同的性质和理论基础。最优控制通常是针对控制系统本身而言的,目的在于使一个机组、一台设备、或一个生产过程实现局部最优,是讨论具有动态系统
2、约朿条件的积分型泛函的极值问题,其中常用的有变分法【2】、最大值原理(MP)⑶以及动态规划(DP)法。设计最优控制系统中常用的动态规划(DP)法的不仅是性能指标取极值的最优控制问题的必耍条件而月•述是充分条件,显示出在解决最优控制问题屮其它方法所不具有的优越性。2DP法的优越性变分法和最大值原理是性能指标取极小值的最优控制问题的必要条件,并不是充分条件。实际问题屮通常要求实现最小值的最优控制⑷/⑴,这在最优控制确实存在,只有证明必要条件得到的tr⑴是唯一的才能认定,而具有多个最优曲线在求最优控制的实际问题屮是常见的。因此,
3、只是必要而不充分的变分法和最大值原理给实现最小值的最优控制tr⑴带来了不确定性。而要证明通过必要条件得到的tr⑴是唯一的,有时候是非常难做到的。我们首先给出dp法对性能指标取极值的最优控制问题给出的必要条件,然后再给出充分条件的证明。2.1必要条件已知连续系统状态方程:文X(f())=X°,其中Xer,UeR,n而(/(•)-允许控制集。若L⑴使:丿©(•))=f'/o(X(/)Qa),/)d/取最小值,Vx,t)=vx⑴,f)是x(t)=x时,r04、续函数,贝iJ沿最优控制旷⑴和最优轨线X*(0,最优代价函数W(Xj)满足HJB方程:min0(X*(O,w^)+iteU/(xSm)“(xU⑴』)+”(x,h~ax/(XSt/Sr)_刘(Xj)_dt~V*(X(0,rI)=O.2.2充分条件定理2・1DP法HJB方程的解V*(X,r)不仅是性能指标取极小值的最优控制问题的必要条件而且也是充分条件.证明:因为HJB方程的后一半是:心(皿如“匹週dXdt>¥7*由状态方程可知:k=—/o(x"Q(),/)V(x(j,G=oat从而:V*(X,r)=£/0(X7r),t/5、*(r),r)6/r即g(Xj)是性能指标的最优值函数,故芮(X。」。)必使:/("(•))=J/o(X(f)Q⑴,/沏实现极小值.这是DP法较变分法和最大值原理优越的地方之一。因为这一充要条件表明:在较强条件卜',用DP法求得的tT⑴若使其满足最优值函数的HJB方程,它一定就是最优控制。DP法述冇一优点DP法的基本递推方程及HJB方程可以求得最优控制的反馈形式,这在实际应用上,将为实现最优自动控制带来方便。3DP法与MP的关系下面从两点来说明它们之间的关系。一,从DP法的HJB方程直接推导得出了MP。二,通过伴随变量和值6、函数可以说明由DP法可以直接推导得出MP(只讨论光滑情形)。3.1由DP法的HJB方程推导得出MP设最优值函数厂(X,/)具有二阶连续偏导数,最优控制函数的偏导数丫当cX沿最优轨线时,可视为啲函数,即令:等5),此时HJB方程中的Hv函数与最大值原理中的H函数就一致了,即:H报大值⑸oHJB方程的前一半就是最大oX值原理屮的控制方程:minH(X*(r),u,2(/),r)=⑴J)HJB方程的后一半是:一牛=『⑴,勞t)=f0+^f=办+2⑴U对上式,求关于X的偏导数:鹽=並dtdX_dX+2(%+maxsxsxsx因为:7、以唱6H=6(人+时)二既r旷dX~dX~8XoX筹囁备数,移项可得:IP:g(竺)+旦叫dXdtdXdXdXdH~dXdav*d7IF这样我们就从HJB⑹的后一半推出了最大值原理中的协态方程,说明:其一,在最优值函数厂(X』)具有二阶连续偏导数的情况下,DP法的HJB方程可以推得[BMP,它们之间有着密切的关系,其二,HJB方程的简化形式在最大值原理中对应的H函数的性质,即定常系统「可动吋,H(Xp),tT(r),M)20。3.2伴随变量和值函数(只讨论光滑情形)。在证明Z前,让我们先来看一个最优控制问题和一些假设。考虑8、一个确定的控制系统:a.e.tg[s.T](3.1)X(O=/?(/,x(O,w(O),X(s)=y,它的成本泛函为:丿(s,),;“(•))=£f(t,x(r),u(t))dt+/?(x(T)),(3.2)这里(5,y)e[0,T]xr表示给定的初始时间和系统的初始状态,并且控制必)取自下而的集合:v
4、续函数,贝iJ沿最优控制旷⑴和最优轨线X*(0,最优代价函数W(Xj)满足HJB方程:min0(X*(O,w^)+iteU/(xSm)“(xU⑴』)+”(x,h~ax/(XSt/Sr)_刘(Xj)_dt~V*(X(0,rI)=O.2.2充分条件定理2・1DP法HJB方程的解V*(X,r)不仅是性能指标取极小值的最优控制问题的必要条件而且也是充分条件.证明:因为HJB方程的后一半是:心(皿如“匹週dXdt>¥7*由状态方程可知:k=—/o(x"Q(),/)V(x(j,G=oat从而:V*(X,r)=£/0(X7r),t/
5、*(r),r)6/r即g(Xj)是性能指标的最优值函数,故芮(X。」。)必使:/("(•))=J/o(X(f)Q⑴,/沏实现极小值.这是DP法较变分法和最大值原理优越的地方之一。因为这一充要条件表明:在较强条件卜',用DP法求得的tT⑴若使其满足最优值函数的HJB方程,它一定就是最优控制。DP法述冇一优点DP法的基本递推方程及HJB方程可以求得最优控制的反馈形式,这在实际应用上,将为实现最优自动控制带来方便。3DP法与MP的关系下面从两点来说明它们之间的关系。一,从DP法的HJB方程直接推导得出了MP。二,通过伴随变量和值
6、函数可以说明由DP法可以直接推导得出MP(只讨论光滑情形)。3.1由DP法的HJB方程推导得出MP设最优值函数厂(X,/)具有二阶连续偏导数,最优控制函数的偏导数丫当cX沿最优轨线时,可视为啲函数,即令:等5),此时HJB方程中的Hv函数与最大值原理中的H函数就一致了,即:H报大值⑸oHJB方程的前一半就是最大oX值原理屮的控制方程:minH(X*(r),u,2(/),r)=⑴J)HJB方程的后一半是:一牛=『⑴,勞t)=f0+^f=办+2⑴U对上式,求关于X的偏导数:鹽=並dtdX_dX+2(%+maxsxsxsx因为:
7、以唱6H=6(人+时)二既r旷dX~dX~8XoX筹囁备数,移项可得:IP:g(竺)+旦叫dXdtdXdXdXdH~dXdav*d7IF这样我们就从HJB⑹的后一半推出了最大值原理中的协态方程,说明:其一,在最优值函数厂(X』)具有二阶连续偏导数的情况下,DP法的HJB方程可以推得[BMP,它们之间有着密切的关系,其二,HJB方程的简化形式在最大值原理中对应的H函数的性质,即定常系统「可动吋,H(Xp),tT(r),M)20。3.2伴随变量和值函数(只讨论光滑情形)。在证明Z前,让我们先来看一个最优控制问题和一些假设。考虑
8、一个确定的控制系统:a.e.tg[s.T](3.1)X(O=/?(/,x(O,w(O),X(s)=y,它的成本泛函为:丿(s,),;“(•))=£f(t,x(r),u(t))dt+/?(x(T)),(3.2)这里(5,y)e[0,T]xr表示给定的初始时间和系统的初始状态,并且控制必)取自下而的集合:v
此文档下载收益归作者所有