智能控制 第6章 学习控制 -迭代学习控制.ppt

智能控制 第6章 学习控制 -迭代学习控制.ppt

ID:52042626

大小:1.20 MB

页数:51页

时间:2020-03-31

智能控制 第6章 学习控制 -迭代学习控制.ppt_第1页
智能控制 第6章 学习控制 -迭代学习控制.ppt_第2页
智能控制 第6章 学习控制 -迭代学习控制.ppt_第3页
智能控制 第6章 学习控制 -迭代学习控制.ppt_第4页
智能控制 第6章 学习控制 -迭代学习控制.ppt_第5页
资源描述:

《智能控制 第6章 学习控制 -迭代学习控制.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第6章学习控制-迭代学习控制智能控制基础目录6.1迭代学习控制6.2增强学习2/516.1.1迭代学习控制的基本思想6.1.2线性时变系统的迭代学习控制6.1.3一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5迭代学习控制面临的挑战6.1迭代学习控制3/516.1.1基本思想迭代学习(Iterativelearning)的基本思想在于总结人类学习的方法,即通过多次的训练,从经验中学会某种技能。迭代学习控制是智能控制中具有严格数学描述的一个分支。它以极为简单的学习算法,在给定的时间区间上实现未知被控对象以任意精度

2、跟踪某一给定的期望轨迹的控制问题。4/51特点控制器在运行过程中不需要辨识系统的参数,属于基于品质的自学习控制。这种控制方法特别适用于具有重复运行的场合。它的研究对诸如机器人那样有着非线性、强耦合、难以建模又需要高精度轨迹控制的场合是非常有意义的。5/516.1.1迭代学习控制的基本思想6.1.2线性时变系统的迭代学习控制6.1.3一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5迭代学习控制面临的挑战6.1迭代学习控制6/516.1.2线性时变系统的迭代学习控制考虑DC伺服驱动控制的速度控制系统。7/51数学模

3、型假设电枢电感足够小,而且忽略机械摩擦。则系统可以简化为一阶系统。y(t)、v(t)分别表示电机角速度和输入控制电压;K-力矩系数Tm-电机的时间常数8/51求解简化模型a=(1+AB/K)/Tm;b=A/KTm。求解得:9/51迭代学习的引入假设期望速度特性足够光滑,可以由离散数据来拟合。则初始控制的系统误差为根据则下一次校正后的输出控制电压可取:10/51迭代过程11/51收敛性分析对于所有的k,取;12/51其中可见,前述条件下,迭代学习的过程是收敛的。13/51参数的替换对于参数b预先不知道的情况,可以用另一近似值γ来代替。只要γ满

4、足以下不等式:迭代学习公式仍是收敛的。具体证明请见定理6-1。14/51线性时变系统的一般情况系统模型解为状态转移矩阵。15/51迭代学习公式其中是一个给定的矩阵函数。16/51定理6-1:收敛性定理假设。若给定的任一初始输入矢量u0(t)在[0,T]区间内连续。则存在正常数λ和ρ0使得λ范数定义:r×r的矩阵F=(fij)范数‖F‖∞定义17/51证明定义一矢量范数则有:18/51两边同乘e-λt,并取λ范数可得:19/51其中可知,所以,总可以选择较大的λ,使得:从而保证了时,。20/51状态空间表示如果矩阵B,C是定常、BC是可逆的,

5、只需满足以下条件:即可满足迭代学习的收敛性。21/516.1.1迭代学习控制的基本思想6.1.2线性时变系统的迭代学习控制6.1.3一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5迭代学习控制面临的挑战6.1迭代学习控制22/511.问题的提出考虑一个二阶非线性动力学系统可化为一阶微分方程组简记为:23/51假设xd(t),t∈[0,T]是系统的一个状态矢量,且属于R2n有界闭合子集W。则控制的问题就是寻找分段连续的控制输入uj(t)序列,使得系统的状态xj(t)跟随xd(t),其跟随误差小于某一给定的精度ε,

6、即其中j表示第j次迭代。24/51被控系统进行控制的条件系统的运行条件如采样频率、初始的控制结构是固定的;系统不确定性时,在时间[0,T]内是重复作业的;函数f(·)、g(·)满足Lipshitz连续;g(x(t),t)在t∈[0,T]内是齐次和正定函数。25/51函数f(·)、g(·)满足Lipshitz连续,即:其中β(t)、α(t)为有界的正函数,|·|表示欧几里德范数,‖·‖定义为:Lipshitz连续26/51g(x(t),t)在t∈[0,T]内是齐次和正定函数,即满足:0<λ1I≤g(x(t),t)≤λ2I矩阵不等式M≤N的意义

7、是λmax(M)≤λmin(N)正定函数27/512.非线性动态系统的稳定性定理6-2:若函数f(·)、g(·)满足Lipshitz连续,且g(x(t),t)在t∈[0,T]内是齐次和正定函数,则存在状态反馈u(t)=K(xd(t)-x(t))使得系统的状态跟踪误差xd(t)-x(t)一致有界,即28/51反馈增益选取若取K=[adb-1In×n:db-1In×n]时,可得到跟踪误差界为:其中是期望轨迹下的期望控制输入29/513.迭代学习控制策略为防止反馈增益系数d过大,引入一个前馈控制器,并由迭代学习获得。30/51迭代学习控制的稳定性

8、定理6-3:记控制输入uj(t)为第j次迭代中反馈控制和前馈控制两项的线性组合,即其中为误差反馈控制项,且;为前馈学习控制项,由学习控制器产生。31/51则前述控制下的跟踪误差为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。