增强学习及其在移动机器人导航与控制中的应用研究

增强学习及其在移动机器人导航与控制中的应用研究

ID:36553992

大小:6.16 MB

页数:138页

时间:2019-05-12

增强学习及其在移动机器人导航与控制中的应用研究_第1页
增强学习及其在移动机器人导航与控制中的应用研究_第2页
增强学习及其在移动机器人导航与控制中的应用研究_第3页
增强学习及其在移动机器人导航与控制中的应用研究_第4页
增强学习及其在移动机器人导航与控制中的应用研究_第5页
资源描述:

《增强学习及其在移动机器人导航与控制中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国防科学技术大学博士学位论文增强学习及其在移动机器人导航与控制中的应用研究姓名:徐昕申请学位级别:博士专业:控制科学与工程指导教师:贺汉根2002.4.1国防科学技术大学研究生院学位论文线性值函数逼近器的增强学习算法在求解学习控制问题时没有收敛性保证的缺点,在理论和应用上具有重要意义。针对Mountain.Car和一类欠驱动机器人系统(称为体操机器人或Acrobot)iN摇起最优控制问题进行了仿真研究,结果表明RGNP算法具有良好的学>-j效率和泛化性能,为求解高维连续状态空间的马氏决策问题提供了一类有效方法。4.在求解同时具有连续状态和行为空间马

2、氏决策问题的增强学习方法研究方面,首次将时域差值学习的RLS.TD(L)算法与自适应启发评价(AdaptiveHeuristicCritic:AHC)学习算法结合,提出了一种快速AHC学(Fast.AHC)算法。该算法通过在评价器(Critic)阿络中采用RLS.TD(L)学习算法,在提高学习预测效率的同时,改进了闭环学习系统的学习控制性能。以倒立摆学习控制和Acrobot摇起控制问题为研究对象的仿真对比分析表明,快速AHC学习算法能够获得优于AHC算法的性能。5.首次提出了将进化算法与基于神经网络值函数逼近的梯度下降增强学习算法结合的进化.梯度混

3、合增强学习算法,通过进化算法进行神经网络权值的大范围全局搜索,利用梯度增强学习算法实现权值的局部搜索,从而有效地实现了对马氏决策过程最优值函数和最优策略的全局逼近。分别针对离散行为空间和连续行为空间马氏决策问题的情形,提出了EARG算法和E.AHC两种进化一梯度混合学习算法。上述算法克服了基于神经网络值函数逼近的增强学习梯度算法存在的局部收敛性问题和学习因子优化选择的困难,同时由于采用了值函数逼近的机制,具有良好的学习效率。6.首次提出了一种基于增强学习的自适应PID控制器设计方法,并应用于移动机器人路径跟踪控制器的优化设计中。该控制器利用神经网络

4、增强学习来实现对PID控制增益的自适应整定,在利用了常规PID控制器的鲁棒性的同时,实现了控制器参数的在线自学习和优化。针对自动驾驶汽车的侧向控制对上述控制器进行了仿真研究,并且基于CIT—AVT—VI室内移动机器人系统进行了实时在线增强学习路径跟踪控制的实验研究,仿真和实验结果验证了本文提出方法的有效性。7.针对未知环境中的移动机器人导航问题,提出了结合反应式(Reactive)导航和在线局部路径规划的分层学习混合体系结构,并提出基于增强学习的反应式导航控制器设计和优化方法。该方法克服了基于监督学习的导航控制方法在不确定环境中获取教师信号的困难,

5、并能够实现导航系统的自编程(Self-Programming)和对未知环境的自适应。在CIT·AVT—VI移动机器人的仿真和物理系统实验平台上对提出的学习导航方法进行了室内未知环境中的超声导航实验研究。仿真和实验结果验证了本文方法能够有效地实现未知环境中移动机器人导航控制器的自编程和自适应,并且具有良好的学习效率和泛化性能。在本文最后一章对今后进一步的研究方向进行了分析和展望。l韭—一关键词:增强学习;经丽爵疆娩翼吞、、’~一——.———·———-..●,/、J哆蹉移动机器人导蛳泛蜘器学砂‰⋯决策过程客题寥第1I页国防科学技术人学研究生院学位论文A

6、bstractInrecentyears,reinforcementlearninghasbecomeoneofthekeyresearchareasinartificialintelligenceandmachinelearningandithasattractedmanyresearchersinotherfieldsincludingoperationsresearch,controltheoryandrobotics.Reinforcementlearningisdifferentfromsupervisedlearninginthatno

7、teachersignalsareneededandareinforcementlearningsystemlearnsbyinteractingwiththeenvironmenttomaximizetheevaluativefeedbackfromtheenvironment.Thus,reinforcementlearningmethodshavewideapplicationareasinsolvingcomplexoptimizationanddecisionproblems,whereteachersignalsabehardtobeo

8、btmned.Sincemobilerobotswillbewidelyappliedinindustry,transpo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。