强化学习及其在机器人系统中的应用研究

强化学习及其在机器人系统中的应用研究

ID:36835357

大小:3.91 MB

页数:112页

时间:2019-05-16

强化学习及其在机器人系统中的应用研究_第1页
强化学习及其在机器人系统中的应用研究_第2页
强化学习及其在机器人系统中的应用研究_第3页
强化学习及其在机器人系统中的应用研究_第4页
强化学习及其在机器人系统中的应用研究_第5页
资源描述:

《强化学习及其在机器人系统中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要强化学习(RL:ReinforcementLearning),又称增强学习或再励学习,是一种重要的机器学习方法,是近几年来智能控制和人工智能领域的研究热点之一。在各种学习方法中,强化学习具有较强的在线自适应性和对复杂系统的自学能力,它在与环境的交互中,通过试探式的学习收敛到最优的控制策略,这种学习机制已经在非线性控制、人工智能复杂问题求解、机器人控制、优化与调度以及多agent系统中有成功应用。然而,由于各种系统的复杂性和不确定性的限制,强化学习的研究中还存在一些难以解决的问题。如何结合相关的知识表示和计算智能技术,设计合适的学习算法和控制结构,

2、是实现强化学习方法广泛应用的关键。目前的强化学习研究主要都是针对小规模、离散的状态和动作空间,对于在大规模、连续的状态和动作空间下的学习控制还是亟待解决的难题。本文针对大规模、连续的状态和动作空间下的强化学习理论、算法及应用进行研究,因此具有重要的理论意义和应用价值。本文在收集了国内外相关的文献之后,对其进行充分的分析和综合。在此基础上,对强化学习算法及其在机器人系统中的应用进行了较深入的研究。主要研究工作如下:(1)基于递推最d,-乘法的多步时序差分学习针对强化学习过程收敛速度缓慢的问题,提出了基于递推最d,-乘法的多步时序差分学习(RLS.TD(Z)

3、)算法。证明了在满足一定条件下,该算法的权值将以概率l收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫游戏的仿真实验表明:与传统强化学习算法相比,RLS.功(A)算法实现了在线、递推式的学习,具有计算量小的优点。(2)基于RBF神经网络的强化学习针对基本Actor-Critic学习泛化能力不强的问题,提出了一种基于RBF网络的强化学习算法。证明了该算法在满足一定条件下将以概率l收敛到某矩阵方程的唯一解。该算法通过Actor和Critic共享RBF网络,根据任务复杂度和学习进度进行实时的在线学习。基于该算法,设计了一种具有强化学习机制的

4、自适应广东工业大学博十学位论文PID(AC.Pro)控制器设计方法,该方法可以解决传统PID(T-PID)控制器不易在线实时整定参数的不足。仿真实验表明,该算法具有更好的学习泛化能力。(3)基于探索度的改进型模糊Sarsa学习针对强化学习中探索和利用之间难以平衡的问题,在已有的模糊Sarsa学习(FSL)算法基础上,首次提出了一种基于探索度的改进型模糊Sarsa学习(IFSL)算法,证明了IFSL算法中可调节的权向量存在平衡不动点。该算法通过增加自适应学习率产生器和模糊平衡器来控制探索和利用的程度,以提高学习性能。小车爬山问题的仿真实验结果表明,该算法加

5、快了系统的学习收敛速度,具有更优的学习性能。(4)基于蚁群优化的变学习率模糊Salsa学习针对模糊Sarsa学习中学习因子优化调整的问题,提出了一种基于蚁群优化的变学习率模糊Sarsa学习(ACO.FSL)算法。该算法运用蚁群优化中的信息素水平更新规律来自动调节学习率,把模糊神经网络中模糊推理过程看作是蚂蚁觅食的过程,构造相应的信息素矩阵,从而实现最优策略下行为动作的选择。小车爬山与卡车倒车问题的仿真实验表明:ACO.FSL算法比FSL算法具有更优的学习性能。(5)强化学习在移动机器人路径规划中的应用详细探讨了ACO.FSL算法在移动机器人路径规划中的应

6、用,给出了一种加权回报函数的设计方法,实现了对未知环境状态空间的动态建立,有效克服了移动机器人在路径规划时对全局环境信息或动态障碍物的运动信息的依赖性。仿真实验表明,ACO.FSL算法在学习性能和计算时间方面要优于IFSL算法和FSL算法。最后,对本文进行总结,阐明本研究的创新和主要研究成果,并指明未来进一步研究的问题。关键词:强化学习;移动机器人;最小二乘法;RBF网络;模糊Sarsa学习;路径规划nABSTRACTABSTRACTReinforCememlearningisanimportantmachinelearningmethod,ithasb

7、ecomeon.eofthekeyresearchareasinintelligencecontrolandartificialintelligenceinrecentyears.Invariouslerningmethods,reiⅢ.0rCementlearninghasstrongon-lineadaptabilityandself-learningabilityforcomplexsystem,itconvergestheoptimalpolicythroughinteractingwi也environment,thetechniqueoflea

8、rninghassuccessfullyappliedtononlinearco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。