资源描述:
《基于Q学习算法的移动机器人避障控制策略》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于Q学习算法的移动机器人避障控制策略基丁Q学习算法的移动机器人避障控制策略【摘要】提出基于Q学习算法的移动机器人避障控制策略,能使移动机器人在不确定环境中顺利躲避障碍物,以最佳路径到达最终目标。将BP神经网络结合到Q学习算法中,采用人工势场法来确定强化函数值,并利用Boltzmann分布方法实现随机动作选取。仿真试验结果证明了此种控制策略具有良好的可行性。【关键词】移动机器人;强化学习;Q学习算法;避障1.引言在实际的环境中,机器人的无碰撞路径规划是智能机器人研究的重耍课题之一。ElishaSacks详细地介绍了路径规划的前期研究工作[1]。在障碍空间中,机器人运
2、动规划的高度复杂性使得这一问题至今未能很好的解决。特别对于不确定的动态环境下避障轨迹的生成是较为困难的。本研究应用强化学习算法来实现移动机器人的路径规划。强化学习是机器人通过学习来完成任务,它是将动态规划和监督学习结合起来的一种新的学习方法,通过机器人与环境的试错交互,借助于来自成功和失败经验的奖励和惩罚信号不断改进机器人的自治能力,从而到达最终目标,并容许后评价。在强化学习中,Q学习算法是从有延迟的回报中获取最优控制策略的方法[2]o自从Watkins提出Q学习算法并证明其收敛性后[3],该算法在强化学习研究领域屮受到了人们的普遍关注。Wiliam利用HEDGER
3、算法实现了Q函数值的更新,并把此算法成功地应用在移动机器人上,从而实现了Q学习算法在连续状态和空间的求解问题[4]oTakahashi提出了连续值的Q学习方法,可以用来估计连续的动作值,但此方法只能实现简单的动作,有待于进一步的研究。我们将BP人工神经网络与Q学习算法相结合,采用人工势场法确定强化函数值和Boltzmann分布方法选取动作。利用这种控制策略得到的仿真结果证明,移动机器人能够在不确定环境下,有效地躲避障碍物,沿着最佳路径到达目标。1.强化学习强化学习是一种重要的机器学习方法,同时也是连接主义学习的一种。在与复杂不确定环境交互作用吋,它是决策者寻找最小耗
4、费费用的方法。RL起源于人工智能领域的试凑学习。强化学习不同于监督学习,在监督学习中,对每次输入而言,相应的期望输出是已知的,即学习系统知道它的实际输出与期望输出的差值。然后通过真实输出和参考输出的差值來修改参数。在强化学习中,接收的信号是对一个行为的评价,这个评价可能是正、负或者零。这个信号表示不用告诉系统怎么做,而是系统自己决定做什么。机器人用这个信号决定到达冃标的策略。强化学习算法如下所述:1)在每个离散时间步t,机器人感知到当前状态x(I),2)在这个状态选择可能活动中的一个动作a(t),3)给出一个强化信号,并产生一个新的后继状态x(VI),4)t<-t+
5、l,5)如果信号的状态是最终的状态,那么停止运动,如果不是则返回2)步。若X是机器人可感知到其环境的不同状态的集合,A是一个可执行动作的集合。强化信号r(t)是在状态x(t)选择动作a(t)的结果。强化学习的目标函数是最优控制策略兀:X-A,它在给定当前状态X集合中的x吋,从集合A中输出一个合适的动作a。通常,最优控制策略采用两种方法计算:第一种是策略重复,直接对策略进行操作;笫二种是值重复,寻找最优值函数。这两个方法分别给出了专门的强化学习算法。2.BP神经网络与Q学习算法结合3.1Q学习算法Q学习算法是求解信息不完全马尔可夫决策过程的一种有效的强化学习方法,也可
6、以将其视为一种异步动态规划方法。Q学习算法用Q(x,a)函数來表达在每个状态Z下的每种动作的效果。有限马尔可夫决策问题的模型如下:在每个离散吋间步21,2,…,控制器观察马氏过程的状态为xk,选择决策ak,收到即时冋报rk,并使系统转移到下一个后继状态yk,转移概率为Pxy(a),则控制的冃的是寻求极大化回报期望值的最优控制策略,OWy〈l为折扣因子。给定一个策略兀,定义Q值为:(1)其中:(2)定义,其中兀*表示最优策略,b为在状态y下所对应的动作。Q学习的目的就是在转移概率和所获回报函数耒知的情况下来估计最优策略的Q值。在初始阶段学习中,Q可能是不准确地反映了它
7、们所定义的策略,初始值Q(x,a)对所有的状态和动作假定是给出的。Q学习系统结构不同于AHC(AdaptiveHeuristiccritic)算法的结构,采用Q学习的智能系统只有一个决策单元,同时起到动作的评价及选择作用,这样有利于移动机器人根据外界环境实吋选择和应的动作。3.2Q学习算法的实现Q函数的实现方法主要有两种方式:一种是采用神经网络方法;另一种是采用lookup表格方法。采用lookup表格方法,就是利用表格來表示Q函数,当在环境状态集合下,智能系统可能的动作集合A较大吋,Q(x,a)需要占用大量的内存空间,而且也不具有泛化能力。那么,在一个合理的吋