欢迎来到天天文库
浏览记录
ID:33820599
大小:338.50 KB
页数:26页
时间:2019-03-01
《随机分析对人民币汇率走势的预测2014》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第13章 增强学习增强学习要解决的是这样的问题:一个能够感知环境的自治agent,怎样学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人、在工厂中学习进行最优操作工序、以及学习棋类对弈等。当agent在其环境中作出每个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。例如,在训练agent进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候为零回报。Agent的任务就是从这个非直接的、有延迟的回报中学习,以便后续的动作产生最大的累积回报。
2、本章着重介绍一个称为Q学习的算法,它可从有延迟的回报中获取最优控制策略,即使agent没有有关其动作会对环境产生怎样的效果的先验知识。增强学习与动态规划(dynamicprogramming)算法有关,后者常被用于解决最优化问题。13.1介绍考虑建造一个可学习机器人。该机器人(或agent)有一些传感器可以观察其环境的状态(state)并能做出一组动作(action)已改变这些状态。例如,移动机器人具有镜头和声纳等传感器,并可以做出“直走”和“转弯”等动作。学习的任务是获得一个控制策略(policy),以选
3、择能达到目的的行为。例如,此机器人的任务是在其电池电量转低时找到充电器进行充电。本章关心的就是:这样的agent怎样在其环境中做实验并成功地学习到控制策略。这里假定agent的目标可被定义为一个回报(reward)函数,它对agent从不同的状态中选取不同的动作赋予一个数字值,即立即清算(immediatepayoff)。例如:寻找电池充电器的目标可用这样的回报函数指定:对那些能够连接到充电器的状态-动作转换赋予正回报(如+100),对其他的状态动作转换赋予0回报。这个回报函数可内嵌在机器人中;或者只有一个
4、外部施教者知道,由它对机器人的每个动作给出回报值。机器人的任务是执行一系列动作,观察其后果,再学习控制策略。我们希望的控制策略是能够从任何初始状态选择恰当的动作,使agent随时间的累积的回报达到最大。这个机器人学习问题的一般框架在图13-1中概要列出。插图——原书页码:368Agent:AgentState:状态Reward:回报Action:动作Environment:环境Goal:Learntochooseactionsthatmaximize:目标:学习选择动作使下式最大化where:其中图13-1
5、一个与环境交互的agent此agent生存的环境被描述为某可能的状态集合S。它可执行任意的可能动作集合A。每次在某状态st下执行一动作at,此agent会收到一个实值回报rt,它表示此状态-动作转换的立即值。如此产生了一系列的状态si,动作ai和立即回报ri的集合,如图所示。Agent的任务是学习一个控制策略π:S→A,它使这些回报的和的期望值最大化,其中后面的汇报值随着他们的延迟指数减小。图13-1中可清楚地看到,学习控制策略以使累积回报最大化这个问题非常普遍,它覆盖了机器人学习任务以外的许多问题。一般地
6、,此问题是一个通过学习来控制序列过程的问题。例如生产优化问题,其中要选择一系列的生产动作,而使生产出的货物减去其成本达到最大化。再如一些序列调度问题,像在一个大城市中选择出租车运载乘客,其中回报函数为乘客等待的时间和出租车队的整体油耗。一般来说,我们感兴趣的问题类型是:一个agent需要通过学习和选择动作来改变环境状态,而其中使用了一个累积回报函数来定义任意动作序列的质量。在此类问题中。我们考虑几种特殊的框架:包括动作是否具有确定性的输出;agent是否有其动作对环境的效果的先验知识。在本书前面,我们已经接
7、触到了通过学习来控制序列过程的问题。在第11.4节中。我们讨论了用基于解释的方法学习规则,以控制问题解决中的搜索。在其中agent的目的是在搜索其目标状态时的每一步从可选动作中做出抉择。本章讨论的技术不同于11.4节,因为这里考虑的问题中行为可能有非确定性的输出,而且学习器缺少描述其行为输出的领域理论。在第1章,我们讨论了在西洋双陆棋对弈中的学习问题。其中概述的学习方法非常类似于本章的学习方法。实际上本章的增强学习算法的一个最成功的应用就是类似的博弈问题。Tesauro(1995)描述的TD-Gammon程
8、序,它使用增强学习成为了世界级的西洋双陆棋选手。这个程序经过了150万个自生成的对弈训练后,已近似达到了人类最好选手的水平,并且在国际西洋双陆棋联赛中与顶尖棋手对弈取得了良好的成绩。学习控制策略以选择动作的问题在某种程度上类似于其他章讨论过的函数逼近问题。这里待学习的目标函数为控制策略π:S→A。它在给定当前状态S集合中的s时,从集合A中输出一个合适的动作a。然而,增强学习问题与其他的函数逼近问题有几个重要不同:
此文档下载收益归作者所有