8_泛化与函数逼近

8_泛化与函数逼近

ID:42168159

大小:4.42 MB

页数:25页

时间:2019-09-09

8_泛化与函数逼近_第1页
8_泛化与函数逼近_第2页
8_泛化与函数逼近_第3页
8_泛化与函数逼近_第4页
8_泛化与函数逼近_第5页
资源描述:

《8_泛化与函数逼近》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、泛化和函数逼近GeneralizationandFunctionApproximation第八章泛化与函数逼近翻译:金海东到目前为止,值函数的估计都是用表格来表示,每个状态或状态-动作对对应到表格中一项。这是一种特别清晰并且有意义的做法,但是这种做法只能用于状态和动作数量不多的任务,原因不仅在于大的表格会占用很多存储空间,还在于精确填满这张表格需要的计算时间和数据。换句话说,关键问题在于泛化(generalization),如何把有限状态子集上的学习经验,泛化到很大的状态子集上并且逼近得很好呢?

2、这是一个非常重要的问题。在用到强化学习的许多任务中,大多数当前遇到的状态,以后可能再也不会遇到。在具有连续变量或者复杂感知的状态动作空间中,这种情况常常会出现。对于这种类型的任务,唯一的学习方法就是将前面经历过的状态,泛化到那些从未经历过的状态。幸运的是,人们已经大量研究过如何根据样例泛化,没有必要发明完全新的方法用于强化学习,只需将现存的泛化方法与强化学习结合起来。这种泛化通常称为函数逼近(functionapproximation),因为它从目标函数(如值函数)提取样本,并试着从样本泛化从而

3、构造出整体的函数逼近。函数逼近是监督学习(supervisedlearning)的手段之一,监督学习是机器学习、人工神经网络、模式识别以及统计学中曲线拟合等领域的研究主题。正如本章所述,从原理上讲,这些领域研究出的任何方法,都可用于强化学习。8.1使用函数逼近的值预测与前面一样,这里也从预测问题着手研究。预测问题是指根据策略生成的经历来估计状态值函数。本章的不同之处在于,时刻逼近的值函数不是表示成一个表格,而是表示成一个带有参数向量的函数。这意味着值函数完全取决于,在不同的时间步,只有改变才会跟

4、着改变。例如,可能是人工神经网络计算的函数,向量表示神经网络连接权重,通过调整权重,任意函数都能由这个网络来实现。或者可能是决策树计算的函数,其参数包含在向量中,这些参数定义了决策树分裂结点和叶子结点的值。通常情况下,参数的数量(即分量的个数)比状态的数量要泛化和函数逼近GeneralizationandFunctionApproximation少得多,并且改变一个参数可以改变很多状态的估计值。因此,单个状态的值被备份,这个变化就会从该状态泛化出去从而影响到很多其他状态的值。本书把所有预测方法都

5、描述为备份,也就是说,更新某个估计值函数,即意味着把该函数特定状态的值转换为这些状态的“备份值”。(译注:此处为update和backup的定义。更新某个函数,为update,更新某个状态,为backup。本章所有backup翻译为“备份”,update翻译为“更新”。)。这里用表示单个备份,其中是被备份的状态,是备份值或者说的估计值要转向的目标。例如,用于值预测的DP备份为,蒙特卡罗备份为,备份为,通用备份为。DP实例中,备份的是任意状态,而其他实例中,备份的是在经历(可能是模拟的经历)中遇到

6、的状态。很自然可以这样理解:每次备份相当于指定了估计值函数的一个输入-输出样例。从某种意义上说,意味着状态的估计值进一步接近。因此,用于实现备份的真正更新已经不重要了:估计值对应的表格项只是简单地向靠拢了一小步。我们可以使用任意复杂且成熟的函数逼近方法实现备份。这些函数逼近方法的常规输入,即是它们试图逼近的函数所期望的输入-输出样例。把每次备份简单地看作训练样例,就能使用基于函数逼近的值预测方法。这样,我们把函数逼近方法产生的近似函数,解释为估计的值函数。以上述方式把每次备份当成常规训练样本,就

7、能使用现存的诸多函数逼近方法进行值预测。从原理上讲,可以使用任何基于样例的监督学习方法,包括人工神经网络、决策树以及各种类型的多元回归。但是并非所有的函数逼近方法都适合在强化学习中使用,大多数高级神经网络和统计学方法都假定存在静态的用于多传递的训练集。在强化学习中,能够实现在线学习非常重要,此时它与环境或者环境模型交互。要做到这一点,要求学习方法能够从增量获得的数据中进行有效学习。此外,强化学习通常要求函数逼近方法能够处理非固定目标函数(即不断改变的目标函数)。例如在GPI控制方法中,我们希望在

8、改变时也能学习到。如果训练样本的目标值是由自举方法计算的(如DP和TD方法),即使策略维持不变,这些目标值也是非固定的。如果一种学习方法处理不好非固定问题,就不太适合用于强化学习。如何测定函数逼近的性能呢,大多数监督学习寻求最小化输入分布上的均误方差(MSE,mean-squarederror)。在值预测问题中,输入是状态,目标函数是精确的值函数,因此,使用参数向量的近似函数的均方误差是:(8.1)泛化和函数逼近GeneralizationandFunctionApproximation其中是表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。