马尔可夫决策过程实例讲解.pdf

ID：20848770

大小：495.93 KB

页数：7页

时间：2018-10-17

资源描述：

《马尔可夫决策过程实例讲解.pdf》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、MachineLearning16—ReinforcementLearning之前我们学过3个部分的内容：监督学习、学习理论、半监督学习。现在我们来学习第四部分：自增强学习。在监督学习中，给定了训练集以及对应的标签y，算法要做的就是令预测输出尽可能地接近y。在这种情况下，算法运行过程中对应的是有正确答案的。但有些时候，在对问题作出决策或者控制时，我们很难提供一个确切的正确答案。比如在四足机器人行走编程中，我们在一开始的时候对才去怎样的行动是“正确的”根本没有概念，我们只知道这是一个足部调节的过程，因此在这里，监督学习算法并不适用。在自增强学习框架中，算法的核心是奖励函数，区分

2、出学习过程中哪些行为是“好”的，哪些行为是“坏”的。对于四足机器人行走问题，当机器人能够向前进时，我们给予积极奖励；当机器人向后退或者跌倒时候，我们给予消极惩罚。这样，有了奖励惩罚机制，在多次训练后，机器人会越走越好。自增强学习成功应用在了无人机飞行、机器人行走、市场决策选择等问题上。为了正式地定义自增强学习，我们先来看马尔科夫决策过程（MarkovDecisionProcess,简写MDP）。MarkovDecisionProcess一个马尔科夫决策过程是一个五元组(S,A,{P},,R)，当然有一些书籍上用四元组表示，sa本意是不变的哈。其中：S表示状态集（states

3、）A表示行为集（actions）,P表示状态转换分布，对于当前状态s和当前采取的动作a，下一个状态s服从P分布（下sasa一个状态出现的概率依赖于前一个状态以及前状态所采取的动作），而且有,,P(s)1,P(s)0sasa。这里隐含的是马尔科夫性质：一个随机过程的未来状态的条件概,s率分布仅仅依赖于当前状态与该状态下的动作，换句话说，在给定现在状态的时候，它与过去状态是条件独立的。在一些资料中将P写成矩阵形式，即状态转换矩阵。sa[0,1)表示的是discountfactor，具体含义稍后解释。R：SxR表示奖励函数。R为实数。有时候R只与状态S有关（更多时候与状

4、态S与行为A都有关），下面的例子就是如此。为了更加具体的表示五元组的含义，我们来说一个MDP相关的具体例子：上图的场景表征的是机器人导航任务，想象一个机器人生活在网格世界中，阴暗单元是一个障碍。假设我希望机器人到达的目的地是右上角的格子（4,3），于是我用+1奖励来关联这个单元；我想让它避免格子（4,2），于是我用-1奖励来关联该单元。现在让我们来看看在该问题中，MDP的五元组是什么：S：机器人可以在11个网格中的任何一个，那么一共有11个状态；集合S对应11个可能到达的位置。A={NSEW}。机器人可以做出的动作有4个：向东向南向西向北。P：假设机器人的行为核心设计并不是那

5、么精准，机器人在受到相关指令后有可能会走偏sa方向或者行走距离不那么精确，为简化分析，建立机器人随机动态模型如下：即命令机器人朝北（朝上）行走，他有0.1的概率朝着左右方向，0.8的概率朝指定方向。当机器人撞到墙上或者要走到不是相邻的格子时，其概率为0.（当然，也有关于Psa的确定性模型，即命令机器人朝北，那么机器人就必然是向北运动的，这是很理想的模型，我们在此不加以研究。）让我们还是用例子来说明：假设上例中机器人状态为（3,1），动作指令为N，则相应的如下：P((3,2))0.8;P((2,1))0.1；(3,1)(3,1)NNP((4,1))0.1P((3,3))

6、；0；...(3,1)(3,1)NNR：奖励函数可以设置为：R((4,3))1R((4,2))1Rs()0.02对于其他状态s设置其他状态的奖励函数为Rs()0.02的做法相当普遍，可以认为这是电池消耗所应有的付出，目的在于提醒机器人不要浪费时间，尽快达到目的地。另外一个需要注意的是，当机器人达到目的地（我们这里是（4,3））后，那么系统应该停止，不再计算下去。让我们来看看MDP的动态处理过程：初始状态s采取的动作是aA，那么下一个状态将会被随机选择（只不过概率不一00样），即sP。在s采取的动作是aA，同样地得到一个新的状态sP，类推。1s00a112s

7、11a流程图如下：我们令状态序列s,s,s的总回报为：012在上面机器人例子中，由于奖励函数R只与状态S有关，则总回报写成：自增强学习算法的目标是使得总回报的期望最大化，即：2max[(s)ERRR(s)(s)]（1）012m在这样的目标函数下，因为[0,1)，越往后权重的值越小，因此采取的行动策略是：积极的奖励尽量在前面（越快出现越好），消极惩罚尽量在后面（越晚出现越好）。相应的，一个策略(policy)函数定义为:SA，即输入为状态S，输出为A，亦即策略()sa告诉我们在状态

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

马尔可夫决策过程实例讲解.pdf

马尔可夫决策过程实例讲解.pdf

相关文章

相关标签