马尔可夫决策过程实例讲解.pdf

马尔可夫决策过程实例讲解.pdf

ID:20848770

大小:495.93 KB

页数:7页

时间:2018-10-17

马尔可夫决策过程实例讲解.pdf_第1页
马尔可夫决策过程实例讲解.pdf_第2页
马尔可夫决策过程实例讲解.pdf_第3页
马尔可夫决策过程实例讲解.pdf_第4页
马尔可夫决策过程实例讲解.pdf_第5页
资源描述:

《马尔可夫决策过程实例讲解.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、MachineLearning16—ReinforcementLearning之前我们学过3个部分的内容:监督学习、学习理论、半监督学习。现在我们来学习第四部分:自增强学习。在监督学习中,给定了训练集以及对应的标签y,算法要做的就是令预测输出尽可能地接近y。在这种情况下,算法运行过程中对应的是有正确答案的。但有些时候,在对问题作出决策或者控制时,我们很难提供一个确切的正确答案。比如在四足机器人行走编程中,我们在一开始的时候对才去怎样的行动是“正确的”根本没有概念,我们只知道这是一个足部调节的过程,因此在这里,监督学习算法并不适用。在自增强学习框架中,算法的核心是奖励函数,区分

2、出学习过程中哪些行为是“好”的,哪些行为是“坏”的。对于四足机器人行走问题,当机器人能够向前进时,我们给予积极奖励;当机器人向后退或者跌倒时候,我们给予消极惩罚。这样,有了奖励惩罚机制,在多次训练后,机器人会越走越好。自增强学习成功应用在了无人机飞行、机器人行走、市场决策选择等问题上。为了正式地定义自增强学习,我们先来看马尔科夫决策过程(MarkovDecisionProcess,简写MDP)。MarkovDecisionProcess一个马尔科夫决策过程是一个五元组(S,A,{P},,R),当然有一些书籍上用四元组表示,sa本意是不变的哈。其中:S表示状态集(states

3、)A表示行为集(actions),P表示状态转换分布,对于当前状态s和当前采取的动作a,下一个状态s服从P分布(下sasa一个状态出现的概率依赖于前一个状态以及前状态所采取的动作),而且有,,P(s)1,P(s)0sasa。这里隐含的是马尔科夫性质:一个随机过程的未来状态的条件概,s率分布仅仅依赖于当前状态与该状态下的动作,换句话说,在给定现在状态的时候,它与过去状态是条件独立的。在一些资料中将P写成矩阵形式,即状态转换矩阵。sa[0,1)表示的是discountfactor,具体含义稍后解释。R:SxR表示奖励函数。R为实数。有时候R只与状态S有关(更多时候与状

4、态S与行为A都有关),下面的例子就是如此。为了更加具体的表示五元组的含义,我们来说一个MDP相关的具体例子:上图的场景表征的是机器人导航任务,想象一个机器人生活在网格世界中,阴暗单元是一个障碍。假设我希望机器人到达的目的地是右上角的格子(4,3),于是我用+1奖励来关联这个单元;我想让它避免格子(4,2),于是我用-1奖励来关联该单元。现在让我们来看看在该问题中,MDP的五元组是什么:S:机器人可以在11个网格中的任何一个,那么一共有11个状态;集合S对应11个可能到达的位置。A={NSEW}。机器人可以做出的动作有4个:向东向南向西向北。P:假设机器人的行为核心设计并不是那

5、么精准,机器人在受到相关指令后有可能会走偏sa方向或者行走距离不那么精确,为简化分析,建立机器人随机动态模型如下:即命令机器人朝北(朝上)行走,他有0.1的概率朝着左右方向,0.8的概率朝指定方向。当机器人撞到墙上或者要走到不是相邻的格子时,其概率为0.(当然,也有关于Psa的确定性模型,即命令机器人朝北,那么机器人就必然是向北运动的,这是很理想的模型,我们在此不加以研究。)让我们还是用例子来说明:假设上例中机器人状态为(3,1),动作指令为N,则相应的如下:P((3,2))0.8;P((2,1))0.1;(3,1)(3,1)NNP((4,1))0.1P((3,3))

6、;0;...(3,1)(3,1)NNR:奖励函数可以设置为:R((4,3))1R((4,2))1Rs()0.02对于其他状态s设置其他状态的奖励函数为Rs()0.02的做法相当普遍,可以认为这是电池消耗所应有的付出,目的在于提醒机器人不要浪费时间,尽快达到目的地。另外一个需要注意的是,当机器人达到目的地(我们这里是(4,3))后,那么系统应该停止,不再计算下去。让我们来看看MDP的动态处理过程:初始状态s采取的动作是aA,那么下一个状态将会被随机选择(只不过概率不一00样),即sP。在s采取的动作是aA,同样地得到一个新的状态sP,类推。1s00a112s

7、11a流程图如下:我们令状态序列s,s,s的总回报为:012在上面机器人例子中,由于奖励函数R只与状态S有关,则总回报写成:自增强学习算法的目标是使得总回报的期望最大化,即:2max[(s)ERRR(s)(s)](1)012m在这样的目标函数下,因为[0,1),越往后权重的值越小,因此采取的行动策略是:积极的奖励尽量在前面(越快出现越好),消极惩罚尽量在后面(越晚出现越好)。相应的,一个策略(policy)函数定义为:SA,即输入为状态S,输出为A,亦即策略()sa告诉我们在状态

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。