强化学习介绍ppt课件.ppt

强化学习介绍ppt课件.ppt

ID:59471194

大小:226.50 KB

页数:30页

时间:2020-09-14

强化学习介绍ppt课件.ppt_第1页
强化学习介绍ppt课件.ppt_第2页
强化学习介绍ppt课件.ppt_第3页
强化学习介绍ppt课件.ppt_第4页
强化学习介绍ppt课件.ppt_第5页
资源描述:

《强化学习介绍ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、强化学习介绍简介一种能够让机器解决科学或经济方面学习问题的设计方案,并通过数学分析或计算实验来评估的方法称为强化学习。从交互中进行,以目标为导向。强化学习介绍学习者不被告知采取哪个动作,而是通过尝试来发现获得最大奖赏的动作。agent必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。强化学习介绍监督学习是从样例中学习,样例是由富有知识的外部监督者提供的。这是一种重要的学习方法,但是它不能单独地用于交互学习。强化学习没有外部指导者,是在交互中,从自身经验中学习。强化学习挑战学习者必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。尝试各种动

2、作即为试错,也称为探索趋近于好的动作即为强化,也称为利用探索与利用之间的平衡,是强化学习的一个挑战。探索多了,有可能找到差的动作,探索少了,有可能错过好的动作。总体趋势:探索变少,利用变多监督学习中根本就不存在探索和利用的平衡问题,样例学习阶段之后,就只有利用了。例子一个机器人决定:1、进入一个新房间去寻找更多垃圾,2、寻找一条回去充电的路。它根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验强化学习关键特征强化学习明确整个问题时一个以目标为导向的agent与不确定环境交互问题例子五子棋:棋手通过数学公式计算,发现位置1比位置2价值大,这是强

3、化学习吗?这不叫强化学习,叫规划如果通过几次尝试,走位置1比走位置2赢棋的可能大,得出经验,则为强化学习例子小牛羚在出生后几分钟内挣扎着站起来。半小时后,每小时能跑几十公里例子一个进行石油提炼操作的搅拌控制器。该控制器逐步优化产量/成本/质量之间的平衡而不是严格按照工程师的最初设置来搅拌。例子走到电梯门口,发现等电梯的人很多选择:1等电梯;2走下去根据经验来选择,是强化学习例子家长一直采用严厉的方法对待子女,从不尝试平和的方式对待子女。或许错过了采取更好动作的机会(如平和的教育方式)。例子这些例子中,随时间推移,学习者利用它获得的经验不断提高自己的性能。简言之,强

4、化学习就是试出来的经验。自主学习分析一下动物自主学习的特点:1、试错:尝试不同的做法(动作)2、强化:有好处多做,没有好处少做3、目标:是动物努力的方向,目标导向动物(学习者)必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。相关定义为便于研究,定义几个概念agent(学习的主体,如小猫、小狗、人、机器人、控制程序等)agent以目标为导向,与不确定的环境之间进行交互,在交互过程中强化好的动作,获得经验。agent特点1、能感知环境的状态2、选择动作(可能会影响环境的状态)3、有一个目标(与环境状态有关的)相关定义agent的目标导向与许多其他学习方

5、法相比,其他方法只考虑了子任务,而没有解决怎样可以把这些子任务整合到一个更大的框架中。而强化学习是以最终目标为导向的,可以把不同的子任务整合到一个大框架中。强化学习的基本要素策略奖赏函数值函数环境模型强化学习的基本要素策略定义了agent在给定时间内的行为方式,一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。可能是一个查找表,也可能是一个函数强化学习的基本要素奖赏函数是强化学习问题中的目标,它把环境中感知到的状态映射为单独的一个奖赏奖赏函数可以是改变策略的基础。强化学习的基本要素值函数:一个状态的值一个agent从那个状态开始到将来预期的累积的奖赏

6、和。在决策和评价决策中考虑最多的是值。强化学习的基本要素环境模型模拟了环境的行为,即给定一个状态和动作,模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。规划是算出来的,强化学习是试出来的。将模型和规划结合到强化学习是一个新进展,也是我们学习研究的重要内容。强化学习介绍本书中所有强化学习方法围绕估计值来组织,但这不是解决强化学习问题所必须的。直接在策略空间中搜索而不利用值函数的方法称为进化方法。适合用在策略空间比较小或者策略空间被构造地很好地情况下。例子:Tic-Tac-Toe初始1→0.52→0.53→0.54→0.5。。。39→0.5当前1→0.5

7、2→0.53→0.5S4→0.5。。。100→1S’。。。39→0.5不断对弈,不断更新估计例子:Tic-Tac-Toe更新贪心走棋之前的状态s:例子:Tic-Tac-Toe强化学习关键特征学习时与环境交互(本例中与对手交互)有一个清晰的目标强化学习历史主要有两条线路一条线路关注试错学习,以动物心理学为起点。(贯穿人工智能早期)另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。强化学习历史最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量一个解决这个问题的方法是使用动态系统中状态和值函数的概念来定义一个函数方程,即贝尔曼方程。用贝

8、尔曼方程来

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。