欢迎来到天天文库
浏览记录
ID:62128152
大小:714.50 KB
页数:110页
时间:2021-04-17
《最新强化学习(1)教学讲义ppt.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、强化学习(1)目录引言强化学习发展史强化学习简介强化学习算法强化学习应用未来展望引言在连接主义学习中,在学习的方式有三种:非监督学习(unsupervisedlearning)、监督学习(supervisedleaning)和强化学习。监督学习也称为有导师的学习,需要外界存在一个“教师”对给定输入提供应有的输出结果,学习的目的是减少系统产生的实际输出和预期输出之间的误差,所产生的误差反馈给系统来指导学习。非监督学习也称为无导师的学习。它是指系统不存在外部教师指导的情形下构建其内部表征。学习完全是开环的。强化学习的研究发展史可分为两个阶段。第一阶段是50年代至60年代,为
2、强化学习的形成阶段。1954年,Minsky在他的博士论文中实现了计算上的试错学习,并首次提出“强化学习”术语。最有影响的是他的论文“通往人工智能的阶梯”(Minsky,1961),这篇文章讨论了有关强化学习的几个问题,其中包括他称为信誉分配的问题:怎样在许多的、与产生成功结果有关的各个决策中分配信誉。后来,Farley和Clark的兴趣从试错学习转向泛化和模式识别,也就是从强化学习转向监督学习,这引起了几种学习方法之间的关系混乱。由于这些混乱原因,使得真正的试错学习在二十世纪六、七十年代研究得很少。第二阶段是强化学习的发展阶段。直到上世纪八十年代末、九十年代初强化学习
3、技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。强化学习的发展历程1956Bellman提出了动态规划方法1977Werbos提出自适应动态规划方法1988Sutton提出了TD算法1992Watkins提出了Q学习算法1994Rummery等提出了SARSA学习算法1996Bertsekas等提出了解决随机过程优化控制的神经动态规划方法1999Thrun提出了部分可观测马尔科夫决策过程中的蒙特卡罗方法2006Kocsis等提出了置信上限树算法2009Lewis等提出了反馈控制自适应动态规划算法2014Silver等
4、提出确定性策略梯度算法国内发展现状强化学习在国内处于发展阶段,并取得一定成绩。杨璐采用强化学习中的TD算法对经济领域的问题进行预测;蒋国飞将Q学习应用在倒立摆控制系统,并通过对连续空间的离散化,证明了在满足一定条件下的Q学习的收敛性;张健沛等对连续动作的强化学习方法进行了研究,并将其应用到机器人避障行为中……。随着强化学习的数学基础研究取得突破性进展后对强化学习的研究和应用成为目前机器学习领域的研究热点之一。主要内容包括:1)连续状态和连续动作问题;2)与遗传算法与神经网络的结合;3)不完全感知问题;4)强化学习算法的规划规则抽取和偏差。工作原理强化学习是一种在线的、无
5、导师机器学习方法。在强化学习中,我们设计算法来把外界环境转化为最大化奖励量的方式的动作。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。强化学习与其他机器学习任务(例如监督学习)的显著区别在于,首先没有预先给出训练数据,而是要通过与环境的交互来产生,其次在环境中执行一个动作后,没有关于这个动作好坏的标记,而只有在交互一段时间后,才能得知累积奖赏从而推断之前动作的好坏。例如,在下棋时,机器没有被告知每一步落棋的决策是好是坏,直到许多次决策分出胜负后
6、,才收到了总体的反馈,并从最终的胜负来学习,以提升自己的胜率。学习者必须尝试各种动作,并且渐渐趋近于那些表现最好的动作,以达到目标。尝试各种动作即为试错,也称为探索,趋近于好的动作即为强化,也称为利用。探索与利用之间的平衡,是强化学习的一个挑战。探索多了,有可能找到差的动作,探索少了,有可能错过好的动作。总体趋势:探索变少,利用变多。举例1如果通过几次尝试,走位置1比走位置2赢棋的可能大,得出经验,则为强化学习。举例2一个机器人在面临:进入一个新房间去寻找更多垃圾、寻找一条回去充电的路两个命令选择时根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验
7、。举例3一个进行石油提炼操作的搅拌控制器。该控制器逐步优化产量/成本/质量之间的平衡而不是严格按照工程师的最初设置来搅拌。这些例子中,随时间推移,学习者利用它获得的经验不断提高自己的性能。简言之,强化学习就是试出来的经验。它们都涉及一个积极作决策的Agent和它所处的环境之间的交互,尽管环境是不确定的,但是Agent试着寻找并实现目标。Agent的动作允许影响环境的未来状态(如下一个棋子的位置,机器人的下一位置等),进而影响Agent以后可利用的选项和机会。强化学习模型定义Agent(学习的主体,如小猫、小狗、人、机器人、控制程序等)其中
此文档下载收益归作者所有