强化学习基本知识

ID：12693061

大小：179.57 KB

页数：7页

时间：2018-07-18

资源描述：

《强化学习基本知识》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、强化学习基础知识作为人工智能领域、机器学习(MachineLearnig)热点研究内容之一的强化学习(ReinforcementLearning,RL)，旨在通过在无外界“教师”参与的情况下，智能体(Agent)自身通过不断地与环境交互、试错，根据反馈评价信号调整动作，得到最优的策略以适应环境。一、Markov决策过程（MDP）强化学习的来源是马尔科夫决策过程：M=Markov性的意思是x取x(1),x(2),x(3)...x(n)所得到x(n+m)的分布与x只取x(n)所得到的x(n+m)

2、的分布相同，既是说未来状态的分布只与当前状态有关，而与过去状态无关。（无后效性）若转移概率函数P（s,a,s’）和回报函数r(s,a,s’)与决策时间t无关，即不随时间t的变化而变化，则MDP称为平稳MDP。当前状态s所选取的动作是由策略h决定：S*A[0,1]A=(s)在状态s下用策略所选取的动作。动作后的结果是由值函数以评估，它是由Bellman公式得到。（折扣因子）值函数动作—状态值函数对于确定性策略，有；——一个状态转移概率对于不确定性策略，有——多个状态转移概率强化学习的最终目的是找到最优策略，选择

3、值函数最大的动作。最优值函数或者最优动作—状态值函数或者兼而有之为了避免局部最优需要进行随机探索，为了逼近既定目标需要抽取最优策略，所以算法中存在一个探索与利用的平衡。达到平衡有两种方法：策略和Boltzmann分布方法（平衡离散域）对于电磁微阀控制s——当前四个微阀状态a——操作四个微阀的动作，0为关闭，1为开启s’——动作后微阀的新状态P(s,a,s’)——状态s调控微阀使其达到新状态s’的概率——在调控后这个状态的累计奖赏值——本次动作的立即奖赏值，根据各点温度及标准差的计算评估得到(s,a)——调节微

4、阀的各种策略二、基于模型的动态规划算法动态规划是一个多阶段的决策问题,在最优决策问题中，常规动态规划算法主要分为下面四类：第一类是线性规划法，根据Bellman方程将值函数的求取转化为一个线性规划问题；线性规划方程包含

5、S

6、个变量，

7、S

8、*

9、A

10、个不等式约束，其计算复杂度为多项式时间。第二类是策略迭代，仍然是基于Bellman最优方程的算法，通过策略评估与策略迭代的交替进行来求取最优策略；策略迭代分为策略评估和策略改进两部分：在评估部分，对于一个给定的策略，根据Bellman公式求解和。对于评估部分，用贪婪策

11、略得到改进的策略第三类是值函数迭代法，其本质为有限时段的动态规划算法在无限时段上的推广，是一种逐次逼近算法；将Bellman公式改写为,就可跳过策略改进步骤，直接用迭代法逼近最优值函数V*,从而求取最优策略*第四类是广义策略迭代法，综合了策略迭代和值迭代方法特点。广义策略评估是策略评估与策略改进相结合的学习过程。策略评估总是试图让策略和相应的值函数一致，而策略改进总是破坏策略评估得到的一致性。最终策略和值函数都不再变化是迭代结束。下图在两个维度上（两条线表示）描述了广义策略迭代的逼近过程，学习的最终目的是获得

12、最优策略，具体的学习过程可以在值函数唯独和策略策略维度上灵活的变化。值函数迭代方法只在值函数维度上工作，而策略迭代方法在值函数维度和策略维度上交叉进行。许多动态规划与强化学习算法的思想都来源于广义策略迭代。V**初始状态——

13、决策1

14、——

15、决策2

16、——.....——

17、决策n

18、——结束状态三、模型未知的强化学习对于求解模型未知的MDP问题，通常有如下3类解决思路：第一类是学习MDP的相关模型，然后用动态规划算法予以求解，此类方法称为间接强化学习；第二类方法不需要估计MDP的模型，直接利用采样对值函数或策略函数进

19、行评估，此类方法成为直接强化学习算法；第三类是前两类方法的混合。1.蒙特卡罗方法蒙特卡洛方法是一种以部分估计整体，利用随机数来解决问题的方法，其通过统计模拟或抽样以获得问题的近似解。该方法只是用于场景中存在终止状态的任务。MC策略评估主要是利用大数定律，以各个状态的回报值的样本平均来估计值函数，最终发现最优策略。得到的回报金额已赋给第一次访问的s，也可以将每次访问到终止状态的回报平均后赋予给s的值函数。鉴于MC策略评估只有在只有在无穷次迭代时才能精确计算，因此有人提出了改进策略，在一幕赋值完成后将用贪婪算法来

20、更新以得到改进策略，这样有利于维持探索与利用的平衡，也提高了的精确度。但是面对着以上方法只利用不探索的缺陷将贪婪策略进行的改进，引入了基于ε-贪婪策略的在线MC控制策略，主要做了两个改动：第一个是将初始策略用ε-贪婪策略来选择；第二个是利用ε-贪婪策略来进行策略更新。即对于每一个，在线策略MC控制算法中，产生样本的行为策略核和进行Q值估计的评估策略是同一策略，而在离线策略学习中两者是独立的，评估策略

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

强化学习基本知识

强化学习基本知识

相关文章

相关标签