强化学习算法研究.pdf

强化学习算法研究.pdf

ID:23521690

大小:458.52 KB

页数:7页

时间:2018-11-08

强化学习算法研究.pdf_第1页
强化学习算法研究.pdf_第2页
强化学习算法研究.pdf_第3页
强化学习算法研究.pdf_第4页
强化学习算法研究.pdf_第5页
资源描述:

《强化学习算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第29卷第22期计算机工程与设计2008年11月V01.29No.22ComputerEngineeringandDesignNov.2008强化学习算法研究刘忠1,李海红2,刘全”(1.苏州大学计算机科学与技术学院,江苏苏州215006;2.浙江工业大学信息学院,浙江杭州310014;3.南京大学软件新技术国家重点实验室,江苏南京210093)摘要:针对智能Agent运动中普遍存在的避障问题,结合强化学习具有的试错和环境交互获得在莱状态下选择动作的策略以及无导师在线学习等特性。在介绍强化学习的原理、分类

2、以及主要算法(仞U)、Q_learning、Dy珊,PrioritizedSweeping、Sarsa)的基础上,对∞U)、Q_learning的算法进行分析,并将其应用到实验中。实验结果表明,强化学习中的巾Q)、cLJearning等算法在不同情况下都能高效地解决避障等问题.关键词:强化学习;Q学习:Agent智能体;机器人控制;避障;搜索引擎中图法分类号:TPl8文献标识码:A文章编号:1000-7024(2008)22.5805-05Researchonalgorithmofreinforcementlea

3、rningLIUZhon91,LIHai.hon乎,LIUQuanl’3(1.CollegeofComputerScienceandTechnology,SoochowUniversity,Suzhou215006,China;2.CollegeofInformationEngineering,ZhejiangUniversityofTechnology,Hangzhou310014,China;3.StateKeyLaboratoryforNovelSoftwareTechnology,NanjingUnive

4、rsity,Nanjing210093,China)Abstract:Aimingtosolvetheproblemofpassingtheblockfortheintelligentagents.thetrial-and-error,thepolicythatobtainedafteragentscommunicateiscombinedwiththeenvironineminonestateforchoosingactionsinRLlearningandtheunsupervisedon_linelearn

5、ingfeature.Theprincipittm,partitionandthemainalgorithms(∞m),Q_leaming,Dyna,PrioritizedSweeping,Sarsa)oftheRLisintroducedwiththeanalysisofrD(,1)andQ_learningalgorithm,whichhasbeenappliedintotheexperiment.Theexperimentalresultprovesthatthealgorithmssolvethispro

6、blemefficientlyunderdifferentenvironments.Keywords:reinforcementlearning;Q据aming;agent;robotcontrol;obstacleavoidance;searchengineO引言智能Agent的主要特征之一就是能够适应未知环境,而在这一过程中,主动学习是至关重要的。在机器学习领域,大致可以将学习分为监督学习、非监督学习和强化学习3大类。监督学习,就是对于每一个输入,学习者都被提供一个目标,即环境或者“老师”来告诉学习者,对于每

7、次的输入应该做出如何回应。辨别是何种乐器所发出的声音就是这一学习类型。非监督学习,主要是建立一个模型,用其试着对输入的数据进行解释,并用于下次输入。采用隐马尔科夫模型(HMM)的语音识别系统,就是采用的这一学习类型,HMM通过在训练中记录下每一个语音之后,我们就可以用这些来识别输入的语音了。强化学习作为一种在线的、无导师机器学习方法,把环境的反馈作为输入、通过学习选择能达到其目标的最优动作。自20世纪80年代末以来,由于数学理论上的突破而取得了长足的发展,现在已经是机器学习领域的热点方向。强化学习可被应用于任何涉

8、及采取序列行为的任务,主要集中在有限资源调度、机器人控制、棋类游戏等应用领域。1强化学习1.1基本原理强化学习就是能够感知环境的自治Agent,怎样通过学习来选择能达到其目标的最优动作“’。当Agent在其环境中做每个动作时,环境都会提供一个反馈信号,即奖赏值。强化学习也可看成是从环境到动作的映射学习过程,其目的就是采用的某动作能够从环境中得到最大的累积奖赏值。收稿日期:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。