Q-learning强化学习算法改进及其应用研究

Q-learning强化学习算法改进及其应用研究

ID:36824528

大小:6.22 MB

页数:76页

时间:2019-05-16

Q-learning强化学习算法改进及其应用研究_第1页
Q-learning强化学习算法改进及其应用研究_第2页
Q-learning强化学习算法改进及其应用研究_第3页
Q-learning强化学习算法改进及其应用研究_第4页
Q-learning强化学习算法改进及其应用研究_第5页
资源描述:

《Q-learning强化学习算法改进及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要Q_Iearning强化学习算法改进及其应用研究摘要由于强化学习不需要教师信号,能在与环境的交互过程中不断地完善自己的认知技能,因此对于求解复杂的控制与决策问题具有更广泛的应用前景。课题选用强化学习算法中经典的Q.Learning算法,并结合不同的控制对象为实验模型,在已有强化学习算法的基础上加以改进,将Q-learning算法中的状态模糊化。此外结合神经网络,提出了自己的研究模型和见解。将这些改进应用到走迷宫寻优、倒立摆系统控制、中和反应控制及电梯群控器的调度中。主要研究成果包括以下四个方面:1、介绍一级倒立摆系统。提出了基于Q.1earning强化学习算法对

2、倒立摆的控制。由于学习系统仅有4个离散的控制动作,控制精度比较差。鉴于上述缺陷,提出Fuzzy.Q学习实现倒立摆控制,使得控制器的输出为连续信号,有效的提高了控制精度。2、将Q学习和多步Q学习的算法应用到走迷宫路径寻优中,并对Q学习算法的参数进行比较分析。3、以中和反应控制为例,将强化学习算法渗透到生物、化学工业学科领域中。为该领域的发展提出一个新的研究方向。4、首先,阐述电梯群组调度基本概念。总结现有的电梯群组调度方法。其次,将神经网络与Q学习算法结合应用到电梯群组调度问题。北京化工人学硕仁学位论文关键词:强化学习算法,走迷宫寻优,倒立摆系统,中和反应控制,电梯群

3、控器的调度IIAbstractIMPRoVEMENTANDAPPLICATIoNSFORQ—LEARNINGREINFORCEMENTLEARNINGALGoRITHMSABSTRACTBecausereinforcementlearningdoesnotteachersignalandkeepsimprovingitscognitiveskillthroughtheinteractionwithenvironment,itismoreperspectiveforsolvingcomplicateoptimalanddecision—makingproblems.T

4、hepaperchooseclassicQ—Learninginreinforcementlearningalgorithmandcombinesdifferentcontrolobjectivesasexperimentmodeltoimproveexistedreinforcementlearningalgorithm.MakestatesinQ—learningalgorithmfuzzy.Moreover,combinedwithneuralnetwork,newunderstandingandstudymodelarebroughtout,whichare

5、appliedintheexamplesofpuzzle,invertedpendulumsystem,neutralizationreactioncontrolandtheelevatorgroupcontrolsystem.Themainresearchresultsisasfellows:Thefirstpartintroduceslinear1-stageinvertedpendulumandputsforwardthatthecontrolstrategyofQ—learningalgorithmfortheinvertedpendulum.Theaccu

6、racyofthecontrolisworse,sincethelearningsystemhasonlyfourdiscretecontrolaction.Duetoaboveshortcomings,fuzzyIII北京化T大学硕一l:学位论文reinforcementlearningalgorithmisadoptedthatmakeoutputsofcontrollercontinuoustoenhanceaccuracyThesecondpartisthatcombinationQ·-learningandmulti-·stepsQ—leamingalgo

7、rithmisappliedinsearchoftheoptimalpuzzlepath,andanalyzingandcomparingtheirparameters.Thethirdpartisthatapplicationofreinforcementlearningalgorithminneutralisationprocessescontrolisanexample,andreinforcementlearningalgorithmpenetratesintobiologyandchemicalfieldthatofferanewstudydirect

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。