欢迎来到天天文库
浏览记录
ID:51412764
大小:2.41 MB
页数:5页
时间:2020-03-23
《两轮机器人自平衡稳定性控制仿真研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第33卷第7期计算机仿真2016年7月文章编号:1006—9348(2016)07—0383—05两轮机器人自平衡稳定性控制仿真研究闰娟,杨慧斌,程武山(上海工程技术大学机械工程学院,上海201620)摘要:两轮机器人自平衡控制的难点在于提高机器人达到平衡的快速性和稳定性的能力。为解决传统强化学习算法收敛速度慢,系统易发散的问题,提出一种分层强化学习算法。将目标任务分解为若干个子任务,为每个子任务寻找最优策略,当所有的子目标都收敛到最优值时,目标任务也收敛到最优。在上述算法中,报酬函数可以从启发式的环境中学习,
2、加快对未知环境的探索。快速达到自平衡并保持稳定。对两轮机器人进行自平衡仿真实验。仿真结果表明,相对于传统的强化学习算法,应用改进算法的两轮机器人的各控制状态的收敛特性及机器人的学习性能更强,有效的提高了机器人系统的稳定性控制性能。关键词:两轮机器人;平衡控制;分层强化学习中圈分类号:TP242文献标识码:BSimulationResearchonSelfBalancingStabilityControlofTwo一1Ivheeledl№botYANJuan,YANGHui—bin,CHENGWu—shan(Co
3、UegeofMechanicalEngineering,sh锄g}laiUniversityofEngineeringScience,Shanghai201620,China)ABSTRACT:Thedifficultyofselfbalancingcontroloftwowheeledrobotistoimprovetheabilityoftherobottoa-chievethebalancerapidlyandstably.Inordertosolvetheproblemsofslowconvergenc
4、espeedanddivergentsystemoftraditionalreinforcementlearningalgorithm,ahierarchicalreinforcementlearningalgorithmW&Sproposedinthepa-per.Thealgorithmdecomposestargettaskintoseveralsubtasksandsearchestheoptimalstrategyforeachtask.Whenallsub-goalsconvergetotheopt
5、imalvalue,thetargettaskalsoconvergestotheoptimal.Inthisalgorithm,thecom-pensafionfunctioncanlearnfromtheenvironmentofheuristic,speeduptheexplorationoftheunknownenvironment,achieveselfbalancequicklyandmaintainstability.Theselfbalancingsimulationexperimentoftw
6、o-wheeledrobotwascarriedoutusingthisalgorithm.Simulationresultsshowthatcomparedwithtraditionalreinforcementlearningal-gorithra.theconvergencepropertiesofeachcontrolstateandthelearningperformanceofthetwo-wheeledrobots8restrongerbyusingthisalgorithm.Stabilityc
7、ontroloftherobotsystemisimproved.KEYWORDS:Two·—wheeledrobot;Balancingcontrol;Hierarchicalreinforcementlearning1引言两轮自平衡机器人是智能机器人发展的一个重要研究课题⋯。与传统机器人相比,这种机器人具有随外部环境变化的自适应能力,以及类似于人脑的自学习能力‘引。两轮机器人的自平衡控制是由其本身与外部环境信息交互的强化学习机销所决定的b1。目前,针对两轮机器人的自平衡研究基金项目:高等学校骨干教师资助计划
8、一高等学校青年骨干教师国内访问学者进修项目(AI一5300—15—020201);上海市高等学校科学技术发展基金一上海市高校实验技术队伍建设计划项目(A2一B一8950-13-0714)收稿日期:2016—03—29修回日期:2016—04—06提出了很多控制方法:例如基于Q一学习H’和反向传播神经网络算法H1的倒立摆控制,这两种方法有高容错性,自适应能力强的特点,但是几乎无法利用先验
此文档下载收益归作者所有