资源描述:
《深度强化学习中文综述-计算机学报.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第40卷计算机学报Vol.402017年论文在线出版号No.1CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.1深度强化学习综述+刘全翟建伟章宗长钟珊周倩章鹏徐进1)(苏州大学计算机科学与技术学院江苏苏州215006)2)(软件新技术与产业化协同创新中心南京210000)摘要深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已
2、经取得了实质性的突破.该文首先阐述了3类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.关键词人工智能;深度学习;强化学习;深度强化学习中图法分类号TP18论文引用格式:刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进,深度强化学习综述,2017,Vol.40,在线出版号No.1LIUQuan,Z
3、HAIJian-Wei,ZHANGZong-Zhang,ZHONGShan,ZHOUQian,ZHANGPeng,XUJin,ASurveyonDeepReinforcementLearning,2017,Vol.40,OnlinePublishingNo.1ASurveyonDeepReinforcementLearningLIUQuanZHAIJian-WeiZHANGZong-ZhangZHONGShanZHOUQianZHANGPengXUJin1)(SchoolofComputerScienceandTechnology,SoochowUniversi
4、ty,Suzhou,Jiangsu215006)2)(CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing210000)AbstractDeepreinforcementlearning(DRL)isanewresearchhotspotintheartificialintelligencecommunity.Byusingageneral-purposeform,DRLintegratestheadvantagesoftheperceptionofd
5、eeplearning(DL)andthedecisionmakingofreinforcementlearning(RL),andgainstheoutputcontroldirectlybasedonrawinputsbytheend-to-endlearningprocess.DRLhasmadesubstantialbreakthroughsinavarietyoftasksrequiringbothrichperceptionofhigh-dimensionalrawinputsandpolicycontrolsinceitwasproposed.In
6、thispaper,wesystematicallydescribethreemaincategoriesofDRLmethods.Firstly,wesummarizevalue-basedDRLmethods.Thecoreideabehindthemistoapproximatethevaluefunctionbyusingdeepneuralnetworkswhichhavestrongabilityofperception.Weintroduceanepoch-makingvalue-basedDRLmethodcalledDeepQ-Network(
7、DQN)anditsvariants.Thesevariantsaredividedintotwocategories:improvementsoftrainingalgorithmandimprovementsofmodelarchitecture.ThefirstcategoryincludesDeepDoubleQ-Network(DDQN),DQNbasedonadvantagelearningtechnique,andDDQNwithproportionalprioritization.ThesecondoneincludesDeepRecurrent
8、Q-Network(DR