深度强化学习中文综述-计算机学报.pdf

深度强化学习中文综述-计算机学报.pdf

ID:23977497

大小:1.24 MB

页数:28页

时间:2018-11-12

深度强化学习中文综述-计算机学报.pdf_第1页
深度强化学习中文综述-计算机学报.pdf_第2页
深度强化学习中文综述-计算机学报.pdf_第3页
深度强化学习中文综述-计算机学报.pdf_第4页
深度强化学习中文综述-计算机学报.pdf_第5页
资源描述:

《深度强化学习中文综述-计算机学报.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第40卷计算机学报Vol.402017年论文在线出版号No.1CHINESEJOURNALOFCOMPUTERSOnlinePublishingNo.1深度强化学习综述+刘全翟建伟章宗长钟珊周倩章鹏徐进1)(苏州大学计算机科学与技术学院江苏苏州215006)2)(软件新技术与产业化协同创新中心南京210000)摘要深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已

2、经取得了实质性的突破.该文首先阐述了3类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.关键词人工智能;深度学习;强化学习;深度强化学习中图法分类号TP18论文引用格式:刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进,深度强化学习综述,2017,Vol.40,在线出版号No.1LIUQuan,Z

3、HAIJian-Wei,ZHANGZong-Zhang,ZHONGShan,ZHOUQian,ZHANGPeng,XUJin,ASurveyonDeepReinforcementLearning,2017,Vol.40,OnlinePublishingNo.1ASurveyonDeepReinforcementLearningLIUQuanZHAIJian-WeiZHANGZong-ZhangZHONGShanZHOUQianZHANGPengXUJin1)(SchoolofComputerScienceandTechnology,SoochowUniversi

4、ty,Suzhou,Jiangsu215006)2)(CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing210000)AbstractDeepreinforcementlearning(DRL)isanewresearchhotspotintheartificialintelligencecommunity.Byusingageneral-purposeform,DRLintegratestheadvantagesoftheperceptionofd

5、eeplearning(DL)andthedecisionmakingofreinforcementlearning(RL),andgainstheoutputcontroldirectlybasedonrawinputsbytheend-to-endlearningprocess.DRLhasmadesubstantialbreakthroughsinavarietyoftasksrequiringbothrichperceptionofhigh-dimensionalrawinputsandpolicycontrolsinceitwasproposed.In

6、thispaper,wesystematicallydescribethreemaincategoriesofDRLmethods.Firstly,wesummarizevalue-basedDRLmethods.Thecoreideabehindthemistoapproximatethevaluefunctionbyusingdeepneuralnetworkswhichhavestrongabilityofperception.Weintroduceanepoch-makingvalue-basedDRLmethodcalledDeepQ-Network(

7、DQN)anditsvariants.Thesevariantsaredividedintotwocategories:improvementsoftrainingalgorithmandimprovementsofmodelarchitecture.ThefirstcategoryincludesDeepDoubleQ-Network(DDQN),DQNbasedonadvantagelearningtechnique,andDDQNwithproportionalprioritization.ThesecondoneincludesDeepRecurrent

8、Q-Network(DR

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。