人工智能:一种基于视觉注意力机制的深度循环Q网络模型

人工智能:一种基于视觉注意力机制的深度循环Q网络模型

ID:5286779

大小:693.80 KB

页数:14页

时间:2017-12-07

人工智能:一种基于视觉注意力机制的深度循环Q网络模型_第1页
人工智能:一种基于视觉注意力机制的深度循环Q网络模型_第2页
人工智能:一种基于视觉注意力机制的深度循环Q网络模型_第3页
人工智能:一种基于视觉注意力机制的深度循环Q网络模型_第4页
人工智能:一种基于视觉注意力机制的深度循环Q网络模型_第5页
资源描述:

《人工智能:一种基于视觉注意力机制的深度循环Q网络模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第40卷第6期计算机学报Vol.40No.62017年6月CHINESEJOURNALOFCOMPUTERSJune2017一种基于视觉注意力机制的深度循环犙网络模型刘全1),2),3)1)1)1),2)1)1)翟建伟钟珊章宗长周倩章鹏1)(苏州大学计算机科学与技术学院江苏苏州215006)2)(软件新技术与产业化协同创新中心南京210000)3)(吉林大学符号计算与知识工程教育部重点实验室长春130012)摘要由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中

2、取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正

3、确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性.关键词深度学习;强化学习;深度强化学习;深度Q学习;循环神经网络;视觉注意力机制;人工智能中图法分类号TP18犇犗犐号10.11897/SP.J.1016.2017.01353犃犇犲犲狆犚犲犮狌狉狉犲狀狋犙犖犲狋狑狅狉犽

4、犅犪狊犲犱狅狀犞犻狊狌犪犾犃狋狋犲狀狋犻狅狀犕犲犮犺犪狀犻狊犿1),2),3)1)1)1),2)LIUQuanZHAIJianWeiZHONGShanZHANGZongZhang1)1)ZHOUQianZHANGPeng1)(犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔,犛狅狅犮犺狅狑犝狀犻狏犲狉狊犻狋狔,犛狌狕犺狅狌,犑犻犪狀犵狊狌215006)2)(犆狅犾犾犪犫狅狉犪狋犻狏犲犐狀狀狅狏犪狋犻狅狀犆犲狀狋犲狉狅犳犖狅狏犲犾犛狅犳狋狑犪狉犲犜犲犮犺狀狅犾狅犵狔犪狀犱犐狀犱狌狊狋狉犻犪犾犻狕犪狋犻狅狀,犖犪狀犼犻狀犵210

5、000)3)(犓犲狔犔犪犫狅狉犪狋狅狉狔狅犳犛狔犿犫狅犾犻犮犆狅犿狆狌狋犪狋犻狅狀犪狀犱犓狀狅狑犾犲犱犵犲犈狀犵犻狀犲犲狉犻狀犵狅犳犕犻狀犻狊狋狉狔狅犳犈犱狌犮犪狋犻狅狀,犑犻犾犻狀犝狀犻狏犲狉狊犻狋狔,犆犺犪狀犵犮犺狌狀130012)犃犫狊狋狉犪犮狋ReinforcementLearning,asasubjectofstudyforovermorethanfiftyyears,investigateshowanautonomousagentcanlearnwhattodotomaximizeanumericalrewardsignalfrominte

6、ractionwiththeworldbybalancingexplorationoftheenvironmentwithexploitationofknowledgegainedviaevaluativefeedback,withoutrelyingonexemplarysupervisionofanomniscientteacherorcompletemodelsoftheenvironment.Deeplearningisacuttingedgeapproachtomachinelearningthatconcernswithusingmult

7、ilayerartificialneuralnetworkstolearnthecomplicatedrepresentationsthatareexpressedintermsofsimplerones.Currently,DeepReinforcementLearningformedbycombiningmodernreinforcementlearningwithdeeplearningisbecominganewresearchhotspot收稿日期:20160417;在线出版日期:20161205.本课题得到国家自然科学基金项目(6

8、1272005,61303108,61373094,61472262,61502323,615

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。