资源描述:
《深度学习在游戏中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第42卷第5期自动化学报Vol.42,No.52016年5月ACTAAUTOMATICASINICAMay,2016深度学习在游戏中的应用郭潇逍1李程2梅俏竹1;2摘要综述了近年来发展迅速的深度学习技术及其在游戏(或博弈)中的应用.深度学习通过多层神经网络来构建端对端的从输入到输出的非线性映射,相比传统的机器学习模型有显见的优势.最近,深度学习被成功地用于解决强化学习中的策略评估和策略优化的问题,并于多种游戏的人工智能取得了突破性的提高.本文详述了深度学习在常见游戏中的应用.关键词深度学习,博弈,深度强化学习,围棋,人工智能引用格式郭潇逍,李程,梅俏竹
2、.深度学习在游戏中的应用.自动化学报,2016,42(5):676¡684DOI10.16383/j.aas.2016.y000002DeepLearningAppliedtoGames121;2GUOXiao-XiaoLIChengMEIQiao-ZhuAbstractInthisarticle,wepresentasurveyofrecentdeeplearningtechniquesandtheirapplicationstogames.Deeplearningaimstolearnanend-to-end,non-linearmappingfr
3、omtheinputtotheoutputthroughmulti-layerneuralnetworks.Sucharchitecturehasseveralsigni¯cantadvantagesascomparedtotraditionalmachinelearningmodels.Therehasbeena°urryofrecentworkoncombiningdeeplearningandreinforcementlearningtobetterevaluateandoptimizegamepolicies,whichhasledtosign
4、i¯cantimprovementsofarti¯cialintelligenceinmultiplegames.Wesystematicallyreviewtheuseofdeeplearninginwell-knowngames.KeywordsDeeplearning,games,deepreinforcementlearning,Go,arti¯cialintelligenceCitationGuoXiao-Xiao,LiCheng,MeiQiao-Zhu.Deeplearningappliedtogames.ActaAutomaticaSin
5、ica,2016,42(5):676¡6842016年是载入人工智能史册的一年.Alphabet代即已被广泛研究[1¡4],但一直到最近十年,由于训(原Google)旗下的DeepMind公司研发的计算机练算法与计算能力的局限,研究者普遍只能成功地围棋程序AlphaGo成功地打败了近15年来一直被训练两层或者三层的神经网络(卷积神经网络是一认为是世界顶尖棋手的李世石九段.这距IBM的深个例外).更多层的神经网络反而让学习结果变差[5].蓝(DeepBlue)程序击败国际象棋棋王卡斯帕罗夫2006年,多伦多大学的Hinton及其合作者提出了正好二十年,也
6、再一次在学术界和民间掀起了人工深度置信网络(Deepbeliefnetworks,DBN).其使智能的热潮.与深蓝不同的是,AlphaGo的成功极用非监督学习对神经网络的每一层进行分别训练,大程度上归功于其采用了深度学习的算法.本文从从而能够成功地训练具有多层网络结构的限制性玻一个更广的角度来介绍深度学习在博弈中的应用.尔兹曼机(RestrictedBoltzmannmachine)[6].类似的利用非监督学习来分层训练的方法也适用于其他1深度学习(DeepLearning)[7¡8]的深度网络结构.其后,蒙特利尔大学的研究者深入分析了非监督学习对于深
7、层结构的帮助[9]以及深度学习是近年来大放异彩的一种机器学习原始训练方法失败的原因[10],并提出了适用于深层模式.其主要的方法是通过训练多层的神经网络结构的参数初始化方法[10]和激活函数(Activation(Neuralnetworks)以达到更好的学习效果.常见的function)[11].随着训练算法和计算能力瓶颈的突多层网络结构包括多层感知器(Multilayerpercep-tron,MLP)、卷积神经网络(Convolutionalneural破(尤其是对图形处理(Graphicsprocessingunit,network,CNN)和
8、递归神经网络(RecurrentneuralGPU)和高性能计算(High-performan