DeepMind团队游戏新突破,AI和人类进行组队.doc

DeepMind团队游戏新突破,AI和人类进行组队.doc

ID:27507556

大小:4.25 MB

页数:11页

时间:2018-12-04

DeepMind团队游戏新突破,AI和人类进行组队.doc_第1页
DeepMind团队游戏新突破,AI和人类进行组队.doc_第2页
DeepMind团队游戏新突破,AI和人类进行组队.doc_第3页
DeepMind团队游戏新突破,AI和人类进行组队.doc_第4页
DeepMind团队游戏新突破,AI和人类进行组队.doc_第5页
资源描述:

《DeepMind团队游戏新突破,AI和人类进行组队.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、DeepMind团队游戏新突破,AI和人类进行组队  我们还时常感叹两年前AlphaGo的一举成名,今天DeepMind的另一个游戏项目获得新的突破。不仅和人类进行一对一作战,还可以进行团队作战,与人类进行组队。  DeepMind在周二发表推文“我们最新的工作演示了如何在一个复杂的第一人称多人游戏中实现多人游戏的性能,甚至可以与人类队友进行合作!”DeepMind开发了创新和强化学习技术,是人工智能系统在夺旗游戏中达到人类的水平,不仅各个人工智能独立行动,同时学会配合,进行团队战。DeepMind表示这项工作凸显了多智能体培训对促进人工智能发展的潜力。

2、不得不说,在看完模拟游戏的视频确实觉得挺有意思的,今天人工智能头条就为大家介绍这个首款具有“团队精神”的智能代理。  ▌背景  QuakeIIIArenaCapturetheFlag——QuakeIIIArena中文名称:雷神之锤III竞技场,是1999年在PC上推出的一款FPS(第一人称射击类游戏)大作。Capturetheflag简称CTF,CTF在Quake3里分成蓝红两边在通常是一个对称的(也有不对称的)地图中竞赛。  竞赛的目的是将对方的旗子带回来,并且碰触未被移动过的我方旗子,我队就得一分,称作一个capture。一般会设定两个要素,得分的极

3、限以及时间极限,先到达分数极限的队伍获胜,若是两队势均力敌而难以得分,则通常会由时间的设定来结束一个游戏(match)。在夺旗模式中,杀死对手得1分,自己非正常死亡扣1分,夺取对方旗子得3分,杀死夺旗者得2分,重新拿到己方旗子得1分,成功夺取一次旗子(将旗子送回己方基地中)得5分。  ▌前言  掌握多人视频游戏中涉及的策略,战术理解和团队配合一直是AI研究的关键性挑战。如今,随着强化学习的不断发展,DeepMind提出的的智能代理能够在雷神之锤III竞技场夺旗游戏(QuakeIIIArenaCapturetheFlag)中实现人类玩家的水平。  该游戏涉

4、及复杂的多智能体环境,也是一个典型的3D第一人称视角的多人游戏。DeepMind提出的智能代理展示了与人工智能体及人类玩家合作的能力。  下面我们将解读DeppMind最新的这篇博文,进一步了解这个AI智能体背后的技术及其在游戏中的表现。  所谓的多智能体学习的设置:指的是多个单智能体必须独立行动,并学会与其他智能体进行互动与合作。通过共适适应智能体,世界在不断变化,因而这是一个非常困难的问题。  我们的智能代理面临的挑战是直接从原始像素中进行学习并产生动作,这种复杂性使得第一人称视角的多人游戏,成为AI社区的一个硕果累累且活跃的研究领域。  在这项工作

5、中,我们关注的游戏是QuakeIIIArena(雷神之锤III竞技场,我们从美学的角度对游戏进行部分修改,但所有游戏机制都保持不变。)QuakeIIIArena是现代许多第一人称视频游戏的基础,并吸引了具备长期竞争力的电子竞技场景。  我们训练了一些能够单独学习并采取行动的智能代理,但它们必须要能够在游戏中共同协作,以便抵御其他智能体(不论是人工智能体还是人类游戏玩家)的攻击。  在这里CTF的规则很简单,但其具有复杂的动态性。两队的游戏玩家要在给定的地图上竞争,目标是在保护己方旗帜不被夺走的同时,夺取对方的旗帜。为了获得战术优势,玩家可以射击对方战队的

6、玩家,并将它们送回复活点(spawnpoint)。游戏时长为五分钟,最终拥有旗帜最多的队伍将获胜。  从多智能代理的角度来看,CTF既要求玩家们能与己方队友妥善合作,又要与敌方玩家相互竞争,同时还要灵活应变可能遇到的游戏风格的转变。  为了让这件事情更有意思,在这项工作中我们考虑CTF游戏的一种变体,其中每场游戏中的地图布局都会发生变化。因此,我们的智能代理必须要学会一种通用的策略,而非记住某种游戏地图的布局。此外,为了保证游戏竞争环境的公平,我们的智能体需要以与人类玩家类似的方式体验CTF游戏世界:即通过观察图像的像素流,模拟游戏控制器并采取相应的行动

7、。    ▌FTW智能体  夺旗游戏是在程序生成的不同环境中进行的,因此智能体必须能够泛化到未知的地图。智能体必须从零开始学习如何在未知的环境中进行观察,行动,合作及竞争,每场游戏都是一个单独的强化信号:他们的团队是否获得胜利。这是一个具有挑战性的学习问题,其解决方案主要基于强化学习的三个基本概念:  我们不是训练一个单独的智能体,而是训练一群的智能体。他们互相学习,合作,甚至竞争,彼此成为队友或对手,以便适应多样化的游戏方式。  智能体们都需要各自学习自身内部的奖励信号,这将促使智能体能够生成自身内部的目标,如夺取一面旗帜。双重优化过程(two-tie

8、r)可直接优化智能体内部的获胜奖励,并基于内部奖励,运用强化学习方法来进一步地学

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。