OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc

OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc

ID:27519051

大小:374.50 KB

页数:10页

时间:2018-12-04

OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc_第1页
OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc_第2页
OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc_第3页
OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc_第4页
OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc_第5页
资源描述:

《OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、OpenAIFive在Dota2国际竞赛TI8中进行首次对战以失败告终  刚刚,OpenAIFive在Dota2最受关注的国际竞赛TI8中进行了首场表演赛,对战职业玩家队伍paiNGame,也是TI8中最先被淘汰的一支队伍,然而却饮恨惜败。双方经过激烈对战,AI在操控速度和团队支援方面远远超过人类,但对于技能的释放和兵线的理解还有很大提升空间。  OpenAIFive,输了。  此前以惊人的速度不断进化,并且成功碾压Dota2准职业玩家后,OpenAIFive剑指TI8,挑战现役职业人类玩家,并于刚刚结束了首场与人类的对战。  51分钟的时

2、间里,OpenAIFive虽然在控制速度和团队支援上远超人类,但金币数量只有一次稍稍领先,说明对英雄技能的释放以及兵线的理解还有待提高。  OpenAIFive在DOTA25V5团队战中战胜Top05%玩家,让好多研究强化学习的人激动了一把,更何况还有比尔·盖茨的那句评价:“这是人工智能发展历史上的一座重大里程碑”。  因此,对于这次在TI8的首场对战,可谓吸足了眼球。  战火一触即发!    第一场演示赛,OpenAIFive对战人类职业玩家队伍paiNGame。    这是Pg的现役队员  虽然pg是18支参赛队伍中最弱的一队(最先被淘

3、汰),但不要忘了,这相当于参加奥运赛短跑决赛中跑得最慢的那一位,也是人类的强中之强啊。  这次对战,OpenAI选择的英雄分别是:潮汐猎人、矮人直升机、水晶室女、死亡先知、巫妖。PG这方则选的是:莱恩、瘟疫法师、巫医、狙击手和斧王。    一上场,OpenAI的兵线就比当时Benchmark赛的时候更加靠前,这是因为从5个信使变成了1个。  根据对战前的预测,大部分投票者还是认为人类会赢(55%)。这或许也是OpenAI团队怀着忐忑心情上场的原因。    实际战况开始双方势均力敌,在地图各处都在开打,难分难解,但开场20分钟后,OpenAI

4、Five就推倒了两座塔,不过双方的伤亡几乎差不多。  几分钟后,OpenAI首次在金币总量上超过了PG一点点,然后逐渐获得优势,23杀vs18,OpenAIFive要领先2k。    如果你以为AI就会这样获胜,那么就想错了!  OpenAI的英雄DP总喜换守在Roahn那里。不朽者Roshan是Dota2中最为强大的中立生物,他是游戏中首个生成的单位,在比赛载入完成后即会出现,并且是唯一随着时间成长的NPC。  OpenAIFive研究人员表示,DP守在Roshan那里,是因为要确认具体位置,这是训练时Roshan随机化的一个副作用,AI

5、控制的英雄不知道Roshan会从哪里出现,因此就喜欢守在那里确认。  至于人类这边,坦白说,斧王一直表现不好,AI虽然在整体执行力、控制技能释放以及保命道具使用上远超人类,但对于游戏的理解、兵线的牵扯以及大招的释放还有待提高。  兵线对于游戏是很重要的,如果是人类这边进行更多带线牵扯,AI可能会提前10分钟被推掉高地。  也很明显能看出来,PG并没有认真去对战。OpenAI这边的C位是飞机,但在买活死亡后且复活时间有100多秒,而人类这边一直在AI的高地下玩,这段时间本是可以推下至少一路高地的。  一直到游戏结束,AI这边人头数量都是超过P

6、G战队的,说明AI团战和支援的速度更强,但是人类这边经济始终没有落后太多并在取得优势的情况下,迅速拉开经济差,说明现役职业玩家在DOTA2的资源分配和对兵线的理解上,仍然是人类的希望。  OpenAIFive训练:从简单的操作中学到专业级的策略  1、OpenAIFIVE是如何工作的?  OpenAIFive是一个由5个人工神经网络组成的队伍,可以把它想象成一个模拟的“大脑”,是专门为学习Dota而设计的。OpenAIFive将世界看作一个包含20000个数字的列表,这些数字对可见的游戏状态(仅限于人类玩家被允许看到的信息)进行编码,并通过

7、发出8个数字的列表来选择一个动作。  OpenAI团队编写的代码在游戏状态/操作和数字列表之间进行映射。一旦经过训练,这些神经网络就是纯粹本能的生物——它们的神经网络实现了记忆,但不会进一步学习。OpenAIFive虽然是一个团队,但并没有设计特殊的沟通、交流结构,只提供他们一种激励(incentive)。  2、OpenAIFive的训练过程  OpenAIFive的神经网络从随机参数开始,使用通用的训练系统Rapid来学习更好的参数。Rapid拥有OpenAI的5个游戏副本,此前的报道中也提到过,OpenAIFive每天通过成千上万的并

8、发游戏生成180年的游戏数据,使用了128,000个CPU内核和256个GPU。  在每个游戏框架中,Rapid会计算出一个数值奖励,当有好事发生时(比如一个盟军英雄获得了经验)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。