一种称为深度学习的人工智能技术目前正在用来模拟空间导航,这种人工智能系统建立了一种空间的表现,类似于在哺乳动物大脑内发现的网格细胞。

 

OpenAI5在多人战略游戏Dota2的热身比赛中击败了人类玩家

 

  近日,研究人工智能(AI)和电脑游戏的科学家将一起观摩最新的人机对抗比赛。比赛不是单个沉思的玩家对抗电脑,而是由5名顶级视频游戏玩家组成的团队对抗名为OpenAI5的机器人团队。在游戏中,玩家将疯狂施展魔法、投掷虚拟火球,与机器人一较高下。即将在加拿大温哥华举行的年度电子竞技国际锦标赛中,游戏玩家将进行实时战略游戏Dota2。该比赛吸引了众多职业玩家来争夺数百万美元的奖金。
 
  1997年,IBM的“深蓝”击败了国际象棋世界冠军加里·卡斯帕罗夫(GarryKasparov)。2016年,DeepMind的AlphaGo在中国传统围棋比赛中击败了世界围棋大师李世石,另外,计算机在跳棋和某些形式的扑克比赛中也击败了人类。但是快节奏的多人游戏会带来不同的挑战,协作和管理的不可预测性对计算机来说是另一种挑战。这一新的挑战的目标是常识,我们依靠常识来帮助我们处理真实世界的情况,比如交通导航和家庭护理等,对于机器人来说,即使不用面对某种魔法,这也是一个不小的挑战。
 
  “人工智能的下一个大事件是合作。”伦敦大学学院的计算机科学家王军(JunWang,音译)说道,王军参与了另一款实时策略游戏《星际争霸II》(StarCraftII)的开发。英国牛津大学的计算机科学家雅各布·福尔斯特(JakobFoerster)说道,这需要“战略推理,即理解他人的动机”,他也是星际争霸II的研究者之一。
 
  Dota2(魔兽争霸II)于2013年发布,在全球拥有数百万玩家。比赛中,玩家团队在防守自己的地盘的同时,努力摧毁敌方的地盘,在这个过程中同时也要为增加自己的力量和技能而收集资源。一场势均力敌的比赛可持续约45分钟。2017年,加州旧金山的非营利研究机构OpenAI透露说,他们已开发了一种可在一对一比赛中击败最优秀人类选手的人工智能。不过,OpenAI的联合创始人兼首席技术官格雷格·布洛克曼(GregBrockman)表示,国际比赛中五对五的比赛对计算机来说是一个更大的挑战,因为比赛时间更长、比赛场景更无序。尽管如此,在上周的热身活动中,OpenAI5轻松击败了一组前职业玩家。在现场直播观众面前输掉比赛的威廉·李(William“Blitz”Lee)说道,“被非人类打败真的很尴尬,我们一直被压着打。”
 
  在Dota2游戏中,每一个动作可选择策略的范围比国际象棋或围棋要大得多,玩家每次做出动作选择和决策时都可有成千上万种选择,比如,从哪里逃走,选用哪个魔法,瞄准哪个目标等。如此多的自由选择,再加上游戏固有的随机性,以及玩家看不到的某些因素,意味着你每走一步都不可能对游戏做出完全的预测。在国际象棋和围棋中,计算机算法可使用搜索树,深入分析未来分支的可能走向,而在Dota2游戏中,对未来的预测很快就会变得模糊不清。
 
  因此,OpenAI5使用的是神经网络,而不是依赖于搜索树。神经网络技术是受大脑功能启发而开发的一种计算机算法,即在对反馈做出响应的过程中,强化较小计算元素之间的联系,AlphaGo也利用了将神经网络与搜索树结合在一起的计算机算法。在训练过程中,系统摸索体验游戏中的不同动作,采取的动作效果良好时,负责这些行为的神经网络关系会得到强化。在经历了海量的游戏设置或游戏玩法后,强大的游戏策略随之产生。OpenAI就是应用了这种方法,在数千台计算机上大规模运行该算法,即所谓的强化学习。“OpenAI5是我所见过的最令人惊叹的强化学习演示之一,”哥本哈根信息技术大学的计算机科学家尼尔斯·贾斯森(NielsJustesen)说道,贾斯森也是星际争霸II的研究开发者之一。
 
  英国法尔茅斯大学研究人工智能和计算机游戏的计算机科学家迈克尔·库克(MichaelCook)对这次热身表演赛解析道,OpenAI5能够战胜人类玩家依靠的是“对某些动作拥有超人计算能力的结果”。例如,击败某个特定的攻击动作将有可能重创对手。OpenAI的反应时间与人类玩家相当,约为1/5秒,但在这一瞬间,系统可比人类大脑处理更多信息,在人类与计算机的巅峰对决中,这种彻底性和精确性对于对手来说是足以致命的,导致产生了“一种类似于闪电战的游戏方式”,库克说。这种能力令人惊叹,但这种咄咄逼人的攻势掩盖了其在长期战略中可能会表现出来的弱点,“在一场失败的游戏中,人工智能代表的人物角色需要更多时间来增强自身能力,而且它无法做出调整。”库克说道。
 
  从表面判断,OpenAI5的合作似乎也很成功,人工智能的5名选手都很愿意为团队的整体利益而牺牲,个体的牺牲对于整个团队可能是有利的。“这些机器人玩家非常具有牺牲精神。”李说。而人类玩家不太可能为胜利而放弃某个成员,他说:“贪欲在人类的想法中是非常普遍的。”而人工智能不一样,它们所依赖的是一种蜂群思维,这种思维方式让协调与合作变得更加容易。计算机系统中5个玩家的每一个都拥有几乎相同的算法,它们都能看到其他人眼中看到的东西,而人类只能看到自己在屏幕上看到的东西,只有通过交谈才能分享各自的信息。王军教授说,无论是在游戏中还是在现实生活中,要与其他人或与他们不一样的计算机程序合作,计算机算法最终将需要开发出各种沟通技巧和“心智理论”,即探知他人想法和愿望的模式。
 
  星际争霸II是许多人工智能研究人员更喜欢研究的游戏,如果有长期规划可能更好。王说,这很像经济学上的模式,它要管理一个殖民地的资源,就要建造一些武器工厂。对于人工智能探知对方思维的能力,其他游戏可能会比魔兽争霸提供更好的测试,福尔斯特提到了一些战略桌上游戏,如《卡坦岛》(SettlersofCatan)和《大战役》(Risk),在这些游戏中,要在多个玩家间进行谈判、交易和结盟,包括合作和竞争。
 
  即便如此,Dota2仍然是人工智能研究中一个有价值的测试。许多专家预测,OpenAI5将在国际比赛中获胜。但是,德国多特蒙德工业大学的计算机科学家瓦妮莎·沃尔兹(Vanessa Volz)发现了一个潜在的不足之处,即OpenAI5的算法训练时用的是自己和自己玩的模式。她说,“这种方法的不足之处是,如果遇到之前未玩过的游戏方式,就很容易招来败绩。”输给了人工智能的李世石亦有同感。他说:“目前这个机器人有点死板,开始变得有些可预测,我觉得如果我和它再多下几盘棋,我们就有可能击败它。”。

 

资料来源 Science

责任编辑 岳峰

――――――――――

本文作者马修·赫特森(Matthew Hutson)是《科学》杂志的专栏作者,主要撰写人工智能、机器人、网络安全和物联网相关的文章。