0
继AlphaGo之后,AI在世界人机大战中再一次获胜。
6月21日,在启元世界举办的国内首届《星际AI顶级职业选手挑战赛》中,启元“AI星际指挥官”以2:0的成绩战胜《星际争霸I/II》全国冠军黄慧明(TooDming)和黄金总决赛冠军、最强人族选手李培楠(Time)。
与围棋相比,《星际争霸》属于不完全信息博弈,战争迷雾对AI的战略规划、布局、决策提出了更高的要求。而且在决策空间上,围棋只有361种,星际2大约有1026。因此,更具挑战性的《星际争霸》成为了AI与人类较量的下一个竞技场。
在第一场人族赛中,AI星际官仅用时11min,便让全国总冠军TooDming打出了GG。这场比赛中,AI星际官表现的相当自信,进攻干净利索,直击心脏。
不过,TooDming赛后还是不吝赞美AI的策略和打法让他学到很多,而且在比赛过程中,他并没有感觉自己是在和一个虚拟的机器人对战。
如果说TooDming更擅长打虫族,那么AI与最强人族选手Time的对抗可以说是精彩绝伦。两场比赛双方博弈了20min之久,现场解说官都叹为观止,Time展现了韩服6500最强人族的实力,而AI星际官的宏观策略和微观操作也毫不逊色。不过,最终Time也没能让AI星际官打出GG。
赛后Time发微博称:技不如人,甘拜下风。
对于这一结果,AI星际官的创始人和陪练官也表示很意外,虽然近期AI星际官的决策能力一直呈指数级增长,他们有信心战胜TooDming,但对于Time并没有十足的把握。AI星际官的应变和自主决策能力显然已经超出了所有人的预期。
那么,AI星际官到底在这场赛事中表现如何,我们一起来回顾精彩片段。
AI星际指挥官,由启元世界研发的智能体(Agent),它是一种具备自我学习、自主决策能力的AI,在虚拟世界表现为数字人,在实体世界表现为机器人,类似的智能体还有AlphaGo、AlphaStar。
本场比赛采取三回合制,以人族为战场。首场参赛职业选手黄慧明(TooDming),外号土豆明,效力于Zoo电子竞技俱乐部,擅长虫族,自2006年成为星际职业选手后,共揽获11项冠军,最高成就是《星际争霸I/II》全国总冠军。
Round 1 首场TooDming的打法比较保守,AI星际官率先发起两波进攻,TooDming成功防守。在人族对抗中,谁先占领场外控制权谁就获得了游戏的主导权。但就在TooDming出平行开矿过程中,出现了一点点小失误,AI星际官没有给对手任何机会,瞬间抓住漏洞,直击心脏,用时11分游戏结束。
Round 2 TooDming调整了扩张方式,更加注重防守策略,而AI也适时调整,步步为营,层层推进而不是像上一局那样猛烈进攻。最终,TooDming还是难逃AI星际官的压制。
据了解,AI星际官已经掌握了260种打法,而这些打法偏向通用性,它们还会根据真实的应战场景,做出相应的战略调整,而这部分人类也无法预测。后来,在与Time的决战中,AI将这种出其不意的打法发挥到了极致。
第二场参赛选手李培楠(Time),效力于KaiZiGaming电子竞技俱乐部,韩服天梯6500分以上的世界顶级职业选手。2018获《星际争霸I/II》黄金总决赛冠军,曾在暴雪黄金总决赛击败过TooDming。
AI与Time的对战,可以说是世界范围内现场直播挑战的最强一战。
Round 1 这场比赛中,AI星际官将维京作为主战和控制单位的打法,让所有人叹为观止,此前从未见过这样的战术,这也让Time直接懵掉。解说官表示,这项战术对于人类玩家非常有启发意义。
值得一提的事,在对TooDming发出挑衅后,面对实力更强的Time,AI星际官发出了“Love and Peace”的对话框。不得不感叹它的实时感知能力。
Round 2 Time更是背水一战,不过AI星际官的打法让他摸不到头绪,而且多线程的左右夹击,他只能不停的防守,最后资源储备出现明显不足。整场赛事下来,观看直播的网友纷纷表示,只有Time能够抗住AI这样的强势进攻。
还有网友建议,能坚持到20min,很适合AI的陪练官,它会肯定会成长的更快......
对于最终的赛事结果,AI星际官的陪练官表示,2:0战胜TooDming是意料之中的事情,但是最终2:0战胜Time他自己也是出乎意料,毕竟Time的实力众所周知。另外,这也是AI星际官连续作战20min之久,它顶住了长盘压力,做出了更好的应变和执行。
不过,AI星际官,或者AlphaGo、AlphaStar等智能体的出现,其背后的意图并不是为了战胜人类,而是通过与人类的对抗训练,使AI获得更好的自主学习和决策能力,由此所获得的通用技术,可以为更复杂、更广泛的现实应用场景提供帮助,实现最终的通用人工智能(AGI)。
这也是启元世界、DeepMind、OpenAI等科技企业选择在此发力的重要原因,只不过在AI训练的最佳场所上,他们共同选择了即时战略类的游戏。
为何押注《星际争霸》?在AlphaGo以3:0战胜围棋顶级职业选手李世石后,DeepMind研究人员便开始向以非完全信息博弈为代表的即时战略类游戏发起进攻。
与围棋/德州扑克,选手能够相互观察到对方的战略进攻相比,非完全信息博弈意味着选手只能”侦查“或”猜测“敌方情况。这为决策带来非常大的不确定性。
星际争霸具有典型的非完全信息的特征,同时,它作为即时战略类的经典的游戏,其复杂程度更是成倍数级增长。
首先从博弈的角度来讲,星际争霸不存在最佳策略,它需要根据实际战况随时调整策略,拓展资源,在宏观经济和微观操作中寻找最佳平衡。所以在此次比赛中,我们也看到了AI星际打出了此前人类从未见过的战术。
另外,星际争霸具有更大的决策空间,每分钟可达3000-4000次。尤其是与同为即时战略类的Dota相比,星际可操控的单元巨多,开矿造兵,侦查敌军,发起进攻,不同单元在时间和数量的上的不同组合,会对整个局势产生决定性影响。
更重要的是,它的即时性要求选手必须做出毫秒级的反应,这是与传统棋类最大的不同。
研究人员认为,《星际争霸》非常考验AI的综合能力。它的不完全信息决策、长期部署、实时对抗等特性与现实世界的环境和需求极为相似,同时,这就要求AI不仅能实时感知、认知环境,还需要适应环境,做出数千步连续决策,因此,它可以作为AI训练的最佳虚拟场景。
不过,《星际争霸》确实是一块难啃的硬骨头,直到近些年AI星际才有些出色的成绩。
在本次AI星际挑战赛之前,该领域中成绩最为亮眼的要属DeepMind推出的AlphaStar,历时15年的技术研发,AlphaStar在2018年先后以5:0的成绩打败了Team Liquid 的职业星际 2 选手 TLO和最强神族选手MaNa 。不过在后来的表演赛中,MaNa成功扳回一局,虐杀AlphaStar。
此次,AI星际官以2:0的战绩完败世界顶级职业选手Time,达到了与DeepMind同等水平。但不同的是,启元世界仅用了3年的时间便发出了如此强大的AI星际官,同时其算力仅占DeepMind的1%。
据研究人员透露,工程和算法是AI星际官的核心优势。他们通过独创的“数据生成—传输—消费”的一体化计算框架,使智能体训练的数据吞吐率提升了10倍以上。另外,在算法方面,启元自主研发的Commander神经网络结构,结合高效率的群体演化训练方法,可在有限的算力条件下,既能增强智能体的鲁棒性,又能实现智能体的快速进化。
短短三年取得这样的成绩,这家人工智能领域的初创公司不容小觑。
据了解,公司自成立之初,便围绕《星际争霸》展开智能体研究,其创始人袁泉曾是前阿里认知计算实验室核心成员。同时,公司的核心成员均是来自BAT、Netflix、IBM、香港科大、伯克利等国内外知名高科技企业和一流学府。
此次,AI星际官的大获全胜,预示着其智能体技术的初步成熟。研究人员介绍,AI星际官背后的秘密武器“智能体训练云平台”已正式走向市场,在交通调度、数字娱乐、公共科技、机器人等行业得到了广泛应用。
比如,在交通调度方面,智能体可以化身交通调度员,每隔几秒钟自动调度和优化红绿灯,大大缓解交通拥堵,实现真正的智慧化城市。
最后一问:如果通用人工智能技术得以实现,你最希望它可以赋能哪一行业,解决什么问题?
雷锋网雷锋网雷锋网
更多赛事情况,可参看链接:
https://www.bilibili.com/video/BV1Yi4y1G7Xb?from=search&seid=11222559881555171335
雷峰网原创文章,未经授权禁止转载。详情见转载须知。