0
本文作者: 李赓 | 2017-05-24 18:48 | 专题:乌镇人机决战:AlphaGo VS 柯洁 |
知道Google会分享,就是不知道会这么快。
虽然只有1/4子,但昨天AlphaGo在对战柯洁时那种游刃有余,稳扎稳打的作风已然显示出其强大的实力。
DeepMind创始人兼CEO Demis Hassabis(左)和首席科学家David Silver(右)
今天上午,此次围棋峰会的另外一个重头戏——中国乌镇·人工智能高峰论坛正式开始。雷锋网也第一时间来到了现场,首先上台演讲的不是别人,正是打造围棋人工智能AlphaGo的两位关键人物:DeepMind创始人兼CEO Demis Hassabis,以及DeepMind首席科学家David Silver。
在各自短暂的演讲中,Hassabis和Silver分别对AlphaGo能取得当下成绩的原因进行了整体说明,同时还收集了一大批围棋界人士的评论。但最令人意料之外的还要属最新版AlphaGo的信息披露。
之前坊间也一直在猜测,究竟今年年初以Master出现在野狐平台横扫60名职业棋手的AlphaGo是什么版本。
在David Silver展示的PPT中明确提到了三种AlphaGo的称呼:AlphaGo Fan(与樊麾对弈的版本)、AlphaGo Lee(与李世乭对弈的版本)、AlphaGo Master(驱动Master的版本)。相比之前坊间风传的V18/V20等版本称号,这三个名字容易理解不少。
他们三者之间最主要的差别就是棋艺水平,Google现场也展示了三者的围棋ELO等级分:
2015年10月登场的AlphaGo Fan等级分大约在2900分左右,2016年3月登场的AlphaGo Lee等级分大约在3700分左右(李世乭本人目前3530分),今年年初登场的AlphaGo Master等级分已经来到了4800分左右。
考虑到目前世界第一人柯洁的等级分不过3625,Google还给出了一个AlphaGo Lee与AlphaGo Master之间参考性的让子数目——3子。
柯洁本人在现场目睹这个差距之后也不由得在微博上发表了自己的感受:
早就听说新版alphago的强大....但...让...让三个?我的天,这个差距有多大呢?简单的解释一下就是一人一手轮流下的围棋,对手连续让你下三步...又像武林高手对决让你先捅三刀一样...我到底是在和一个怎样可怕的对手下棋...
值得注意的是,等级分的数值实际上是由一系列比赛中的胜负来确定的,这个数值在输赢都存在的情况下比较准确(高低都有参考值)。而AlphaGo Master之前一举面对职业围棋人士连胜60盘,等级分很可能还远没有达到真实的水平(上未封顶)。
雷锋网昨天也引用了三联生活周刊科技记者昨天就在朋友圈中的相关观点,即想要知道最新版AlphaGo到底超出人类多少,让子再赛很可能是唯一的证明方法。
当然,这三者在配置、运作方式上也截然不同。以下是根据现场整理的一份简单表格。
看到这里肯定会有人惊呼:从50个TPU减少到1个,Google这是要逆天么?这种想法实际上是错误的。
原因在于,AlphaGo Master实际上是站在巨人(AlphaGo Lee)肩膀上的。
AlphaGo Master的强大为啥与 AlphaGo Lee息息相关?
如果非要分个阶段,AlphaGo Fan实际上与AlphaGo Lee可以划为同一时期。
这两者的整体算法架构都是一样的:“深度学习+蒙特卡洛搜索树+强化学习”。或者你可以将他们理解为初中生和高中生的差别,挑战樊麾的版本在数据积累和算法细部规则上还没有打磨到极致,而后者则要完美不少。
到了AlphaGo Lee 时,我们原来认为的“围棋人工智能障碍”——围棋棋局可能性太多,无法穷举找到最优解,已经被解决。
围棋中庞大的蒙特卡洛搜索树
简略点来说,Google实际上找了两种“偷懒”的办法:首先是在进行下一步落子计算时,只参考通过深度学习得来的人类落子选项。(人类如果不下的地方,它就不计算)
第二是估值网络,在每一步落子之时想要直接算出结局,同样是不可能的。因为随着预测步数增多,蒙特卡洛搜索树中需要计算的内容也会指数式上涨。所以AlphaGo引入了一套打分体系。没有一个地方是100%赢,只是对比其他地方,这一个点落子更好。
通过这两步纵向和横向的精简之后,AlphaGo达成了一个几乎不可能完成的任务——在去年3月的比赛中战胜了李世乭。
但除了最终结果外,AlphaGo在那次比赛中的少数表现同样值得关注:时常下出一些人类觉得有问题的棋招;在第四场李世乭神之一手之时,其估值网络发生了断崖式的波动。
这无疑反映出了AlphaGo Lee自身的不成熟。
那么怎么样才能再上一层楼呢?不同于之前很多人猜测的“完全摒弃AlphaGo中的人类元素”,Google采用了一条更加稳妥的道路——建一个全新的神经网络,在AlphaGo Lee的基础上进行二次“学习”,并且将学习到的东西不断记下来。
这也使得AlphaGo Master变得比AlphaGo Lee更加严谨,同时也更加稳定。这也是为什么会出现昨天三番棋第一场末尾阶段AlphaGo丝毫不怕柯洁追击,只采用最稳固策略的原因。当然,其他疑问也依旧存在,例如 AlphaGo Master究竟是如何依靠单台TPU完成整场比赛的运算?在比赛过程中AlphaGo Master是否需要AlphaGo Lee的帮助?
另外一方面,Google最终没有选择“抛弃”人类,总算说明人类2600年的围棋历史并不是毫无沉淀。这或许还算一个难得的小欣慰。
关于AlphaGo vs 柯洁接下来的比赛,以及本次围棋峰会中的更多内容,雷锋网也将继续为大家带来第一手的报道,敬请关注。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。