1
本文作者: 老王 | 2016-11-07 20:47 |
今日,DeepMind CEO Demis Hassabis 在 Twitter 上发布声明:他们正在全力提高 AlphaGo 的智能程度,全新版 AlphaGo 将在 2017 年复出下棋。DeepMind 会在近期内公布更多信息。
随后樊麾也在微博上发文称 AlphaGo 的棋力得到了巨大的提升。
樊麾现任法国围棋队总教练,曾三度获得欧洲冠军,是第一位与 AlphaGo 交手的职业棋手,去年 10 月,他在一场闭门比赛中 0 比 5 败给机器。随后樊麾加盟了DeepMind团队,担任专职陪练。
今年 3 月李世石与 AlphaGo 大战之后,柯杰非常期待挑战 AlphaGo。国家体育总局棋牌运动管理中心党委书记杨俊安曾在公开场合披露柯洁将挑战 AlphaGo,消息一出被 DeepMind 否认。据业内人消息,中国棋院确实与 DeepMind 达成对战协议,但由于特殊原因,迟迟未能公布。因此,柯洁在明年对战 AlphaGo 的概率非常大。
此前田渊栋在《AlphaGo 为什么那么厉害?》一文中提到:
与之前的围棋系统相比,AlphaGo 较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。
业内人士分析,AlphaGo 隐退的这一年间,它可能会进行大量的样本训练,应用增强学习不断与自己“左右手互博”:在电脑里自行模拟,产生新的棋局,使得收集到的经验和样本变得更多,逐步增强自己的能力。
与此同时,田渊栋也解释到,样本训练固然重要,但动态实战经验所起到的作用可能会更大。
在 AlphaGo 中,增强学习(Reinforcement Learning)所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在 AlphaGo 中增强学习更多地是用于提供更多质量更好的样本,给有监督学习(Supervised Learning)以训练出更好的模型。
出于这方面的考量,DeepMind 把樊麾等顶尖棋手招入麾下给 AlphaGo 做陪练,专门进行动态实战训练,至于效果如何,暂时还无法得知。IBM 资深工程师兼弈城业余 4 段棋手 Zhuang Zhuang 向雷锋网透露:
AlphaGo 对战李世石时是 V18 版,现在为 V20 版,明年初正式发布即便是 V21 版也不奇怪。从表面来看,至少三个版本的更迭大致可以看出 AlphaGo 的升级速度相对较快,实力应该有着不少提升。
Zhuang Zhuang 指出:
与机器交手的心态很重要,这不同于和真人对战。职业棋手在准备重大比赛的时候,可以研究对手的棋风偏好,可以准备一些布局套路,对局时可以在一定程度上推测对手的选择,但这些对 AlphaGo 都不管用。AlphaGo 的棋风是什么?其实不是那么容易说清楚,但是有一点应该是公认的,就是价值判断绝大部分情况下超过人类棋手,它的选择没有感情,不是基于棋风,是基于胜率、价值。当棋手面对 AlphaGo 这样强劲对手,最佳策略就是不断追求最善、最直接的一手,这样才能最大化胜率。在这期间,棋手应该多与冷冰冰的机器系统交战,形成应对机器棋手的独特心态。
除了 AlphaGo 外, Zen 围棋 AI 目前也已升级到了 V13,智能程度不俗。可以预见未来我们看到的不仅是 AI 与人之间的较量,甚至还有各公司水平超越人类的围棋 AI 系统之间的对决。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。