AI要完爆人类？解密AlphaGo Zero中的核心技术

本文作者：杨文

2017-10-21 23:35

导语：一文读懂AlphaGo Zero的伟大与局限

雷锋网AI科技评论按：2017年10月19日，DeepMind团队重磅发布AlphaGo Zero，再次震惊世人。相比上一代AlphaGo，该版本的AlphaGo实现了在AI发展中非常有意义的一步——”无师自通“，这也让去年败在未升级版本AlphaGo Master下的中国棋手柯洁惊呼”人类太多余了“。

相信看过之前的报道都知道，AlphaGo Zero的先进之处是可以完全从零开始，不需要任何历史棋谱的指引，更不需要参考人类任何的先验知识，完全靠自己通过强化学习（Reinforcement Learning ），左右互搏来增长棋艺，最终达到百战百胜。

那是不是就代表AI从此将进入到无需人类知识，不受人类控制的时代？显然还达不到。

要想理解为什么，首先从围棋这个游戏说起。围棋是一种对弈游戏，具体来说就是信息透明，规则透明，结构明确，并且可用规则是可以穷举的。而如果到了一些数据无法穷举的领域，如语音识别，图像识别，自动驾驶等，AlphaGo Zero中的算法很难迁移过来，也很难“无师自通”。

那AlphaGo Zero中的算法可以借鉴到哪些领域？他的核心技术是什么？他的伟大之处又是在哪里？这还得请AI科学家来谈一谈。AI科技评论得知，此版本的AlphaGo所采用的核心技术就是出自华人团队研究的深度残差网络（ResNet）。就此背景，雷锋网联系到了深度残差网络ResNet作者之一孙剑博士来对这次的技术升级做阐述。ResNet技术正是他在微软亚洲研究院时期的发明。

AI要完爆人类？解密AlphaGo Zero中的核心技术

旷视首席科学家，旷视研究院院长孙剑博士

在他看来，本次技术提升足够伟大，但同样在真实技术落地过程中有着众多局限，并指出未来的主流深度学习技术还将会围绕大数据训练模式的方式。换句话说，AI想脱离人类控制还为时尚早。

孙剑博士在接受雷锋网的采访过程中说道：“AlphaGo Zero的伟大之处是第一次让机器可以不通过任何棋谱，不通过任何人类的经验，在只告诉规则的前提下就实现了成为一个围棋高手，这种无师自通的学习模式在AI整个发展上是非常有里程碑意义的。”孙剑博士讲到AlphaGo Zero的技术意义时讲到，“但是同时这种无师自通在很多AI落地上也存在一些局限，因为严格的讲，围棋规则和判定棋局输赢也是一种监督信号，所以严格意义上来讲，说人类无用，或者说机器可以自己产生认知都是对AlphaGo Zero理解的不精确。”

在很多AI行业落地中，实际上弱监督学习或无监督或者所谓的无师自通还是无法在短期成为主流。比如，就人脸识别来讲，这个能力是人类后天学习的能力，是通过时间不断演化出来的一种生存能力，人只有具备了人脸识别能力，人类社会才能正常运转，把这种后天能力输出给机器，其实就需要人的监督信号。除了人脸识别，还有很多人工智能研究的方向，比如自然语言处理，都是在模拟人类的一种技能。让机器实现这种任务就需要海量的数据与更多的信号输入。再比如医学领域的图像识别—AI医学影像读图主要依赖于高水平医生对影像的数据精标，从而机器学习对疾病的识别，这关乎于人的生命问题，自然马虎不得。所以今天，甚至今后很长一段时间内，监督学习依然是AI研究与AI商业化的主流方向。

关于AlphaGo Zero中的算法可以借鉴到哪些领域？孙剑博士没有直接给出答案，而是总结了此算法为何能在围棋领域表现如此出色的几点原因。首先，围棋它没有噪声，能够完美重现算法；其次围棋中的黑白子双方的信息是完全可观测的。最后，也是他认为最重要的一点，围棋对局可以用计算机迅速模拟，很快输出输赢信号。看一个领域是否能借鉴此算法，基本就要看是否满足以上三点。

AlphaGo的秘密武器：两大核心要素实现极简算法

其实AlphaGo Zero里面并没有新的巨大的理论突破，它使用的白板学习，早在之前的围棋系统Creazy Stone中就有用过。最主要还是用到了孙剑博士发明的ResNet技术，谈到该技术时，他讲到： ”AlphaGo Zero的搜索过程简化了很多，例如把以前系统中的两个网络合并成一个网络、将深度残差网络的输入做最简化。谈到本次AlphaGo Zero在技术特点，他认为是“把19x19棋局图像直接送给神经网络，让神经网络看着棋盘做决策，这个非常简洁。”

AI科技评论认为DeepMind的这一成果的启发意义大于借鉴意义。与其想着把算法照搬过来，不如朝AlphaGo Zero启发的方向探索。在与孙剑博士在采访交流中，他表示本次AlphaGo Zero的提升主要有两个核心要素，一个是启发式搜索，一个是深度残差神经网络，而这两个又非常完美的实现了结合。其中启发式搜索的思想非常朴素，是个针对问题设计的一个高级定制版蒙特卡洛数搜索算法。另外一个核心要素是深度残差神经网络，让简单的搜索算法极大的提升了效率。

深度残差神经网络在2015年由孙剑在微软领导的视觉团队老师率先提出，并在当年在ImageNet以及COCO两大学术竞赛中包揽五项冠军，其中最重要的部分就是实现了突破性的152层的网络深度，从而让一些非常复杂的函数做映射时效率与有效性得到极大的提升。强大的网络使得AlphaGo Zero已经可以有能力学习把每一子下在那里的概率和对整个棋局的判断算的非常准确。

开放与互通是AI通往未来之路的不二法则

今年，中国发布了人工智能战略规划，起码从国家层面上是认可AI能给社会带来巨大进步。在讲到AI的未来发展中，孙剑博士强调了开放与互通两个词。他讲到他现在在旷视研究院每天第一件事情就是去网上开放的论文平台ArXiv看是否有新的、有意思的论文、思想发出来。

最后雷锋网问道，ResNet被应用到AlphaGo Zero上，您有什么感受？孙剑博士表示：“这次应用在AlphaGo Zero中的ResNet残差神经网络，曾获得了CVPR 2016的最佳论文奖，我也非常高兴这个技术可以应用在AlphaGo Zero系统中，而这个应用过程其实并不需要我们直接进行接触而是一种研究成果的交流，人工智能研究最前沿的开源与开放，才能让我们在追求更优解的过程中有很多参考与理论支撑，可以极大的提升新技术产生的周期。”

孙剑博士还介绍到，旷视研究院今后还会不断分享、开放研究成果。今年7月份，旷视研究院在ArXiv公开了一篇ShuffleNet的论文，是一种可以运行在很多移动端上非常低能耗的神经网络算法，可以说是专为移动端而生的算法。发布至今不光有硬件产品、手机解锁产品使用，同时也有很多同行在使用。

雷锋网AI科技评论小结：AlphaGo Zero虽没有新的突破性的技术，但这丝毫不影响它的伟大，它能够完美集成已有的技术，给研究者带来新的启发，本身已具有里程碑式的意义。他的局限在于目前只能运用到特定领域，不过，换个角度来看，这对于人类来说未必不是好事儿。总之，AI 还有很长的路要走，还需要更多像孙剑博士这样的科学家们，不断借助创新而实现更多的创新，不断借助伟大的思想创造伟大的场景。只有不断的开放最好的认知，才能让AI不断成长，让更多更强的AlphaGo Zero产生。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

9人收藏

杨文

编辑&记者

AI科技评论员，微信：yeohandwin

扫描关注作者微信

发私信

当月热门文章