专访天壤智能创始团队：深度强化学习如何落地围棋、营销等多个领域

本文作者：李诗

2018-06-01 18:44

导语：5月26日，又一位世界围棋冠军败给了AI。

5月26日，又一位世界围棋冠军败给了AI。不过与其对战的不是接连击败李世石和柯洁的AlphaGo，而是国内创业公司天壤智能的围棋AI。

在杭州云栖小镇的2050大会上，天壤智能举办了一场“天壤AI围棋论道世界冠军人机表演赛”，天壤智能的AI围棋执白子对战韩国围棋第一人、获得三次世界冠军的朴廷桓，激战三小时后，最终朴廷桓认负。

据天壤智能介绍，围棋AI是其人工智能平台的实验性项目，在人工智能围棋对弈上，天壤围棋已经进入除了AlphaGo的围棋人工智能第一集团。目前，通过以AI围棋积累的深度强化学习技术，天壤智能正在搭建通用人工智能平台，为营销、交通、金融等领域提供高效精准的AI服务。

在2050大会现场，雷锋网与天壤智能CEO薛贵荣、CTO张雷和COO韩定一进行了深度交流，除了AI围棋外，深入了解了其在AI广告营销的落地场景。

专访天壤智能创始团队：深度强化学习如何落地围棋、营销等多个领域

天壤团队与世界围棋冠军朴廷桓的合影

（2016年，薛贵荣（右六）创办了天壤智能，在此前，薛贵荣是阿里巴巴旗下阿里妈妈大数据中心负责人、阿里妈妈首席数据科学家，负责研发了阿里搜索引擎（神马搜索）、数据管理平台、营销技术平台等。COO韩定一（右二）是原阿里巴巴旗下阿里妈妈钻石展位、达摩技术负责人，在阿里任职期间先后负责研发了全网用户行为分析平台、云搜索、钻石展位、达摩平台。CTO张雷（右三）曾在百度搜索广告部门任主任架构师，曾任IBM中国研究院高级研究员且领导了IBM DeepQA开放问答系统中国团队的技术工作。）

深耕AI围棋，掌握核心技术

2016年，薛贵荣从阿里离职，创办天壤智能，主要的业务是精准广告营销。当时正值AlphaGo大杀四方，AlphaGo背后的深度强化学习技术吸引了天壤的注意，在天壤看来除了围棋外，深度强化学习还能有更多的应用领域。

张雷告诉雷锋网，现在的AI主要分为两类，一是感知类的AI，例如人脸识别、语音识别，还有一种是在感知的基础上做决策，通过深度强化学习技术来做。天壤智能成立时，感知AI领域已经有不少做得不错的公司，他们就想做更往前一步的决策AI，围棋就是最好的例子，需要在感知的基础上去做决策。

天壤智能一头扎入了AlphaGo论文中，薛贵荣谈到，很多公司可能就是看看论文直接学习技术，但是他觉得不亲自做一遍根本就不知道这个技术可能还有其他什么解决方法，不知道如何去将这个技术调整应用在别的领域。因此，天壤从零开始开发天壤智能AI围棋。

与同样在探索深度强化学习技术的DeepMind等科技巨头相比，天壤作为一家成立仅两年的创业公司，在算力上完全没有与科技巨头媲美的资源，而深度强化学习又是一项对计算资源消耗极大的技术，天壤从系统、策略上进行了独有的创新。

据介绍，在系统维度，天壤基于Berkeley Ray搭建了大规模分布式深度强化学习平台天云，实现了大规模GPU上的模拟、训练、模型迭代更新、参数自动调优等。从策略上，天壤通过创新型的伴随训练的方式，搭建渐进式的加深网络，先从小网络开始训练模型，再逐步切换到更大的网络。在更快的迭代速度下，实现非常深的神经网络训练。薛贵荣谈到，“在系统和策略上的技术突破，是天壤训练出能够击败世界围棋冠军、跻身全球围棋AI第一集团的秘诀”。

当然，在AlphaGo之后涌现出的人工智能围棋程序还包括：日本的DeepZenGo、腾讯的绝艺、神算子、先知围棋等。这些人工智能围棋程序也曾多次一较高下：2017年8月，在第一届“中信证券”杯世界智能围棋公开赛上，天壤智能与腾讯绝艺、日本DeepZenGo和台湾的CGI一起杀入四强。2017年12月，在第一届围棋AI龙星战中，天壤获得第三名，排在绝艺、DeepZenGo之后。而目前，据薛贵荣介绍，天壤智能AI围棋已经仅次于AlphaGo，就在即将到来的六月，还会与腾讯绝艺一较高下。

人工智能围棋程序令人向往，除了世界冠军外，不少人也希望能够有机会与其较量，但是由于人工智能围棋程序需要大量的硬件、算力支持，一次人机对战的成本就很高。而在此次与朴廷桓的对战中，天壤智能只使用了英特尔通用CPU平台，而不是通常的GPU平台，据称，英特尔为此次人机围棋对战提供了有力的技术支持。

薛贵荣告诉雷锋网，目前天壤智能将围棋AI开放给公众，在网站上任何人都可以跟职业九段等级的围棋AI进行对弈。天壤智能也与棋院达成合作，用围棋AI给棋手陪练。

AI赋能广告投放决策

通过围棋AI，天壤掌握了深度强化学习，并且将其落地不同的应用场景。第一个场景就是他们团队最熟悉的广告营销领域。在天壤看来，营销投放与围棋对弈类似，本质是动态环境复杂组合空间的实时决策。

在互联网时代，广告主投放网络广告的主要手段是程序化广告平台（包括DSP、SSP等），腾讯的广点通、阿里的钻石展位是典型的程序化广告平台。天壤创始人兼CEO薛贵荣曾负责阿里妈妈的大数据营销技术平台，COO韩定一是阿里妈妈钻石展位、达摩盘技术负责人，他们对程序化广告有十分深入的了解。

韩定一告诉雷锋网，程序化广告实现了一定程度的自动化和精准的广告投放，但是很多事情依然需要依靠人力，例如媒介投放人员需要在上千的分类标签中选定自己的目标对象、需要选择投放的地域时段、需要给出广告竞价，此外，还需要根据每一次投放的数据反馈来调整下一次的投放策略，分析如何投放才能提升效果。在天壤看来，虽然现在互联网产生了众多的数据，但是广告主和广告投放人员依然无法有效地利用数据。

天壤利用深度强化学习技术，在程序化广告平台的基础上推出了“天壤营销大脑”，它在客户的商业需求和广告平台之间建立了一个商业逻辑。利用“营销大脑”，广告主只需要进行简单的操作，告诉平台媒介投放的基本商业逻辑：活动是针对新客户还是老客户、希望吸引多少量、投入的资金多少。然后，“营销大脑”能根据大数据自动为客户去挑选目标人群、制定投放地域时段、广告竞价，然后不断实时调整以达到最好的投放效果。

在2017年双11期间，天壤智能的“营销大脑”就已经投入使用。双11活动期间，天钻总共帮助商家完成7213万的钻展投放预算，促成双11当天总成交13.58亿。其效果也有明显提升，商户的获客成本下降56%、ROI平均提升78%。

据介绍，AI机器人为每个商家每天提供决策34560次，平均每2.5秒一次，同时每个商家每天进行2000次的调整，平均每43.2秒一次。在程序化广告投放中，每一次决策都将引发对最终获得营销结果的影响。加上竞价环境的变化，需要不断调整才能获得最优，随着人工智能技术的发展，机器决策将成为更适合营销投放的一种方式。

在韩定一看来，目前广告投放人员的重复性工作很多也很机械，这些投放和数据分析的工作交给AI去做可以解放广告投放人员，他们可以去负责更多与客户需求、广告创意相关的工作，进一步提升营销效果。

我们离通用人工智能还有多远？

AI围棋、AI广告营销都是天壤将深度强化学习技术落地的应用场景，天壤还在探索AI在交通信号灯控制、金融量化投资上的应用，而他们的长远规划是打造人工智能通用平台，以AI技术赋能更多的行业和场景。

近两年，AI发展迅猛，正在改变各个传统行业。然而目前的AI技术大多是在计算机视觉、自然语言处理、语音技术的单点突破，这些感知类的技术的进步建立在大量的人工标注数据之上，而当很多场景需要AI去做决策的时候，并没有这样的数据可以使用。

通用人工智能主要有两个特点，一是端对端(end-to-end)的学习，二是任务自适应，无需人类调参而胜任不同的任务。DeepMind的AlphaGo让大家看到了深度强化学习技术打造通用人工智能平台的希望。

张雷告诉雷锋网，“现在的深度强化学习技术的状态跟6年前深度学习很像。2012的时候，深度学习技术刚刚成熟，使得图像识别准确率突然取得了一个很大的提高，很多人投入其中，准确率越做越高。目前，深度强化学习技术应用到围棋领域，击败人类冠军是一个标志性的突破，吸引很多人来做，未来应该会有更多的突破。”

呵，我复现一篇深度强化学习论文容易吗

这里有一篇深度强化学习劝退文

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

李诗

编辑

关注AI业界、NLP、VR、AR技术与产品。采访报道、行业交流请加微信“Hanass”

扫描关注作者微信

发私信

当月热门文章