Google开源TensorFlow系统，这背后都有什么门道？

本文作者：温晓桦

2015-11-10 15:34

导语：谷歌针对先前DistBelief存在的各方面短板推出第二代机器学习系统TensorFlow，而且将这个强大的武器开源。这意味着什么呢？

据国外媒体报道，谷歌于周一发布全新人工智能系统TensorFlow。该系统可被用于语音识别或照片识别等多项机器深度学习领域，主要针对2011年开发的深度学习基础架构DistBelief进行了各方面的改进，它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。

更重要的是，谷歌表示，TensorFlow将完全开源，任何人都可以用。所以，这其中有几个意思？

关于TensorFlow的前世今生

TensorFlow是谷歌研发的第二代人工智能学习系统，而第一代的DistBelief比这个要早好多年。

DistBelief诞生于2011年，它是谷歌推出的第一代内部深度学习结构，能够帮助谷歌利用自家的数据中心构建大型的神经网络，主要应用于人工智能的开发，比如语音识别、图片搜索等等。

但是，DistBelief本身存在一些技术上的短板，对谷歌的人工智能发展仍有一些限制。如谷歌高级研究员Jeff Dean和技术主管Rajat Monga表示，DistBelief关注的重心是神经网络，而且与谷歌内部的基础架构联系紧密。也就是说，该系统“几乎不可能与外部共享研究代码”，而且使用起来比较难设置。

而TensorFlow正是基于第一代DistBelief进行开发的，其命名来源于本身的运行原理，Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow即为张量从图象的一端流动到另一端——将复杂的数据结构传输至人工智能神经网中进行分析和处理。

相比较之下，作为谷歌第二代人工智能系统，TensorFlow更快、更智能化，也更加灵活，可以更加轻松地应用于谷歌的新产品以及支持技术研究。按某些标准计算，TensorFlow的运行速度相当于DistBelief的3倍。

此外，TensorFlow一大亮点是支持异构设备分布式计算，它能够在各个平台上自动运行模型，从电话、单个CPU / GPU到成百上千GPU卡组成的分布式系统。也就是说，任何基于梯度的机器学习算法都能够受益于TensorFlow的自动分化（auto-differentiation）。

谷歌为什么敢开源？

鉴于TensorFlow系统的强大功能，加上谷歌正计划在TensorFlow的基础上发布ImageNet计算机视觉模型，理论上使用谷歌的样本模型架构的话，就能很快地开始使用机器学习技术，因此，它可谓谷歌在计算机智能应用方面的杀手锏。不过，谷歌公司表示，开源该系统并不会危及公司的战略，而且还是会让公司保持优势。为什么呢？

通过谷歌最新公布的白皮书TensorFlow: Large-Scale Machine Learning on Heterogeneous Systems可见，虽然该系统转为开源，但这次开源的TensorFlow是单机实现，其最有价值的分布式数据流实现，并没有开源。也就是说，谷歌此举还是留下了一些能保持自身独特性的东西，比如巨量的数据、可以运行该软件的计算机网络，以及一个庞大的可以调整算法的人工智能专家团队。

谷歌开源的做法，其实和Facebook开源人工智能研究的举措相类似。深度学习系统或软件不是一装上就能用的，它在发布前期需要通过使用者数据进行很多测试、调整，顾名思义就是一个学习的过程。Facebook开放人工智能研究就是因为缺乏自己的移动操作系统和通信渠道，没有什么途径来检测产品，唯有通过与其他公司组织合作，来完善创新。

同样，如果谷歌没有工程师来为其进行数百万个参数的调整，那么谷歌这次放出的深度学习算法的用途就极为有限。专家表示，调整这些参数需要不断试错，初次接触的人要花费很长时间。谷歌也需要通过放出这套系统吸引更多研究人员，从而为其找到新的用武之地，并进行改进。

据报道，谷歌2011年展开了一个试图训练神经网络的Google Brain项目。Google Brain在当时拥有1.6万个多个微处理器，创建了一个有数十亿连接的神经网络，在这个项目研究中，该网络结果观看了千万数量级的YouTube图像，并从图像中自主辨识出了“猫”。研究人员表示：“在训练中，我们从未告诉它‘这是一只猫’。基本上可以说，它发明了猫这个概念。”

TensorFlow的未来

2004年，Google创始人Larry Page和Sergey Brin曾预言道：“计算机将会被植入人类大脑，搜索会成为一种自主进行的行为。”11年之后的今天，Google没有将搜索功能植入大脑，但该公司将搜索机器变成一个人工智能大脑。“这是一种能够让研究人员的创意直接转化成产品的工具，以后研究人员或者就无须再为什么新想法重新编写代码了。”

这是谷歌未来的愿景，而TensorFlow就是通向这个未来的里程碑之一。开源TensorFlow能够加速谷歌在人工智能技术的部署，帮助该公司在人工智能发展日益重要的未来抢占更多的主导权。

不过当然，开源就存在着多方合作的可能，数据的资源共享、技术研究的交流碰撞……谷歌的发展同样也会带动业界的技术整体发展。多年以前人们就知道开源的重要性，正如开源硬件公司Arduino CEO Musto所言：“我们需要开源，我们需要社群的智慧。”

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

温晓桦

编辑

扫描关注作者微信

发私信

当月热门文章