谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

本文作者：杨晓凡

编辑：郭奕欣

2018-01-13 10:27

导语：非常多研究成果，以及大度地与全世界分享这些成果

雷锋网 AI 科技评论按：进入2018 年已经一周多了，而精彩纷呈的 2017 年（和元旦假期）还仿佛就在昨天。今天，谷歌大脑（Google Brain）负责人 Jeff Dean 也代表整个谷歌大脑团队发出了对 2017 年的回顾总结。

作为顶级 AI 研究机构的谷歌大脑不仅资源丰富、人员众多、研究方向广泛、论文产量高，而且他们的研究成果还通过整个谷歌的产品和谷歌大脑团队自己开放出的项目和资源深刻地影响着整个世界。相信你也和雷锋网 AI 科技评论一样希望能够总体回顾一下 2017 年中谷歌大脑的种种成果，以及看看他们如何评价自己的工作。我们把这篇总结文（两篇中的第一篇）全文翻译如下。

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

谷歌大脑团队的工作目标是通过科学研究和系统工程不断推进顶级 AI 系统的发展，这也是整个谷歌的 AI 战略的一部分。2017 年的时候谷歌大脑也发出过一篇对 2016 年工作的总结文章，这之后谷歌大脑团队也在持续不断地向着自己「让机器更智能」的长期研究目标进发，也和谷歌和 Alphabet 内的许多团队合作，把研究结果应用到真正地改善人类的生活中去。

这次谷歌对 2017 年成果的总结分为了上下两篇，这篇是第一篇，包含基础研究成果、开源软件和数据集更新，以及新的机器学习硬件。在稍后的下篇中会详细介绍一些具体应用领域中的研究，机器学习可以在其中带来很大影响，这些领域比如医疗保健、机器人、一些基础自然科学领域，同时也会介绍谷歌大脑在创造性、公平和包容性方面的努力，以及介绍一下这个团队。

核心研究内容

谷歌大脑团队的关注重点是，通过科学研究增进自己对机器学习领域新问题的理解以及解决它们的能力。2017 年中谷歌的研究主题包括以下这些：

自动机器学习（AutoML）

自动化机器学习的目标是开发出一些技巧，让计算机自动解决新的机器学习问题，不再需要人类机器学习专家参与每一个新的问题的解决。如果人类想要打造真正智能的系统的话，这肯定会是不可或缺的基础能力之一。谷歌大脑开发了自动设计神经网络架构的新方法，其中同时运用了强化学习和演化算法两类技术，并把这项工作拓展到了「自动化机器学习在 ImageNet 分类和检测中达到顶尖表现」论文中（https://arxiv.org/pdf/1707.07012.pdf ）。这项研究同时也展现了如何自动学习优化算法和高效的激活函数。谷歌大脑团队现在正在与谷歌云 AI 团队积极协作，目标是让谷歌的客户们也都可以使用这种技术，同时也把谷歌对这种技术的探索拓展到更多方向上去。

神经网络搜索技术探索出的卷积神经网络架构

自动机器学习学习到的网络进行物体检测

语音理解和生成

另一个研究主题是开发新的技术提高计算机系统理解和生成人类语音的能力。其中，谷歌大脑也和谷歌语音团队合作，开发出了数种端到端语音识别技术的改善方法，把谷歌生产环境中的语音识别系统单词错误率相对降低了16%。这项研究很有意思的一点是，本来中有很多独立的研究路线在进行，而这项研究让它们汇总到了一起。

（包括以下这些论文：

https://arxiv.org/abs/1712.01769
https://arxiv.org/abs/1712.01818
https://arxiv.org/pdf/1712.01541
https://arxiv.org/abs/1711.01694
https://arxiv.org/pdf/1712.01807
https://arxiv.org/abs/1712.05382
https://arxiv.org/abs/1705.05524
https://arxiv.org/abs/1712.01864
https://arxiv.org/abs/1712.01996

）

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

端到端 Listen-Attend-Spell 语音识别模型中的组件

谷歌大脑团队也和谷歌的机器理解团队的研究同事们协作，共同开发了新的文本到语音生成方法（Tacotron 2），它大大提升了语音生成的质量。类似可听电子书那种专业水准的录制语音，平均主观分数得分 MOS 是4.58分，之前最好的电脑生成语音系统得分在4.34，而这个新模型的得分为 4.53，已经很接近人类的水平。

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

Tacotron 2 的模型架构

新的机器学习算法和应用方法

谷歌大脑的研究人员们持续开发着新的机器学习算法和应用手段，包括胶囊 capsules 的研究（显式地寻找激活特征之间的一致性，作为执行视觉任务时评估各种不同的带噪声假设的手段）、专家们的稀疏门组合（这可以让大模型的计算效率仍然保持很高，https://arxiv.org/abs/1701.06538 ）、超越网络（用一个模型的权重生成另一个模型的权重，https://openreview.net/pdf?id=rkpACe1lx ）、新类型的多模态模型（可以用同一个模型对语音、视觉、文本等不同输入做多任务学习）、基于注意力机制的模型（作为卷积和循环模型的替代方案）、符号化和非符号化的学习到的优化模型（http://proceedings.mlr.press/v70/bello17a/bello17a.pdf ，https://arxiv.org/abs/1703.04813 ）、一种通过离散变量做反向传播的方法（https://arxiv.org/abs/1611.01144 ），以及一些强化学习算法的新的改进方案（https://arxiv.org/pdf/1702.08892.pdf ）。

用于计算机系统的机器学习

用机器学习方法取代传统计算机系统中启发式方法的想法也让谷歌大脑成员们觉得非常有意思。谷歌大脑已经展示了在把计算图映射到一组计算设备上的任务中，强化学习模型选择的放置方法要比人类专家的选择更好（https://arxiv.org/abs/1706.04972 ）。和其它谷歌研究院的同事一起，谷歌大脑这项研究「聊一聊学习得到的索引架构」中展现了神经网络可以比 B 树、哈希表、Bloom filters 等传统数据结构更快、更节省空间地建立完成索引任务。谷歌大脑相信，这仅仅是探索机器学习在核心计算机系统中应用的开始，Jeff Dean 在 NIPS workshop 上进行的「Machine Learning for Systems and Systems for Machine Learning」演讲中也描绘了他们的设想。

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

学习到的模型可以作为索引结构

隐私和安全

机器学习和安全、隐私之间的互动也一直是谷歌大脑的研究重点。在获得 ICLR 2017 最佳论文奖的论文中，他们展示了应用机器学习时可以带有差分隐私保障。谷歌大脑也继续对对抗性样本做了更多的探索，包括真实世界中的对抗性样本（https://arxiv.org/abs/1607.02533 ），以及如何在训练过程中生成大规模的对抗性样本以便让模型对它们更鲁棒（https://arxiv.org/abs/1611.01236 ）。

理解机器学习系统

在深度学习展现出惊人成果的同时，理解它为什么能奏效、什么时候不能奏效也是很重要的一件事。在另一篇 ICLR 2017 获奖论文中，谷歌大脑的研究人员们展现出目前的机器学习理论框架无法解释深度学习方法的喜人成果。他们也发现，优化方法找到的局部极小值点的「平坦性」和泛化能力的优秀程度之间的关系并不如人们一开始认为的那么紧密（https://arxiv.org/abs/1703.04933 ）。为了更好地理解深度神经网络架构的训练是如何进行的，谷歌大脑发布了一系列论文分析随机矩阵，因为这也是多数训练方法的起始点（https://arxiv.org/abs/1710.06570 ）。另一个理解深度学习的重要途径是更好地测量模型的表现，在近期一篇比较各种 GANs 方法的论文中，谷歌大脑展现了好的实验设计、统计严谨性的重要性，并且发现许多对生成式模型的热门增强方法都没能真的改进模型表现（https://arxiv.org/abs/1711.10337 ）。谷歌大脑希望这项研究能在鲁棒实验研究方面作为其它研究者可以参考的样例。

谷歌大脑也在研究可以让机器学习系统具备更好的可解释性的方法（https://arxiv.org/abs/1711.00867 ）。2017 年三月，谷歌大脑和 OepnAI、DeepMind、YC Research 等机构一起联合创立上线了 Distill 博客 http://distill.pub/ ，这是一个新的开放的在线科技文献展示平台，专注于帮助人类理解机器学习。它对机器学习概念的清晰解释、文章中精彩且具备互动性的可视化工具都已经让它获得了不少赞誉，比如下面这篇 CNN 激活特征可视化。在上线后的第一年中，Distill 上就已经发表了许多尝试理解各种机器学习方法的内在运行原理的文章，很给人带来启迪，谷歌大脑也非常期待 2018 年可预计的更多、更好的文章。

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

CNN 特征可视化

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

如何高效使用 t-SNE https://distill.pub/2016/misread-tsne/

用于机器学习研究的开放数据集

MNIST、CIFAR-10、ImageNet、SVHN、WMT 这样的开放数据集极大地推动了整个机器学习领域的发展。谷歌大脑和谷歌研究院也在过去的一年中共同积极开源了许多用于机器学习研究的有意思的新数据集，提供了更大的有标注数据集供开放访问，包括：

YouTube-8M：标注为 4716 个不同类别的七百万个 YouTube 视频
YouTube-Bounding Boxes：含有 5 百万个边界框的 21 万个 YouTube 视频
Speech Commands Dataset：数千个人说的简短控制词汇
AudioSet：2 百万个 10 秒长的 YouTube 视频，标注为了 527 个不同的声音事件
AVA：5.7 万个短视频中标注了一共 32 万个动作标签
Open Images：标记为 6000 个分类的 9 百万张带有创意共享许可的图像
Open Images with Bounding Boxes：600 个不同类别的图像中带有 120 万个边界框

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

YouTube-Bounding Boxes 数据集中的样例。视频的分段采样速率为 1 帧/秒，我们关注的物体都被边界框圈了起来

TensorFlow 以及开源软件

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

一张 TensorFlow 使用者分布的世界地图

谷歌大脑团队一直就有编写工具来帮助更好地做机器学习研究、更好地在谷歌的各个产品里部署机器学习系统的传统。2015 年 11 月，谷歌大脑开源了自己的第二代机器学习框架 TensorFlow，希望整个机器学习大家庭可以共享谷歌在机器学习软件工具方面的这一笔投资。2017 年 2 月，TensorFlow 1.0 发布,11 月，TensorFlow 1.4 发布，都带来了意义重大的改进：便于交互命令式编程的 Eager execution、TensorFlow 程序的编译优化器 XLA，以及为移动和嵌入式设备设计的 TensorFlow Lite。预编译的 TensorFlow 库如今已经被超过 180 个国家的用户下载了超过一千万次，GitHub 上的开源项目（https://github.com/tensorflow/tensorflow ）也已经有了超过 1200 个贡献者。

2017 年 2 月，谷歌大脑首次举办了 TensorFlow 开发者峰会，有超过 450 人到山景城参会，全球还有超过 6500 人观看了线上直播，其中有 35 个国家都在当地举办了超过 85 场集体观看活动。所有的演讲都有录像（https://www.youtube.com/playlist?list=PLOU2XLYxmsIKGc_NBoIhTn2Qhraji53cv ），其中包括了新特性、使用 TensorFlow 的技巧，以及观察揭秘 TensorFlow 的底层的抽象等等内容。2018 年 3 月 30 日谷歌大脑会再在旧金山湾地区举行一场峰会。（雷锋网 AI 科技评论也会保持关注）

11 月时，TensorFlow 也迎来了自己开源后的第二个纪念日。看到围绕 TensorFlow 建立起的活跃的、不断发展的开发者和用户的大家庭，谷歌大脑的成员们也都觉得非常满足。TensorFlow 目前是 GitHub 上排名第一的机器学习平台，也是 GitHub 上所有开源项目的前五名。大小企业和组织都在使用 TensorFlow，和 TensorFlow 相关的 GitHub 项目也有超过 2.4 万个。如今，许多研究论文在发布时也会带有开源的 TensorFlow 实现来支持他们的实验结果，不仅让别人更好理解他们所提的模型，也便于重现或者拓展他们的工作成果。

TensorFlow 也从其它谷歌研究团队的开源的相关工作中有所受益，比如 TensorFlow 中的轻量级生成式模型库 TF-GAN，一组用于格式模型的估计器 TensorFlow Lattice，以及 TensorFlow 物体检测 API。TensorFlow 的开源项目中包含的模型也越来越多、越来越广。

除了 TensorFlow，谷歌大脑还发布了深度学习 API deeplearn.js，它也是开源的，而且带有硬件加速，可以无需下载和安装就直接在浏览器中运行。deeplearn.js 的主页就有一组很棒的示范例子，包括可以用自己电脑摄像头训练的计算机视觉模型 Teachable Machine、一个基于实时神经网络的钢琴合成器以及性能展示工具 Performance RNN。在 2018 年，谷歌大脑会继续努力，让 deeplearn.js 环境直接运行 TensorFlow 的模型变得可能。

TPU

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

云TPU最高可以带来 180 TFlops 的机器学习加速能力

从大约 5 年前开始，谷歌大脑的研究人员们意识到深度学习将会强烈地改变对硬件需求。深度学习计算的计算强度非常高，不过它也有两个独特的特点：很大程度上都是由稠密线性代数操作（矩阵乘法、向量操作等等）组成，而且降低计算精度不会带来很大影响。他们意识到，可以利用这两个特点构建专用的硬件，就能够以非常高的效率构建运行神经网络。谷歌大脑向谷歌的硬件平台团队提供了设计输入，然后由他们设计并生产出了谷歌的第一代 TPU。这是一种单芯片 ASIC，专门设计用来加速深度学习模型的推理过程。第一代的 TPU 已经部署在谷歌的数据中心中三年了，它支持了所有谷歌搜索请求、谷歌翻译、谷歌照片中的图像理解、李世石和柯洁对战 AlphaGo 等等许许多多的研究和生产用途背后的深度学习模型运行。2017 年 6 月时谷歌大脑在 ISCA 2017 上发表了论文，数据表明第一代 TPU 要比同时代的 GPU 或者 CPU 竞争对手快 15 倍到 30 倍，同时每瓦性能更要高出 30 倍到 80 倍（https://arxiv.org/abs/1704.04760 ）。

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

云 TPU 集群（TPU Pod）可以提供最高 11.5PFlops 的机器学习加速能力

谷歌大脑 2017 总结上篇：基础研究进展迅速，开放资源遍地开花

用 ImageNet 训练 ResNet-50 的实验结果表明，随着 TPU 数量增加，性能增加也几乎是理想线性的

推理任务很重要，而训练过程的加速其实是一个更重要的问题，同时也更难解决。5 月份在谷歌 I/O 大会公布的第二代 TPU 是一个集成的完整系统（定制 ASIC 芯片、电路板以及芯片互联），它的设计目标是能够同时加速训练和推理过程。谷歌大脑展示了单块设备的配置模式，以及多设备组成的深度学习超级计算机集群 TPU Pod。谷歌大脑也宣布，这些第二代 TPU 将在谷歌云平台上作为谷歌云 TPU 向客户提供。同时，谷歌大脑也公开了 TensorFlow 研究云（TFRC），这个项目将会给有意愿向全世界分享他们的研究成果的研究者免费提供 1000 个云 TPU 组成的计算集群的使用权。在 12 月份，谷歌大脑也展示了另一项成果，他们在 22 分钟内在云 TPU 集群上用 ImageNet 训练了 ResNet-50 模型并且达到了很高精度，这项工作在以往的典型工作站上可能需要花费好几天的时间。在谷歌大脑看来，把研究过程中的测试时间缩短到这种程度将会大幅度提高谷歌以及所有使用云 TPU 的团队的生产力。对云 TPU、TPU 集群或者 TensorFlow 研究云感兴趣的读者可以在 g.co/tpusignup 注册后了解更多信息。谷歌大脑非常期待可以让更多的工程师和研究人员在 2018 年用上 TPU！

（本篇结束。下篇中会介绍医疗保健、机器人、多个自然科学研究领域以及创意领域中的机器学习的具体研究案例，以及介绍谷歌大脑在公平性和包容性方面的研究工作。敬请期待）

via GoogleBlog.com，雷锋网 AI 科技评论编译。文章中所提的研究成果的具体细节欢迎阅读我们的往期报道文章。

Jeff Dean领导谷歌大脑用机器学习颠覆数据索引方法，将变革传统数据库设计理念

效果超过SGD和Adam，谷歌大脑的「神经网络优化器搜索」自动找到更好的训练优化器

Jeff Dean两年AMA全盘点：26个关于谷歌大脑和机器学习未来的问题（下）

Jeff Dean两年AMA全盘点：26个关于谷歌大脑和机器学习未来的问题（上）

Jeff Dean撰文：谷歌大脑是如何完成科研使命的？

谷歌大脑颠覆深度学习混乱现状，要用单一模型学会多项任务

谷歌大脑撰文解析 AutoML：神经网络如何自行设计神经架构？ | Google I/O 2017

雷峰网版权文章，未经授权禁止转载。详情见转载须知。