谷歌大脑是如何炼成的：万字无删减版全解密（四）

本文作者：奕欣

2016-12-22 07:10

导语：这是一个非常少见的故事，尤其是因为它与我们惯常对硅谷的印象相悖。

雷锋网按：如果说到在机器学习领域领先的公司，想必你不会忽略谷歌。从谷歌翻译到从机器视觉，谷歌一直努力将机器学习应用于可能想象的任何地方。本文会讲三个故事，它们在 Google 翻译向 AI 的成功转型中整合在了一起：一个技术故事，一个制度故事和一个关于思想演变的故事。本文源自纽约时报，作者Gideon Lewis-Kraus，雷锋网编译，未经许可不得转载。

如果对前情不太熟悉的读者，欢迎点击阅读谷歌大脑是如何炼成的：万字无删减版全解密（一）和（二）和（三）。

7.从理论到产品

直到那时，神经网络翻译团队也只有三个人——Schuster、Wu、Chen。但在 Hughes 的支持下，团队开始联合并扩大。团队成员在 Schuster 的要求下，每周三的下午两点在公司 Quartz Lake 房间会面。会议通常轮流由不定的十几个人参加。当 Hughes 和 Corrado 在的时候，他们通常是“仅存的”两位英语母语者。工程师们说着中文、越南语、波兰语、俄语、阿拉伯语、德语和日语，不过他们更多的是使用自己最有效的混杂语言和数学表达。在谷歌里，并不会存在有谁主导会议的问题，但是在 Schuster 这里？毫无疑问。

即使在那个时候，他们也并不清楚需要做些什么。Schuster 有次对我说，「整个事情就是关于不确定性，不确定性贯穿了整个过程，包括软件、数据、硬件、人。」他伸展双臂，举过肩膀，接着说，「这就像是在一个大泥潭中游泳，你只能看见这么一点点。」说着，他在胸前用手比出 8 英寸的长度，「我们有个目标，也许就在那里吧。」

谷歌大多数会议室都有投影仪，空闲时就会播放超高清的谷歌公共图片，比如森林梦境、北极光、国会大厦等等。Schuster 指着其中一个——夜里闪光的华盛顿纪念碑，他说，「外面的景色就是现在所有人拿望远镜就能看见的范围。」

尽管理论工作已经耗费了他们很多的精力和时间，但是想要把理论转化为真实的产品（就是理论科学家不予考虑的仅仅是一些工程上的部分）也绝非易事。一方面，他们必须确定他们在使用正确的数据来训练神经网络。谷歌数以十亿的「阅读」训练词汇大都是从中等复杂度的句子中提取的，比如海明威的作品。有一些是公共领域内的，比如原始的罗塞塔石碑语言学习软件中完整的加拿大议会双语记录。还有一些是从 10 年收集的数据中调来的，包括志愿者们众包的人工翻译。团队的存储库中有大约 9700 万个不同的英文词汇。但是一旦他们去除情感符、错误拼写和冗余部分后，可用的词汇只有大约 16 万个。

接着，你需要重新关注用户实际上想要翻译什么内容，很多情况下根本不是完整的句子。谷歌发现，很多人不会使用翻译机器翻译全文或复杂的句子，他们只是翻译碎片化的语言。如果你想要让神经网络处理用户的询问，你必须确定输入内容的方向，因为神经网络对训练过的数据非常敏感。Hughes 指出，「神经网络翻译系统能学习任何它可以学习的东西。就像一个学习走路的小孩一样，『噢，爸爸生气的时候说的是那个词语！』」，他笑着说，「所以你必须非常小心。」

然而最重要的是，他们需要保证翻译的整个过程可靠而快速，用户甚至不会注意到延迟。在二月份的时候，翻译包含 10 个词的句子需要 10 秒，这个速度对他们来说太慢了。所以翻译团队开始对小部分用户使用伪造的延迟形式进行实验，测试人们的容忍度。他们发现慢两倍，甚至慢五倍的时候，人们都还能忍受，但是慢八倍的时候，人们就无法忍受了。他们无需在所有语言中确认这个结果。在如法语和中文这种检索量大的语言中，翻译速度实际上并没有降低。更微妙的一点在于，他们知道用户如果想要更高质量的结果，就不会太在意轻微的延迟。他们只是想阻止人们放弃使用谷歌的产品转而使用竞争对手的服务。

Schuster 承认他其实并不知道他们是否可以将速度提升到足够快。他还记得在小厨房中跟 Chen 说的话：「一定有一些东西可以使它变得更快，但是我不知道到底是什么东西。」

但是他确实知道，他们需要更多的计算机——「G.P.U.」，一种用来训练神经网络的图形处理器。Hughes 跑去问 Schuster 是怎么想的。「我们需要申请一千个 G.P.U. 吗？」Schuster 说：「为啥不是 2000 个？」

十天后，他们增加了 2000 个处理器。

今年 4 月为止，三人的团队已经扩张到 30 多人，一些人来自谷歌大脑团队，比如 Le，另一些人则来自谷歌翻译团队。五月份，Hughes 指派了每种语言对子的临时负责人，然后所有人都将他们的结果输入一个表格程序中进行绩效评估检查。在任意给定的时间里，都至少有 20 个人在运行他们独立的为期一周的实验，解决一些意想不到的问题。有一个模型，某天突然“发疯”，开始毫无预兆地将所有句子中遇到的数字全部提取出来然后丢弃，这样危险的情况持续了好几个月。Schuster 说，「大家都吓尿了。」

2016 年上旬，团队做出了很多研究成果，比如「词块模型」、「覆盖惩罚」、「长度标准化」。Schuster 说，每一个部分的贡献可能不大，但是整合起来就有非常显著的影响。一旦这个模型定型后，目前翻译中使用的 150 种不同的模型将变为一个单一的多语言模型，并随着时间推移而进步发展。然而，一个悖论仍然存在：通过学习机器进行后续一般化时需要的工具和自动化的过程需要人类付出极大的努力和智慧。所以他们现在所做的只是基于一种直觉：每层中需要多少神经元？1024 个还是 512 个？需要多少层？应该同时运行多少个句子？训练需要多长时间？

Schuster 告诉我：「我们做了数百次实验，最终明白了我们应该在一周内结束训练。大家都在问，我们何时停止？我怎么能知道我做完了？其实你永远不会知道。机器学习机制永远达不到完美。你需要去训练，在某个时点也不得不停止。这是整个系统的本质，对一些人来说会觉得很痛苦。但这也是一种艺术——就好像大家都想要画一幅漂亮的画，但是做下去就会发现，有些人会做得更好，有些则更差。」

直到五月，谷歌大脑团队才明白，让系统执行足够快的方法只有一个，就是在 T.P.U.（一种特殊的芯片）上运行。正如 Chen 所说，「我们甚至不知道代码是否可以运行。但是我们确实知道，没有 T.P.U. 我们的工作无法进行。」他还记得一次又一次地恳求 Dean：「请为我们预留一些东西。」Dean 为他们预留了。然而，T.P.U. 并没有很好地解决问题。Wu 为了找出原因，在一个硬件团队里呆了两个月。他们不只是排除模型中的错误，还解决芯片的问题。神经网络翻译项目将成为一个证明，以核验整体基础设施投资概念是否可行。

六月的一个周三， Quartz Lake 的与会人员们正在对一篇百度发表的论文颇有微词。Schuster 出面维持了秩序：「是的，百度发表了这篇文章，看起来我们好像被抄袭了——类似的结构，类似的结果。」谷歌 2 月和 3 月内部测试的 BLEU 分数至关重要。Le 看起来很平静；他的结论似乎认为，这标志着谷歌走在正确的道路上。他平静地说：「这跟我们的系统非常相似。」

谷歌团队知道他们本可以更早地发表他们的结果，有可能打败他们的对手，但是正如 Schuster 所说：「产品落地比发表论文更加重要。人们会说，『哦，我是第一个做出来的，但是到最后，谁还在乎这些？』」

然而，这的确增加了他们的斗志，他们必须让自己的服务产品做得更快更好。Hughes 有一个幻想：他们甚至无需通知他们的用户更换产品。他们只需要等着看社会媒体们被这个伟大的进步震惊和怀疑。他在 5 月 3 号下午 5:36 分告诉我；「我们还不想说这是一个新的系统。」一分钟后，团队向 10% 的用户展示了中英互译的结果，没有告诉任何人。「我们想要确定系统运行良好。」

然而结果是， Twitter 上出现了爆炸性的话题：「你知道 Google Translate 现在变得有多酷吗？」

8.庆祝

在四季界限并不明显的硅谷，只有两个衡量时间的方法是可靠的：一个是小厨房中随季节变化的水果，二是 zigzag 指标。

九月下旬的一个周一下午，天气炎热。团队的论文终于发表出来，并且竟然有 31 个作者。第二天，谷歌大脑和谷歌翻译部门的成员聚集在小厨房准备好好庆祝一番。有趣的是，谷歌大脑部门的大楼，可能是为了向冬天的移民者致敬，叫做阿拉斯加，而谷歌翻译的大楼主题则是夏威夷。夏威夷小厨房的墙上有一幅沙滩的照片，还有一个小小的挂着夏威夷花环的茅草屋样的服务台，里面有一个玩具鹦鹉，屋顶上挂着纸灯笼，两边还立着几个竹竿，就像是一个热带地区的堡垒。穿过竹竿的另一边则是玻璃墙和一模一样的灰色桌子。那天早上，Google Translate 新购买了一批帽衫来庆祝它的十年庆，很多同事都来这里聚会。他们庆祝的是，在那一天，十年来积累的工作可以「退休」了。那些新的帽衫可能变成了旧部门的纪念品，但是两个团队的工程师和计算机科学家们看起来都非常开心。

谷歌神经网络翻译最终得以运行。在聚会结束的时候，公司的中英互译测试已经处理了 1800 万次访问。翻译团队的一个工程师忙着在他的手机上用百度翻译将中文翻译成英文。他欢呼着：「如果你一次输入超过两个字母，它就会超时！」（百度说，用户从未反映过这个问题）

在之后的几周内，单词量开始扩展，谷歌发布了中文到英文的神经网络翻译器。一些人质疑说这可能是因为英汉翻译是谷歌唯一一个表现较好的语言对。但是每个参加聚会的人都知道，他们真正的成就将会在 11 月发布。虽然那时，他们应该已经在其他项目组里了。

Hughes 清了清嗓子，走进了 tiki 酒吧。他穿着领子皱巴巴的深绿色 Polo 衫，衣服上还有未干的汗渍。就算还有最后一个问题，和最后的最后问题，包括论文中一个大的测量错误和系统中一个奇怪的标点符号错误。但是所有事情都解决了，或者至少目前算是解决了。宾客们安静了。Hughes 主持了一个高效而高产的会议，没有啰嗦和废话，但是他中途因为一个隐喻问题被迫暂停了一下，对他来说，必须强调这个事实——神经网络翻译项目本身代表了一次「说着不同语言的团体间的合作」。他继续说道，他们的神经网络翻译项目代表了「一次功能上的进步」，一次不连续的进步，一次垂直跳跃，而不是一种平滑的曲线。新的翻译器不仅仅是团队的成功，更是一次从理论到实践的巨大成就。他举一瓶看起来很贵的香槟，「为了沟通！为了合作！」他说。工程师们互相看看对方，为自己鼓了鼓掌。Jeff Dean 站在 Corrado 和 Schuster 旁边，在小厨房的中间，手插在口袋里，微微耸肩，用一种他典型的不在乎的方式轻轻地附和了一下。Dean 说，「他们的努力说明他们可以同时做两件大事：做研究，并且在大概 5 亿人面前将理论变为事实。」大家都笑了，不是因为他说得很浮夸，而是因为他说的的确是事实。

尾声：机器里没有幽灵

人工智能领域里最具争议的「中文房间」悖论，或许正揭示了机器翻译的核心问题。中文房间问题是 1980 年由美国哲学家 John Searle 所提出的。在他所设想的实验中，一名母语为英语的实验者单独呆在监牢中，有一名狱吏通过门上的卡槽给他传递一些写着中文汉字的纸条。而这名「囚犯」手上也有一套特定的工具，能够满足他编译的需求。

这样一来，尽管这名房间中的人完全不会中文，但他依然可以用中文流利地和外界交流。那么，我们显然不认为这名囚徒是懂得中文的。那么电脑也是一样，Searle 在这项研究的最后反驳了人工智能能够拥有思想的观点，他认为，它们只是因为拥有了理解的工具（编写好的程序和足够多的训练数据），而非真正明白了字里行间的含义。

回到谷歌大脑团队本身，甚至是延伸到硅谷中每一个致力于研究机器学习的人们，他们似乎并没有把这个问题太当回事。这并非意味着他们忽略了这个悖论，而是他们与 Searle 不同，他们不会将「意识」当作一种纯精神领域的特殊状态。——哲学家 Gilbert Ryle 甚至将其称为「机器中的幽灵」。研究者们只是简单地相信，虽然我们所谓的「意识」看起来非常复杂且遥不可及，其实已经在不同机器的简单协调活动中出现。也就是说，我们一直以来认为大脑会是思想（thought）的更高级存储形式，但事实证明，机器这类（不那么高级）的载体同样能实现这一点。在这个语境中，逻辑的分析就像投球和接球一样有迹可循。人工智能并不是凭空创造思想，而是为人类解决问题提供更效的工具。就像我第一天在谷歌时 Corrado 和我所说的一样，「这并不是一个关于机器『知晓』或『理解』的研究，而是一个它『能做什么』，更重要的是『还不能做什么』的研究。」

诚然，我们都明白「知道」与「实践」会对现实的文化与社会产生影响。在一次聚会上，Schuster 谈到在论文发表后，媒体对机器翻译的热捧有些过火。他一字一字地背出了首发媒体的新闻标题：谷歌表示，人工智能翻译水平已与人类媲美（GOOGLE SAYS A.I. TRANSLATION IS INDISTINGUISHABLE FROM HUMANS）。事实上，即使在论文收尾的最后阶段，团队也一直在与这种观点做「斗争」。Schuster 反复强调「翻译的结果的确比之前进步不少，但还无法做得与人类一样好。」他也希望大众能明白，他们所做的努力不是想取代靠翻译吃饭的人，而是更好地帮助他们。

而实际上，机器学习的兴起也让我们无法将焦点只放在某个孤立的特殊领域。如果你持与 Searle 相同的观点，认为人类自身拥有一种机器无法取代的洞察力的话，那么你自然能将人类与自动化划分出一条明晰的界限。而如果你站在对立面，那么这二者间实际上就存在着灰度。因此，我们也不难理解现在为何有越来越多的研究者站队第一种想法。2015 年，在探讨人工智能根源的 M.I.T 大会上，Noam Chomsky 被问到他对机器学习的看法。他认为目前整个人工智能行业只能算得上是「统计预测」，就像全球性的天气预测那样。即使神经翻译已经能够达到近乎完美的机翻水平，但语言背后隐藏的丰富底蕴与文字之美，机器无从揭示一丝一毫。它永远不会告诉你，这个代词代表的是间接还是直接受格。诚然，这些所谓的预测是能够让你实现目标，但它并不能让你进一步理解其中的原理。人工智能可以精确地从医学影像图片诊断肿瘤位置，但机器无法像医生一样通过望闻问切，明白这名病人为何患病。

那么问题来了，放射医师就能做到这一点吗？

医学诊断，这可能是机器学习发展速度最快且最难以预料的一个领域。放射科医师通常都经过高强度训练，且拥有不菲的收入。因此，我们认为医师的技能实际上是存在某种职业洞察力的——也就是我们刚刚所提到的，通常只能存在于人脑中的，通过长年经验所积累的判断。而在过去的短短几年间，研究者们不仅可以通过神经网络分析出病理区域，甚至机器还能根据以往的病历文本做出初步诊断。而逐渐，放射科医师的工作内容比起以往的逻辑分析，可能更接近于对可预测的模型进行匹配。毕竟你并不会得知是什么引起了癌症，你只会知道它就在那里。

如果出于某些富有针对性的目的，我们得以建立一个鲁棒性强的模式匹配装置，它的内在结构同样得以举一反三，应用于许多其它领域。一名翻译团队的工程师将一个神经网络用于训练鉴赏艺术品，甚至可以用来驱动一辆用无线电控制的自动汽车。同样是这样的神经网络，它能够用来识别一只猫，或者是用来训练识别 CT 片子——而它在短时间所接受的训练数据可能比最富资历的医生所见过的还要多。神经网络能够在瞬间阅读上百万页的法律条文，以构建自己的翻译知识库，而就像雷锋网此前所提到的一样——人的一生所阅读的文字，可能对它而言只是浮光掠影。这类被自动化取代的工作不会只是那些简单的重复性工作——更何况，我们将其与低人工智能联系在一起，这种联想并不公平。我们并不是在谈论那 350 万可能失业的卡车司机，而是在讨论包括卡车司机、经济学家、金融分析师、房地产商在内的人们。过去的九个月只是证明了，谷歌大公司里的一个小团队能在多短的时间内，将一个无人涉足的项目尝试自动化。

如今，硅谷所发生的最重要的事情并不是打破一切。相反，你可以把它视为一种体系建立，或是权力巩固的过程，而这样的发展速度在人类历史进程上是前无古人后无来者的。谷歌大脑招过实习生，也有长驻的老员工；团队为员工们提供了高强度的培训，但在公司也有免费的自行车头盔及绿伞（虽然这里一年下两次雨）。水果沙拉、休息的行军床、按摩椅、数不尽的高端点心、还有幼儿衣物捐赠箱，有专业老师指导的攀岩课（墙有两层楼那么高），你甚至还能参加阅读分享会或是政治漫谈小组。在这块人类智慧的沃土上，谷歌员工们在电子矿场中辛勤劳作，所产出的精神财富将横跨四大洲 13 个数据中心，为数不尽的人们带来光明。

不过，即使是像谷歌这样巨大的机构也需要正视人工智能大潮。如果机器能从人类的传道授业中学习，那么像程序员这种看似无可替代的工作也可能有朝一日不保。在聚会临近尾声之际，Corrado 向 Hughes 展示了他笔记本电脑上的内容。

Hughes 秒懂了这是什么，而当我仔细看清了上面出现的名字和文件后，我才反应过来。这个动画细数的是 10 年的翻译代码变化历程：从 2006 年、到 2008 年，再到 2015 年。Hughes 慢慢地拖动进度条，镜头在写满贡献者的名字间一闪而过。Hughes 充满感慨地指出，Jeff Dean 的名字其实在全片中出现了很多次——而且在未来可能也将继续下去。

Hughes 叫了 Corrado 一声，随后两人起身。Corrado 看起来有点伤感，似乎还沉浸在怀旧的情绪之中。为了打破这种气氛，他抬起头问道：「那么，我们什么时候会把原有的代码删掉呢？」

「不用担心，」Hughes 回答道，「新的代码库就要建起来了。一切都在成长。」

via nytimes

雷锋网后记：在敲下最后一个字的时候，伴随而来的并不只是完成了「艰巨任务」般的释然，更有一种莫名的感慨。两万字所描绘出的，也只是谷歌团队十年努力的一管窥豹。诚然，用人工的手段来翻译一篇关于如何用人工智能改造谷歌翻译的文章，似乎听上去有点儿讽刺。而在编译的时候，雷锋网也曾经尝试打开 Google Translate，看看它自己翻译出来的这篇描述自己的文章长什么样——答案很显然，对于这种包含大量隐喻及描写细节的文章，Google Translate 还需要努力啊（笑）。一直认为翻译是一种再创作的过程，是将原文所传达的含义以另一种语言的形式传递给读者，雷锋网作为智能与未来的前瞻者，也希望能以这样的形式，让更多的读者感受到前沿科技的心跳。2016 即将结束，愿每一位读者都能在与雷锋网同行的路上收获知识和喜悦。

【招聘】雷锋网坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力，翻译及写作能力优良的外翻编辑加入。

简历投递至 wudexin@leiphone.com，工作地北京。

谷歌大脑是如何炼成的：万字无删减版全解密（一）

谷歌大脑是如何炼成的：万字无删减版全解密（二）

谷歌大脑是如何炼成的：万字无删减版全解密（三）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。