谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

本文作者：我在思考中

2022-01-04 11:18

导语：当「基准」越来越「不基准」时，「基准」该何去何从？

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

作者 | 杏花

编辑 | 青暮

在日常生活中，我们需要一些「标准」来衡量个人的行为。

而在科研工作中，研究人员也需要一些「基准」来评估模型的性能。

因此，不管是普遍的「标准」还是特定的「基准」，它们都有一定的参考意义。

然而，如果有一天我们发现这些「参照物」与实际生活渐行渐远时，它们该往何处去？

近日，由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性，就像用有限的博物馆来代表整个世界一样。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

论文地址：https://openreview.net/pdf?id=j6NxpQbREA1

在这篇论文中，研究人员阐述了机器学习（ML）对通用任务框架（CTF）的过度依赖，因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是，研究团队并不否认这些基准的实用性，而是希望指出将其作为框架存在的固有缺陷。

展示「整个世界」的博物馆 VS ImageNet

这篇论文最能引起共鸣的一点就是用故事书作为引子，且将情节贯穿全文，使得论文的研究内容更为直白易懂。

这本书就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》，书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。

该博物馆的每个展厅都陈列着不同类别的东西，有些类别是随意和主观的，比如「你在墙上看到的东西（ Things You Find On a Wall ）」和「房间里能让你挠痒痒的东西（ The Things that Can Tickle You Room ）」；有些类别则非常具体的，例如「胡萝卜屋（ The Carrot Room ）」，而另一些则含糊不清，如「高大的厅堂（ The Tall Hall ）」。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

当Grover认为自己已经参观完博物馆的一切时，他来到写着「其他东西（Everything Else）」的大门前。打开门后，却发现自己置身于外面的世界。

作为儿童故事，Grover的经历是荒诞的。然而，在实际的研究中，例如人工智能尤其是ML领域，也存在类似的固有错误逻辑，其中许多流行的基准依赖于固有的错误假设。

这篇论文的研究人员认为，在诸如「视觉理解」或「语言理解」之类的模糊任务中，作为衡量一般能力进展的基准，与有限的博物馆在代表「整个世界的一切」方面一样无效，且这两个谬论的原因是相似的，即本质上是基于特定的、有限的且局限于上下文的环境。

GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是，通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务，甚至超出了最初的开发目标。

尽管作为迈向「通用目标」的标志，这些基准存在明显的局限性。事实上，这些基准的开发、使用和采用表明了一个结构有效性的问题，其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。

论文的作者们认为测量通用能力的目标（即通用对象识别、通用语言理解或领域独立推理等目标）不能充分体现在数据定义的基准中。研究人员注意到，当前的趋势不恰当地扩展了CTF范式，以将其应用于与现实世界目标或背景不同的抽象表现任务。

从历史上看，CTF的开发正是为了引入实用导向和严格范围的人工智能任务，即自动语音识别（ASR）或机器翻译（MT），其中所需的验证是基准是否准确地反映了计算机在现实环境中所要求的实际任务。这一波定义不明确的「通用」目标则完全颠覆了其引入的意图。

与其把Grover的经历当成儿童故事来看，倒不如说这是一则深刻的寓言故事。当Grover打开「其他东西」的大门时，却发现自己置身于博物馆外的大千世界。故事的结尾或许已经预示了这个研究的结论，ImageNet之类的基准定义必然不能代表适应所有现实世界模糊任务的「通用目标」。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

因此，这篇论文确实有许多值得讨论和深思的地方。ImageNet存在不足，那其他基准定义就是完美无缺的吗？除了ImageNet，目前在通用对象识别上还有更好的参照基准吗？该如何看待以及解决基准定义越来越「不基准」这个问题？

外行看热闹，内行看门道，这么头疼的问题就应该交给专业人士。

OpenReview官方怎么评

迎面向我们走来的是第一位评委，该评委发出了“反对CV和NLP的“通用”基准中令人信服的观点！（A compelling argument against "general" monolithic benchmarks in vision and NLP）”的赞叹，因为他觉得这篇论文史料详实，观点明确，分析到位，着实令人信服。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

论文的研究人员先在文中铺垫了大量的背景知识，向读者展现了通用人工智能和基准测试的相关研究，并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后，结论就水到渠成了：通用语言理解和通用对象识别的基准本质上是有缺陷的，因为它们应用于狭窄的范围。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

最后，这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文，因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献，而不仅仅是追求最先进的技术。

但美中不足的是，既然发现了ImageNet基准存在局限性，那有什么办法可以减少对这些通用标准的过度依赖？看来论文的研究人员也还没找到这个问题的答案。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

而第二位评委对这篇论文的评价是：通用人工智能基准的谬论（The Fallacy of Benchmarks for General Artificial Intelligence ）。因为这篇论文的受众主要是AI领域的研究人员，所以作者在前文回顾了通用AI的相关基准，一下拉近了与读者的距离。此外，引用Grover的故事也使得该论文有趣易懂。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

即使这篇论文的开头存在表述问题，未能无缝衔接主题，但瑕不掩瑜，评委二号高度赞扬了这篇论文为ML领域的研究指明了方向。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

接着，评委三号也带着他的观点款款走来：好论文！但改一下结构就更好了（Well argued paper, with some reorganization suggested）。这位评委指出，这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑：所以，有什么解决方案可以减少对通用标准的过度依赖？

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆