刷arxiv有哪些技巧？5个问题快速理解机器学习论文

本文作者： AI研习社-译站

2021-02-03 15:37

导语：怎么看arxiv才能不错过机器学习领域的优秀论文呢？

译者：AI研习社（听风1996）

双语原文链接：How to Understand ML Papers Quickly

我所指导的ML学员经常会问我一些不同的问题："你如何从每天大量充斥在Arxiv网址上的出版资料中选择阅读哪些论文？"

阅读大多数ML论文的好处是，你只需提出五个简单的问题就能跨越（忽略）一些专业术语。当我浏览论文时，我会尽可能快地回答这些问题。

1）函数近似器的输入是什么？

如：一张224x224x3的RGB图像，其中单个物体大致位于视图中心。

2）函数近似器的输出是什么？

如：一个对应输入图像的类维度为1000的向量。

请借助与具体（论文中的）方法无关的方式考虑整个系统的输入和输出，可以让你从算法术语本身中脱身，并考虑其他领域是否已经开发出使用不同方法（算法）在这里可能会有效的方法。我发现这种方法在阅读Meta-Learning论文时非常有用。

通过首先将ML问题视为一组输入和期望的输出，可以推断输入是否足以预测输出。如果没有这种推断练习，你可能会意外得到一个ML问题，其中输出不可能由输入决定。结果可能会是一个ML系统进行预测的方式是社会所认为有问题的方式（译者注：这里可能是想表达不符合人类常识与逻辑的执行方式）。

3）什么样的损失在监督输出预测（译者注：关注损失函数）？这个目标函数在什么样的背景假设下设立的？

ML模型是通过组合偏差和数据而形成的。有时偏差很强，有时偏差很弱。为了使模型具有更好的泛化能力，你需要添加更多的偏差或添加更多的无偏数据。天下没有免费的午餐。

举一个例子：许多最优控制算法都会假设一个固定的数据偶发过程，这个过程就是马尔科夫决策过程（MDP）。在MDP中，"状态 "和 "决策"通过环境的动态转换来确定映射到 "下一个状态、奖励以及事件是否结束"。这种结构虽然很笼统，但也是可以用来构造一个损失，让学习Q值遵循Bellman方程。

4）一旦模型被训练后，对于以前没见过的输入/输出对，模型能够泛化到什么程度？

归功于所捕获的数据信息或模型架构，ML系统可能会相当好地泛化到它以前从未见过的输入。近年来，我们看到越来越多和更高等次的泛化能力，所以在阅读论文时，我注意观察那些在论文中惊人的泛化能力以及它的泛化能力来自哪里（数据、偏差或两者都有）。

对于这个领域来说，更好的归纳偏差意味着存在更多的噪音，例如因果推理或符号方法或以对象为中心的表示。这些是构建稳健可靠的ML系统的重要工具，我发现将结构化数据与模型偏差分开的界限可能是模糊的。话虽如此，但让我感到困惑的是，有许多的研究人员认为推动ML前进的方式是减少学习量（译者注：训练轮次）并增加编写硬编码的量。

我们之所以进行ML研究，恰恰是因为有些东西我们不知道如何编写硬编码。作为机器学习的研究者，我们应该把工作重点放在改进学习方法上，把编写硬编码和符号方法留给那些研究编写硬编码的研究者。

5）论文中的说法是否可以证伪？

那些声称不能证伪的论文是不属于科学范畴的。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

刷arxiv有哪些技巧？5个问题快速理解机器学习论文