AI算法效率每16个月提速一倍，算力革命超越摩尔定律

本文作者：蒋宝尚

2020-05-07 15:55

导语：算力界的摩尔定律？

作者 | 蒋宝尚

编辑 | 丛末

摩尔定律预测芯片性能每18个月翻一倍，那 AI 算法性能多少个月翻一番？

答案是16个月。

AI算法效率每16个月提速一倍，算力革命超越摩尔定律

图注：蓝点是给定时间的最低计算机，灰点是测量值。

观察结果是每16个月性能翻一倍。近日，OpenAI针对AI算法在过去数年中性能的提升做了一个详细的分析。他们发现，自2012年以来，在 ImageNet 分类上训练具有相同性能的神经网络，所需要的计算量，每16个月降低一倍。

与2012年相比，现在将神经网络训练到 AlexNet 的性能，所需的计算量仅为原来的1/44（相比之下，摩尔定律仅降低为1/11）。若将“算法效率”定义为：减少训练特定任务所需的计算量。我们还可以看到：

AI算法效率每16个月提速一倍，算力革命超越摩尔定律

在ImageNet上，ResNet-50 级别的训练效率翻倍时间大约为17个月；

在WMT’14的翻译任务上，Transformer相比seq2seq，训练的“算法效率”提升了61倍，所用时间约为 3 年，也即翻倍时间为 6 个月；

在围棋任务上，AlphaGo Zero所需的计算量是AlphaZero的1/8，翻倍时间仅为 4 个月；在Dota 任务上，翻倍时间仅为 25 天！！！

所有这些结果表明，对于近期投入大量资金的这些 AI 任务，算法上的进步相比硬件的进步（服从摩尔定律，每18个月翻倍），能产生更多的效益。

如果用有效计算的概念把AI和计算的趋势结合起来，那么，其表现就如下图所示：AI和计算的趋势被分解为硬件效率（摩尔定律）以及金钱和并行化（money/parallelization）之后，算法效率的提升只占总体提升的一部分。

AI算法效率每16个月提速一倍，算力革命超越摩尔定律
主要衡量指标

前面也提到，所使用的衡量方法对现有的开源项目的再实现。

另外OpenAI还在体系结构之间进行了少量超参数调整以及小范围的调优。

使用的计算是基于以下结果：

1、每个图像的浮点计算，由PyTorch库计数

2、图片每个epoch的数量

3、架构的性能优于或等于OpenAI训练的AlexNet模型所需的时间间隔数。

据OpenAI介绍，其很大程度上遵循了PyTorch示例模型中建议的超参数，对于每一个模型都使用SGD进行训练，批次大小为256，冲量（momentum）为0.9，权重衰减设置为1e-4。对于预处理的架构，例如GoogleNet 和 VGG，学习率为0.01，对于其他架构学习率为0.1。

AI算法效率每16个月提速一倍，算力革命超越摩尔定律

RESNET-50学习曲线

如图所示对于AlexNet，作者遵循了原始论文的学习率表（learning rate schedule），每30个epoch衰减10倍，其他的则降低1000倍的学习率。

为了检查超参数设置是否合理，作者在ResNet18上进行了扫描，并将初始学习率设置为0.0316、0.1以及0.316，总的衰减率为250X，1000X，以及2500X。

另外，对于除AlexNet以外的所有模型，作者对学习率及进行了平滑处理，如上图所示，显然这对早期的学习非常重要。

在论文中，OpenAI还提到，除了效率，还有许多其他衡量标准揭示了人工智能领域的整体算法进展，毕竟算法还受到底层硬件、硬件利用率以及云设施的改进影响。例如当处于低数据体系时，样本效率是关键。当考虑到经济效益时候，GPU、参数、FLOPs（浮点运算次数）推理效率的提高也很有意义。

主要结果

前面也提到，从2012年到目前，实现AlexNet级别性能所需的计算减少到了原来的1/44。

另外，作者还将训练效率的进步分为数据效率和减少每个时间段所需的FLOP数量。如下表所示，将总训练效率收益分解为每一epoch的训练周期和每一epoch的浮点运算数。

AI算法效率每16个月提速一倍，算力革命超越摩尔定律

另一个观察结果是：基于FLOPs的学习曲线。这可以帮助理清模型之间的比较。如下图所示，与其他模型相比，某些模型（例如ShuffleNet_v2）使用比较少的计算量就能达到其他模型（例如AlexNet）能够达到的准确率。

AI算法效率每16个月提速一倍，算力革命超越摩尔定律

Vgg-11的最大精度要比AlexNet高，但达到相同精度所需要花费的计算量却要比AlexNet大很多。另一方面，如果综合考虑算力和准确率，则ResNet50优于VGG-11，GoogLeNet优于AlexNet。第三个观察结果是：ResNet-50分类性能效率提升和AlexNet类似，而围棋、Dota和机器翻译等任务的效率提升速度相比AlexNet要快很多。如下表所示，就浮点运算而言，给定任务，其计算效率都有不同程度提高。

AI算法效率每16个月提速一倍，算力革命超越摩尔定律