0
雷锋网 AI 研习社按,日前,微软提出深度学习框架的通用语言——repo1.0,号称希望通过构建这一深度学习框架「Rosetta Stone(罗塞塔石碑)」,让研究者们能够在不同框架之间轻松运用专业知识。他们在博客中讲解了基准深度学习框架的训练结果和相应的经验教训,雷锋网 AI 研习社编译整理如下。
大家好,很高兴发布 repo 1.0 版本,目前我们已经将其在 GitHub 开源,地址如下:
https://github.com/ilkarman/DeepLearningFrameworks
我们相信深度学习框架就像语言一样,就像很多人说英语,但每种语言都有各自的使用人群,都有其特定的用法。
我们已经为几个不同的网络结构创建了通用代码,并将代码在许多不同的框架中执行。
我们的想法是创建一个深度学习框架的「Rosetta Stone(罗塞塔石碑)」——只需要了解一个框架就能延伸到任何框架,并帮助其他人。之后,可能出现这种情况:一篇论文中的代码是用其他框架,或者整个流程都能使用另一种语言。与其利用你最喜欢的框架中从头开始编写模型,还不如直接使用「其他」语言。
再次感谢 CNTK、Pytorch、Chainer、Caffe2 和 Knet 团队,以及过去几个月在开源社区中为 repo 做出贡献的人员。
这次我们发布的目标是如下几点:
一个深度学习框架的罗塞塔石牌,能让数据科学家轻松在不同框架间利用其专业知识
使用最新最高级别 API 的最优 GPU 代码
比较不同 GPU 的常见设置(可能是 CUDA 版本和精度)
比较不同语言的常见设置(Python、Julia、R)
验证安装之后的性能
不同开源社群之间的协作
基准深度学习框架的训练结果
下面,我们将带来一类 CNN 模型(从预训练过的 ResNet50 中提取特征)和一类 RNN 模型的训练时间。
训练时间(s):CNN(VGG-style,32bit)在 CIFAR-10 上进行图像识别
该模型的输入是标准 CIFAR-10 数据集,数据集中包含 5 万张训练图像和 1 万张测试图像,均匀地分为 10 类。每张 32×32 的图像看成 (3, 32, 32) 的张量,像素值从 0-255 调整至 0-1。
处理 1000 张图片的平均时间(ResNet-50——特征提取)
加载预训练的 ResNet50 模型,在最后(7、7)的 avg_pooling 截断,输出 2048D 向量。可以将其插入 softmax 层或其他分类器如增强树来执行迁移学习。考虑到 warm start,这种仅前向传播到 avg_pool 层是定时的。(注意:批次大小是常量,增加 GPU 内存可带来性能提升(GPU 内存越大性能越好)。
训练时间(s):在 IMDB 上,用 RNN (GRU) 执行情感分析
该模型的输入为标准 IMDB 电影评论数据集,包含二万五千个训练评论和两万五千个测试评论,数据被均匀分成两类 (正/负)。我们遵循 Keras(https://github.com/fchollet/keras/blob/master/keras/datasets/imdb.py)上的方法,将 start-character 设置为 1, out-of-vocab (使用三万大小的 vocab) 表示为 2,单词索引从 3 开始。
希望大家都能来尝试,增加更多更丰富的数据。
以下是一些经验教训
使用自动调参:
大多数框架使用 cuDNN 中的 cudnnFindConvolutionForwardAlgorithm() 进行穷举搜索,优化算在固定大小的图像上的前向卷积算法。这通常是默认的,但一些框架可能需要诸如「torch.backends.cudnn.benchmark = True」的标记。
多用 cuDNN:
对于普通的 RNNs(如基本 GRUs/LSTMs),通常可以调用 cuDNN 封装器来提速,例如用 cudnn_rnn.CudnnGRU() 取代 rnn.GRUCell()。这样做的缺点是接下来在 CPU 上进行推理可能会更具挑战。
形状匹配:
在 cuDNN 上运行时,匹配 CNNs 中 NCHW 和 RNNs 中 TNC 的原始 channel-ordering,避免在重塑上浪费时间,直接进行矩阵乘法。
原始生成器:
使用框架的原始生成器,这样可以通过多线程异步来进行增强和预处理(例如 shuffling),从而加速。
针对推断:
要确保指定 flag 来避免计算的不必要的梯度,确保 batch-norm 和 drop-out 等层得到合理使用。
当我们最初创建 repo 时,需要使用许多小技巧来确保框架之间使用的是相同的模型,并且是以最佳的方式运行。在过去的几个月里,这些框架的改良速度快得令人难以置信。2017 年末的许多经验教训在现在已经过时了,因为这些框架已经更新。
通过在不同的框架中完成端到端解决方案,可以以多种方式比较框架。由于每个框架中使用的都是相同的模型结构和数据,所以框架间的准确度非常相似。此外,我们开发的目的是使框架之间的对比更简单,而不是为了加速。
当然,我们是为了比较不同框架之间的速度和推理,而不是为了展示框架的整体性能,因为这里忽略了一些重要的对比,例如帮助和支持、可用的预训练模型、自定义层和架构、数据加载器、调试、不同的平台支持、分布式训练等等。我们开源 repo 只是为了展示如何在不同的框架上创建相同的网络,并评估在一些特定案例上的性能。
via:https://blogs.technet.microsoft.com
雷锋网 AI 研习社编译整理
雷峰网版权文章,未经授权禁止转载。详情见转载须知。