1
本文作者: 亚萌 | 2017-04-22 01:01 |
雷锋网按:随着Facebook 2017年开发者大会F8的召开,Caffe2框架开源,机器学习和深度学习开发社区再一次迎来兴奋时刻。在F8大会上,Facebook AML实验室的 Andrew Tullock和贾扬清上台介绍了Caffe2轻巧、易用和可扩展的特性。二人还强调了“unix 哲学”(即unframework)的设计理念。就像贾扬清在知乎上所说的:“framework不重要,重要的是技术,这也是我一直主张把核心软件比如说Gloo,NNPAXK,FAISS这些单独放出来,不放在框架里面的原因--每个框架都可以拿这些软件来优化,这才是做community的道理。” 以下为Andrew Tullock和贾扬清演讲视频,另附文字版,由雷锋网编译。
Andrew Tullock:Caffe2 在移动端的开发和应用
大家好,我的名字是Andrew Tullock,来自Facebook AML实验室,与我一起演讲的还有我的同事贾扬清。我主要讲一下如何将机器学习和深度学习模型装载到移动端上运行,包括Caffe2涉及到的一些开源的算法、软件和工具。扬清会谈一谈这些技术如何在移动端之外的设备上扩展。
这里是一个实时神经风格迁移的例子,已经在本周很多Keynote场合提到了。
一年半之前,当风格迁移的技术刚开始应用的时候,在大型GPU集群上处理一帧的图像,都要花费好几分钟的时间。经过我们和其他同仁在算法和软件上的改进,这项技术如今变成了可以“实时进行”,并且是在你的手机上实现实时风格转换,这比几个月之前进步了好几个数量级。
我们有一个图像数据库,里面有一些风格化的图像,比如莫奈或毕加索的画,拿来训练CNN。训练目标是,输出的图片风格转变,但是图片内容不变,模型训练完成后,输入其它图像,就会发生风格相似的转变。一开始我们是在Facebook的数据中心的GPU上做离线的模型训练,后来就转移到手机上运行,这其中就涉及到iOS和Android系统上高度优化且开源的Caffe2框架。
Facebook有数百万的移动端用户,但是现在大部分机器学习任务都只能在云上进行。但是,在移动端进行机器学习任务有以下好处:保护隐私,因为数据不会离开你的移动端;避免网络延迟和带宽问题;提升用户体验,比如优化feed ranking功能。所以我们开始着手,从底层建造一个专门为移动端优化的机器学习框架。
建造的过程中,有几个关键之处。首先一个关键,就是我们遵循“unix 哲学”,先建立轻巧的框架核心,之后再尽量完善整个生态。这个框架核心具有很强的扩展性,可以在小型的移动设备和大型GPU集群的服务器上运行机器学习和深度学习模型。
另一个关键之处,是性能。尤其是在运算能力不强的设备上,性能成为瓶颈,这就需要进行一些特殊的设计来改善。首先,在目标平台上使用最高效的底层函数库(primitive),这里面会涉及到在GPU上运行的cuDNN、在英特尔CPU上运行的MKL DNN等等。
第三个关键之处,就是优化这个框架核心所占用空间(footprint)。这个涉及到代码尺寸(code size)以及模型尺寸,将代码尺寸最小化是围绕着极简框架核心(minimal core)展开的,极简框架核心是一个可以加入插件的架构。而缩小模型尺寸,涉及到便捷地使用最新模型压缩技术。
Facebook希望在多种类型的设备上快速运行机器学习和深度学习模型,但是并没有一个通用的模型尺寸适用于所有的设备的后端。我们基线单元(baseline unit)就是现今大部分手机使用的ARM CPU,对于一些新型设备,我们也为GPU甚至是DSP做特定优化。ARM CPU是目前手机上比较常见的进行浮点运算的芯片,其中的一个关键点,就是使用 SIMD 单元,所以我们写了一套定制的 NEON Kernel,这些已经在开源的Caffe2go项目里面了,这比现存其它的 NEON Kernel 性能有了大幅提升。
对于卷积而言,我们的一个团队成员和一位实习生,开发了NNPack 库,包含了一系列先进的卷积算法(比如针对3x3的卷积的Winograd's minimal filtering算法),并且提供了大幅提升性能的工具。我们以上的这些工作,确实换来了性能的大幅提升,尤其是对于图像映射任务中的大型卷积的效果很好。
再次强调,后端需要足够小的框架核心,因为我们想把它放到任何地方。我们做到了大约只需要几百KB,就可以装载这个框架核心。针对高端的最新iPhone,我们的机器学习和深度学习系统对于GPU的数据并行性是非常友好的。所以我们写了一套定制的Metal Kernel,也使用了苹果的Metal Shader库,为Caffe2打造一个定制的GPU后端。这带来一系列好处,其中一个就是速度提升,比完全改造之前的速度提升了十倍;相比于已经优化过的CPU库,针对不同的问题,可以提升2-5倍速度。同时能耗也有了本质提升,所以我们可以进行更多的计算。
Android系统上的GPU也类似,我们与高通合作开发了“骁龙神经处理引擎”(SNPE),如今高通骁龙SoC芯片为大量的手机服务,现在是Caffe2的首要概念( first class concept),我们可以利用这些CPU和DSP,从本质上提升能效和性能。
下图是一个性能提升的例子。
当我们将模型装载到数十亿移动客户端上时,最小化overhead就变得尤为重要。你可以把这些模型看做是数百万、数千万的浮点数字集合,我们使用模型压缩技巧,在保持原有质量的同时缩小模型尺寸。我们的工具,来自韩松(Song Han)在2016年ICLR的一篇论文,他曾经也是我们团队的一名实习生。压缩的过程分好几步,首先我们对这些模型进行剪枝(pruning),丢掉一些不那么重要权重。当我们进行剪枝的时候,我们可以应用一些标准的量化技巧。你可以把这个过程想象成,在数十万的浮点数字中应用了一个标准的聚类算法技巧,
我们可以把每个32位的浮点数字都压缩到几个比特,代表其成本指数( cost index)。所以,这个过程大幅缩小了模型尺寸,之后可以经过重新训练,来弥补任何的量化损失,把精确度恢复过来。这当中,我们得到了一套码本(code book),代表了每一个权重的聚类分配。然后,我们可以应用标准通用的压缩算法,我们找到了一个最好用的“ZSTD算法”,能够提供异常高水平的压缩性能。
综合以上工具,我们可以让机器学习模型在压缩5-50倍的情况下,保持同样的精度。下面,让我的同事贾扬清给大家讲讲,这个系统如何应用到更广阔的机器学习生态里。
我们想要做的,是建造通用的机器学习和深度学习库,既可以扩展到数千种的云端设备中,也可以缩小至你手掌大小的移动设备里。
作为通用系统的Caffe2
机器学习模型可以在很多设备上运行,包括手机、服务器、云端、Raspberry Pi等,它也可以适用于工业级应用,比如自动驾驶。所有的这些应用场景特点不一,需求也不一样,开发出一套系统来适应这些不同的需求,是非常具有挑战性的。
Andrew在前面提到了“unix 哲学”,这就是我们一直遵守的原则。我们打造非常轻巧便携的框架核心,可以适用于各种移动端平台。这个核心用来管理各种底层函数库,也就是一个机器学习系统涉及的各个方面(包括卷积、池化等等)。然后,我们根据不同的运行环境插入不同的组件,来运行这些底层函数库。在服务器端,我们使用Gloo来进行大规模的训练,在移动端用NNPack库,在其它设备上使用Metal,等等。
Caffe2的易用性
当然,我们意识到,光靠Facebook的力量,不可能将这个系统放到所有的设备中。所以我们要打造的平台系统,非常注重开发的易用性,来便捷地运行不同特色的代码。这里有一个例子,机器学习领域有一个应用叫做 TSNE(高维数据可视化工具)的工具,在Caffe2里使用这个非常简单,代码如下,体现出Caffe2的弹性和可定制化。
健康生态需要合作伙伴共同开发
以上我们提到的功能,已经应用到了Facebook的很多产品里,例如计算机视觉、机器翻译、语音识别和预测。如今移动设备、PC机、可穿戴设备、云端等构成了大型生态,所以非常重要的一点是,整个行业伙伴合作起来构建一个联盟,创造健康的生态来持续推进深度学习的发展。
在这里,我们非常高兴地向大家展示一个产业线合作的成功案例。我想,大家应该都知道GPU对如今的机器学习发展很重要,我们与Nvidia进行多方位的合作,比如我们将cuDNN库整合进我们的系统中,打造成了可能是迄今为止最快的一个计算机视觉系统,可以将数百万的图像在几分钟内处理完。
另外一个例子,就是与英特尔合作。当进入部署的环节,将一个深度学习系统放到云端,非常重要的一点就是,有高性能的CPU库。其中有一系列的工作称为MLP(多层感知),对于预测工作非常重要,我们与英特尔合作开发了一个MKL DNN库,整合进Caffe2当中。
前面我们谈到,在移动端与高通骁龙合作了SNPE库,可以运行机器学习模型,尤其是CNN,往往能在非常优秀的能耗表现下,保持快5倍的速度。使用者不用担心具体的硬件,快速上手使用GPU和DSP等新型硬件。当然,如今离开云什么也干不了,或许你在用PC机运行机器学习模型的时候,会感到很困难,所以我们也与亚马逊及微软合作,将这些深度学习库部署在云上。你可以使用一个云端实例,从而集中于手头的研究和产品工作,而不需要越过重重关卡自己去编制一个库。
Caffe2已经在Facebook内部进行了很多严格测试,现在能够跟各位合作伙伴一起共同推进Caffe2在深度学习里的应用,我们感到很激动,也很荣幸。以上谈到的工具和库都已经放到网上了,我们将会持续致力于社区的工作,让AI提升人们的生活水平,拉近人们之间的关系,创造一个更友善的世界。
注:恒亮和黄鑫对本文亦有贡献。
更多雷锋网文章:
专访FPGA 2017最佳论文得主深鉴科技:深度学习的最大瓶颈是带宽问题而非计算
雷峰网原创文章,未经授权禁止转载。详情见转载须知。