360副总裁颜水成教授:深度学习的研发目标及1×1卷积的功能 | CCF-GAIR 2017

本文作者：汪思颖

2017-07-08 08:11

专题：GAIR 2017

导语：想知道深度学习研发的追求的两种目标以及1×1卷积的功能吗？

7 月 7 日，由中国计算机学会（CCF）主办，雷锋网与香港中文大学（深圳）承办的CCF－GAIR 2017全球人工智能与机器人峰会在深圳大中华喜来登酒店如期开幕。奇虎360副总裁、首席科学家、IEEE Fellow、IAPR Fellow颜水成教授带来了主题为《深度学习：精度极限VS用户体验》的演讲。这是大会首日最后一场演讲。

深度学习研发的两种不同目标：

追求极限精度
针对一个具体的问题，去探索算法能达到的边界和极限。比如说我们可以设计更好的模型结构，可以用更大、更快的模型，也可以用大量的模型去做融合，另外一方面我们也会思考用更好的训练平台和更多的资源实现多机多卡分布式训练。在训练的时候可以利用海量的无标注数据，比如说利用预测学习的方式实现预训练，当训练好模型之后，又可以利用Baby-learning和增强学习的方式来增强模型的性能。
追求产品的体验
人工智能本身不是一个产品，必须跟具体的场景相结合才有它的价值，核心算法只是这里面的一个部分而已，最好的办法是算法和场景数据形成一个闭环，先训练出初始的模型，然后在具体的场景里得到模型失效的数据，用这些数据再来提升模型的精度，再把模型用到场景中，进行不断地迭代，最终在场景中达到它最好的体验。只有算法科学家和产品工程师结合，可能让不完美的算法产生完美的用户体验。有一个很明显的例子就是当前很多AR相机采用的萌颜效果。

总的来说第一个目标的特点是必须”用脑”，而第二个目标更多的是”用心”。

两种目标相互促进的实例：

在2016年，大家都觉得分类和检测已经可以在工业界中很好地使用，但是从来没有人觉得物体分割已经到了可以使用的阶段。我的研究组就做了很多人体分割的工作，给出一个图象，输出每个像素具体是什么东西，我们花了两年的时间把它的性能从44%提升到了86%。同时领域内有很多分割算法取得了很好的成果，去年年底工业界开始思考，确实有很多的应用场景可以受益于这种分割的技术，于是很多人开始思考怎么样去对模型进行加速，保证在一些限定的场景的性能能满足产品化的需求。

从今年开始，比如说美图秀秀和Snapchat可以把人的头发和脸分割出来，可以产生很好的头发美化的效果，360和其他一些公司则提供人体分割的技术，可以把人实时从自拍的视频里面分割出来，叠加到动态的场景，产生很多好玩、好看的效果。这是一个典型的因为追求精度极限达到一定程度时，就激发了新的产品形态的创新。

1×1卷积概念

纯粹的内积不能很好地模拟人的神经元的复杂工作方式，卷积可以用更复杂的网络结构来替代，当这种复杂的结构是多层感知机的时候，对应的后面操作就是1×1卷积，这个1×1卷积跟前面的3×3、5×5卷积叠加在一起，就会产生更复杂的抽象过程。基于1×1卷积的模型的参数可以降到很低，这样就为我们把深度学习往端上迁移提供了一个可能性。

1×1卷积功能

基于1x1 卷积的张量逼近分析可以很好地解释当前各种流行网络，GoogleNet、ResNet, ResNext里面微观结构的理论依据。

基于1x1卷积的分析可以将ResNet解释成Deeply Connected Network的一个特列，同时启发了我们提出的一个新网络，Dual-path Network。这个网络在ImageNet取得了单模型的最好性能。

通过对每一个卷积操作附加一个1x1卷积操作然后再点乘，虽然模型变复杂了，但可以大幅减少前向传播的计算量。

详细内容请关注雷锋网后续报告。雷锋网原创。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。