0
当地时间 9 月 14 日,欧洲计算机视觉顶级学术会议 ECCV 2018 在德国慕尼黑圆满落幕。据悉,ECCV 2018 规模空前,有近 3200 人参加,接收论文 776 篇;另有 43 场 Workshops 和 11 场 Tutorials。旷视科技研究院在院长孙剑博士的带领下远赴盛会,用心用力,推动全球范围计算机视觉的技术交流与产品落地。
长期以来,计算机视觉三大学术顶会 CVPR、ECCV 和 ICCV 一起发挥着举足轻重的平台担当作用,帮助产学研各方代表展示技术实力,增进学术交流。旷视科技作为全球人工智能独角兽代表,是计算机视觉三大 “C 位”会议的积极参与者,ICCV 2017 旷视科技打破谷歌、微软垄断,成为第一个问鼎 COCO 冠军的中国公司;CVPR 2018 旷视科技全面进击,论文、Demo、挑战赛、酒会,一个不少,掀起一股产学研交流热潮。
这次的 ECCV 2018,旷视科技同样保持着较高的参与度并收获颇丰:
1. ECCV 2018 共收录 10 篇旷视科技研究院涵盖多个 CV 子领域的论文;
2. 赢得 2018 COCO+Mapillary 挑战赛四项世界第一,成为 ECCV 夺冠最多的企业;
3. 基于深厚的人脸识别技术积淀,旷视摘得 2018 WIDER Face Challenge 世界冠军。
下文将一一呈现旷视科技 ECCV 之行的点滴瞬间。
据 ECCV 2018 官网信息,旷视科技共有 10 篇接收论文。从内容上看,论文涵盖 CV 技术的多个层面,小到一个新表示的提出,大到一个新模型的设计,乃至神经网络设计原则和新任务、新方法的制定,甚至弱监督学习的新探索,不一而足。
具体而言,旷视科技在以下技术领域实现新突破:网络架构设计(1 篇)、通用物体检测(2 篇)、语义分割(3 篇)、场景理解(1 篇)、文本识别与检测(2 篇)、人脸识别(1 篇)。
神经网络架构设计领域,ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design 不仅授之以鱼,还授之以渔,针对移动端深度学习提出第二代卷积神经网络 ShuffleNet V2,实现速度与精度的最优权衡,同时给出了神经网络架构的四个实用设计准则。这无疑将加速推进由深度学习驱动的计算机视觉技术在移动端的全面落地。此外,论文还提出网络架构设计应该考虑直接指标,比如速度,而不是间接指标,比如 FLOPs。
通用物体检测方面,旷视科技通过设计 1)新型骨干网络 DetNet 和 2)目标定位新架构 IoU-Net 推动该领域的发展。
DetNet: A Backbone network for Object Detection 的设计灵感源自图像分类与物体检测任务之间存在的落差。详细讲,DetNet 针对不同大小和尺度的物体而像 FPN 一样使用了更多的 stage;即便如此,在保留更大的特征图分辨率方面,它依然优于 ImageNet 预训练模型。但是,这会增加神经网络的计算和内存成本。为保证效率,旷视研究员又引入低复杂度的 Dilated Bottleneck,兼得较高的分辨率和较大的感受野。DetNet 不仅针对分类任务做了优化,对定位也很友好,并在 COCO 上的物体检测和实例分割任务中展现了出色的结果。
Acquisition of Localization Confidence for Accurate Object Detection (IoU-Net)实现了作为计算机视觉基石的目标检测技术的底层性原创突破。具体而言,通过学习预测与对应真实目标的 IoU,IoU-Net 可检测到的边界框的“定位置信度”,实现一种 IoU-guided NMS 流程,从而防止定位更准确的边界框被抑制。IoU-Net 很直观,可轻松集成到多种不同的检测模型中,大幅提升定位准确度。MS COCO 实验结果表明了该方法的有效性和实际应用潜力。研究员同时希望这些新视角可以启迪未来的目标检测工作。
旷视科技语义分割领域的论文占比最高:1)实现实时语义分割的双向网络 BiSeNet;2)优化解决语义分割特征融合问题的新方法 ExFuse;以及 3)通过实例级显著性检测和图划分实现弱监督语义分割的新方法。
BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 的提出基于三种主流的实时语义分割模型加速方法,并在特征融合模块和注意力优化模块的帮助下,把实时语义分割的性能推进到一个新高度。
ExFuse: Enhancing Feature Fusion for Semantic Segmentation 针对语义分割主流方法直接融合高低特征不奏效的问题而提出,创新性地在低级特征引入语义信息,在高级特征嵌入空间信息,优化解决特征融合的问题。
Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation 通过整合显著性检测和图划分算法,提出一种新型弱监督学习方法,加速语义分割发展,其最大亮点是既利用每个显著性实例的内在属性,又挖掘整个数据集范围内不同显著性实例的相互关系。
旷视科技借助统一感知解析网络 UPerNet 来优化场景理解问题。Unified Perceptual Parsing for Scene Understanding 提出名为统一感知解析 UPP 的新任务,要求机器视觉系统从一张图像中识别出尽可能多的视觉概念;又提出多任务框架 UPerNet ,开发训练策略以学习混杂标注。UPP 基准测试结果表明,UPerNet 可有效分割大量的图像概念。
在文本识别与检测方面,旷视科技贡献了 1)新型端到端可训练网络 Mask TextSpotter 和 2)检测任意形状文本的灵活表征 TextSnake 两个技术点。
Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 受到 Mask R-CNN 启发,通过分割文本区域检测文本,可胜任任意形状的文本;另外,相比其他方法,Mask TextSpotter 还可借助语义分割实现精确的文本检测和识别。
TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 可以拟合任意形状的文本,就像蛇一样改变形状适应外部环境;基于这一表示,出现了一种有效的场景文本检测方法,在包含若干个不同形式(水平、多方向、曲形)的文本数据集上做到当前最优。
GridFace 是旷视科技人脸识别领域的一项新突破。GridFace: Face Rectification via Learning Local Homography Transformations 可通过学习局部单应变换减少人脸变形,先校正,再识别,过硬的校正技术大幅提升了人脸识别的性能。相关实验结果已证明该方法的有效性和高效性。
ECCV 2018 最受瞩目的 COCO+Mapillary 联合挑战赛,中国战队夺获全部冠军。旷视科技参战 3 项 COCO 比赛和 1 项 Mapillary 比赛,分获 3 项 COCO 第一和 1 项 Mapillary 第一,四战皆胜,揽下了挑战赛的“大半江山”,在实例分割、全景分割和人体关键点检测上进行了迭代式新探索。
实例分割
实例分割是当前器视觉物体识别最前沿的技术之一,也是计算机视觉最核心的任务之一。旷视科技夺冠的关键是在模型的核心组件 Head 上做功夫,提出一种名为 Location Sensitive Header(LSH)的新方法。
传统 Mask R-CNN 方法借助 RoI Align 提高实例分割定位精度,但对 RoI Align之后的组件 Head 无暇顾及。旷视研究员发掘出一个对实例分割友好,对定位精度敏感的 Head。概括来说,LSH 重新设计了任务之间的组合,把分类和分割 combine 起来,这样做不仅可以优化开发实例分割定位能力,还可有效避免定位和分类之间的冲突。最终,旷视科技以 mmAP 0.486 的成绩拿下并列第一。
全景分割
全景分割是这次挑战赛的一项全新任务,代表着当前计算机视觉识别技术最前沿,没有之一。从任务层级看,全景分割会比实例分割更进一步。针对这次大赛,在端到端框架探索折戟之后,旷视研究员选定一种 two-fold 方案:整合语义分割和实例分割算法的输出。
这一做法需要克服两个问题:1)Stuff 的特殊性;2)Thing 的遮挡。首先,旷视研究员针对 Stuff 设计试验了更强的 Encoder Network,又针对 Stuff Context 设计专门的 Object Context Network,保证 Stuff 的性能;其次,由于放弃端到端框架,在图像融合之时会出现遮挡问题,旷视研究员给出了专门的 Spatial Hierarchical Relation 方法,根据不同物体的重叠面积排定图像理解的层级。旷视科技高歌猛进,最终在 COCO+Mapillary 实例分割两项任务中分别以 PQ 0.538 和 0.412 的成绩实力夺魁。
人体关键点检测
人体关键点检测需要在多角度、多目标、多尺寸等不受限条件下检测人体,同时精确定位人体关键点,自 2016 年第二届 COCO 挑战赛以来一直保留,目前是第三次迭代。COCO 2017,旷视科技曾夺得第一,这次乘胜追击,背后支撑的依然是“旷式”突破性技术。
由于当前主流的人体姿态估计网络都遭遇了瓶颈问题:增大骨干网络 Backbone 对精度提升的作用趋近于饱和,旷视研究员设计了新型 Cascade Backbone Network(CBN),可采用多层次跨阶段连接和由粗到细的监督策略,实现大幅的精度提升。CBN 采用小网络、多阶段、多层中间监督,跨阶段连接实现检测结果逐阶段精细提升,最终在 COCO 2018 人体关键点挑战数据集中获得 mmAP 0.764 的精度,顺利卫冕。
ECCV 2018 WIDER Face and Pedestrian Challenge 是一项全球范围内的计算机视觉顶级赛事和新基准竞赛,吸引超过 400 多支队伍参加,旷视科技参战其中的人脸检测比赛 WIDER Face Challenge,最终以 mmAP 0.5582 的成绩技压群雄,勇夺冠军。
这项比赛中,旷视科技基于 RetinaNet 提出一种新型级联检测器,既吸取了 Cascade R-CNN 不断提高阈值 refine 检测框的 insight,又保证了inference 时依然是单阶段检测器,取长补短,兼得性能与速度。这一原创方法在单模型单尺度下 mmAP 超过第二名 1.4 个点,最终 mmAP 超过第二名 2.5 个点,以较大领先优势夺得第一名。
以上是旷视科技 ECCV 2018 之行的一些掠影。
作为全球计算机视觉独角兽参加计算机视觉顶会,是对自身实力的一个验证和砥砺,也是一次相互交流和学习的好机会。旷视科技始于计算机视觉,深耕计算机视觉,人工智能的爆发与深度学习的发轫也在计算机视觉,从机器之眼开始,正如五亿四千万年之前,寒武纪生物大爆发的一个主要诱因是眼睛的出现。
能看的机器之眼,是计算机视觉技术与应用的共同目标,只不过技术是第一步。ECCV 2018,旷视科技交上了一份满意的答卷,踏出、踏实、踏稳了 AI 技术第一步,那么下一步,以非凡科技在全球范围内铸成 AI+IoT,旷视科技正在飞奔而来。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。