Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

本文作者：哈帝•白求恩

编辑：郭奕欣

2017-07-22 03:40

专题：CVPR 2017

导语：Facebook在CVPR上的四篇论文解读。

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议，也是计算机视觉的世界三大顶会之一。2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开，雷锋网将赴前线做覆盖与报道。

论文一：ResNext:Aggregated Residual Transformations for Deep Neural Networks

深层神经网络的聚合残差变换

论文作者：Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu1, Kaiming He

论文链接：https://arxiv.org/abs/1611.05431

论文摘要：

据雷锋网(公众号：雷锋网)了解，Facebook团队和圣地亚哥大学的AI研究员提出了一种采用VGG / ResNets重复层次策略的图像分类网络架构。该网络中的一个模块执行一组转换，每个转换都是低维嵌入的，其输出是通过求和计算得到的。为了简单的实现这个想法，这些聚合的转换都具有相同的拓扑。这种设计可以自由的扩展到任何大量的转换，而无需专门设计。

在这种简化的情况下，该模型有两种其他等效形式。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

ResNeXt的等效构建块。（a）：聚集残余变换（b）：等同于（a），执行早期并置。（c）：等同于（a，b），执行分组卷积。

该团队的简单设计产生了一个均一的多分支架构，只需要设定几个超参数。这个策略揭示了一个全新的维度，称为“基数”（即转换集合的大小），它是除了深度和宽度的尺寸之外的又一个重要因素。

在ImageNet-1K数据集上，该团队的实验表明，即使在保持复杂性的限制条件下，增加基数也能够提高分类精度。此外，当增加容量的时候，增加基数相对于增加深度和宽度而言更加有效。随着基数C从1增加到32，保持复杂性的同时，错误率却不断降低。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

ImageNet-1K消融实验。（上半部分）：ResNet-50具有复杂性（41亿FLOP）; （下半部分）：ResNet-101具有复杂性（78亿FLOP）。错误率在224〜224个像素的单个体上进行评估。

该团队的名为ResNeXt的模型，是他们打入ILSVRC 2016分类任务的基础，他们在此次任务当中获得了第二名。该团队还进一步调查了ImageNet-5K集和COCO检测集上的ResNeXt，与ResNet对应相比，都显示出更好的结果。

论文二：Feature Pyramid Networks for Object Detection

用于对象检测的特征金字塔网络

论文作者：Tsung-Yi Lin, Piotr Doll, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie

论文链接： https://arxiv.org/pdf/1612.03144.pdf

论文摘要：

特征图像金字塔(featurized image pyramids)是用于检测不同尺度物体的识别系统的基本组成部分。但最近的深度学习对象检测器避免了使用金字塔表示方法，部分原因是由于它们是由计算得出的并且内存紧张。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

图1（a）使用图像金字塔构建特征金字塔。在每个图像尺度上独立地计算特征，速度很慢。（b）最近的检测系统选择仅使用单一尺度特征来更快地检测。（c）一个替代方案是重新使用由ConvNet计算得到的金字塔特征层次，就好像它是一个特征化的图像金字塔。（d）本文提出的特征金字塔网络（FPN）如（b）和（c）所示，但更准确。在该图中，特征图由蓝色轮廓表示，较粗的轮廓表示语义上更强的特征。

在本文中，谷歌团队和康奈尔大学团队利用深度卷积网络（(ConvNets)）的特征结构的金字塔形状，同时创建一个具有强大语义的特征金字塔。为了实现这一目标，需要依靠一种通过自上而下的路径和横向连接低分辨率、语义强大的特征与高分辨率，语义薄弱的特征，将它们连接组成架构（图1（d））。结果是组成一个在所有级别都具有丰富的语义的特征金字塔，并且可以使用单个输入图像快速构建。换句话说，本文展示了如何创建网络中的特征金字塔，可以用来替代特征图像金字塔而同时不牺牲速度或内存。该方法利用架构作为特征金字塔，其中每个级别独立地做出预测（例如，对象检测）

通过对小型，中型和大型对象（AR_s，AR_m和AR_l）的平均回忆AR，以及COCO-style的平均回忆（AR）来进行评估。报告每个图像100和1000个提案的结果（AR¹⁰⁰和AR^1k）。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

表1.使用RPN的边界框提案结果，对COCO最小值进行了评估。所有型号都在trainval35k上训练。 “横向”和“自顶向下”列分别表示侧向和自顶向下的连接。列“特征”表示顶部附着的特征图。所有结果都基于ResNet-50，并且共享相同的超参数。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

表2.使用 Fast R-CNN 对固定的提案集（RPN，{Pk}，表1（c））的对象检测结果，在COCO最小值集上进行评估。模型在trainval35k上训练。所有结果都基于ResNet-50，并且共享相同的超参数。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

表3.使用Faster R-CNN [29]的对象检测结果对COCO最小值进行了评估。 RPN网络与Fast R-CNN一致。模型在trainval35k上进行培训，并使用ResNet-50。

这种称为功能金字塔网络（FPN）的架构在几个应用程序中作为通用特征提取器都显示出了显着的改进。在basic Faster R-CNN系统中使用FPN，能够在COCO检测基准上获得最先进的单一模型结果，在没有响铃和口哨声的情况下，超过了所有现有的单一模型条目，包括了COCO 2016挑战赛的获奖者。此外，该金字塔结构可以用所有尺度进行训练，并在训练/测试时间也可以一致的使用。因此，FPN能够比所有现有的方法获得更高的精度。此外，这种改进是在单一规模基线上不增加测试时间的情况下实现的。研究者相信这些进展将有助于未来的研究和应用。该方法可以在GPU上以6 FPS运行，因此是多尺度对象检测的实用且准确的解决方案。

论文一：Learning Features by Watching Objects Move

通过观察物体移动来学习特征

论文作者：Deepak Pathak, Ross Girshick, Piotr Doll, Trevor Darrell, Bharath Hariharan1

Learning Features by Watching Objects Move

论文链接：https://arxiv.org/abs/1612.06370

论文摘要：

本文提出了一种新颖而直观的无监管特征学习方法。该方法是受到人类视觉系统的启发而得来的。一起移动的像素往往是同属于一个物体的。解析静态场景的能力随着时间的推移而改善，这表明基于运动的分组出现在早期，静态分组将在随后可能是基于由运动线索引导而获取的。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

图1.低等级的外观线索导致错误的分组（右上角）。运动可以帮助正确地分组，在一起移动的像素（左下方）将被识别为同一组的单个对象（右下）。使用无监督的基于运动的分组来训练ConvNet来分割静态图像中的对象，并显示出网络能够学习特征，并将其应用到其他任务中。

该团队在探讨是否可以使用基于低级运动的分组线索来学习有效的视觉表示。具体来说，他们将使用无监督的基于运动的视频片段来获得分段，并将其用作“伪地面真相”来训练卷积网络，以从单个帧中分割识别对象。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

图2.方法概述使用运动线索来分割视频中的对象而无需任何监督。然后，对ConvNet进行训练，从静态帧中预测这些分段，即没有任何运动线索。然后，将学习的到的物体表示应用到其他识别任务中。

Facebook 在CVPR 2017的四篇论文精选解读｜CVPR 2017

图7. ConvNet上生成的图像分段示例。 ConvNet能够识别运动对象，并从单个框架中分割出来。掩码并不完美，但它们确实能捕捉到一般物体的形状。

鉴于广泛证据显示，运动在人类视觉系统发展中发挥着关键作用，他们希望这种无监督学习的直接的方法将比在文献中研究的巧妙设计的任务更有效。事实上，广泛的实验表明，用于物体检测的转移学习时，该方法的表现在多种设置中都显着优于以前的无监督方法。特别是当目标任务的训练数据很少时，即使大多数ConvNet参数被冻结，该方法也保持着良好的性能。

雷锋网整理

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

4人收藏

专题

CVPR 2017

本专题其他文章

哈帝•白求恩

知情人士

发私信

当月热门文章