0
论文标题:Progressive Feature Polishing Network for Salient Object Detection
论文地址:https://arxiv.org/abs/1911.05942
本文为 AAAI2020 接收论文
解读作者:BBuf
摘要:图像的特征对于显著性目标检测非常重要。现有的方法主要集中在设计复杂的结构以合并多级特征并滤除混乱的特征。这篇论文提出了一个新的渐进式特征打磨网络(PFPN),通过重复使用多个特征打磨模块(FPM)可以检测出具有精细细节的显著目标,且无需任何后处理。FPM通过直接合并所有高级别的上下文信息来并行更新每个级别的特征并且可以保留特征图的尺寸和层次结构,这使得它可以应用在任何CNN结构中。PFPN在5个benchmark数据集上获得了SOTA。
显著性目标检测旨在提取出图像中最吸引人的区域,已经在计算机视觉中被广泛应用,如视频压缩,视觉跟踪以及图像检索。显著性检测主要依赖于图像语义特征,包括低级特征和高级特征。
因此,为了利用详细的语义特征,各种特征融合方法层出不穷。但由于某些特征层上的特征不准确,特征之间的长期依赖问题,对高层特征利用不充分会影响检测能力等原因导致这一问题仍然充满挑战。为了充分利用语义和细节信息,本文提出了一个简洁高效的渐进式特征打磨网络。这篇文章的贡献如下:
本文提出了一种用于显著目标检测的渐进式特征打磨网络以递归方式逐步完善特征。
对于每一个打磨步骤,论文提出FPM来精炼特征,从而保留特征图的尺寸和层次结构。它将高级语义信息直接集成到所有低级特征中以避免长期依赖问题。
在5个benchmark数据集上均获得了SOTA精度。
2.1 整体结构
用于显著性目标检测的渐进式特征打磨网络的整体结构如Figure2所示。
首先,输入图像被喂到骨干网络中提取出多个尺度的特征。论文中选择了ResNet-101做骨干网络。同时以VGG16做骨干网络的结果论文在实验部分也展示了。
具体来说ResNet-101网络可以用stride=2的下采样操作来分成5个块。这5个块的输出特征图可以表示为:Conv-1,Res-2,Res-3,Res-4,Res-5。为了减小特征图的尺寸使得实现更加简介,这些特征图首先经过第一个转换模块(Figure2中的TM1),其中每个级别的特征经过 1x1 卷积转换为相同的维度,例如在我们的实现中为 256 个。
在获得相同维度的多个特征之后,一系列的FPM模块被接在每个特征图后面以进行特征精炼。Figure2展示了一个 T=2 的例子。在每个FPM中,高级特征直接被引入到所有的低级特征以对其进行改进,这比间接方式更加有效并显著减少了信息损失。FPM的输入和输出有相同的维度并且所有的FPMs共享同一个网络结构。
我们对每个FPM使用不同的参数,以期它们可以逐渐学习专注于越来越多的细节信息。实验证明当 T=2 的时候,模型表现出了SOTA精度并且有20FPS的速度。
然后,模型利用第2个转换模块(Figure2中的TM2),这是由一个双线性上采样接一个 1x1 卷积组成的,直接将目标上采样为原始图像的分辨率并且将通道数压缩为32。
最后,一个融合模块(FM)被用来融合多个特征图获得最终的显著图。由于使用FPM之后的特征表示更加准确,因此FM使用简单的串联策略来实现,并且网络使用端到端的方式进行训练。
2.2 特征打磨模块
特征打磨模块(FPM)在论文提出的PFPN网络中是核心组件,FPM是一个简单而有效的模块,可以和任何卷积网络几何使用以完善特征表示。
它保留了CNN生成的多级特征,例如主干或者或者前一级的FPM输出,并学习使用残差连接更新它们。对于N个特征图F={fi,i=1,...,N},FPM会产生N个打磨后尺寸相同的特征图F^{p}={fi^p,i=1,...,N},如Figure2所示,FPM包含N个平行的FPM模块,每一个都对应于一个单独的特征图并表示为FPM-k。
具体来说,从较深的一侧到较浅的一侧采用了残差连接。结果,将具有全局信息的高级特征直接注入到较低级的特征中,以帮助更好的发现显著区域。以Figure2中的FPM1-3来说,Res-3,Res-4,Res-5的特征都通过shortcut连接被更新到Res-3上了。FPM还吸收了残差网络的优势(He et al. 2016),因此它可以更新特征图并逐渐滤除混乱的信息。
这由Figure2中的各种连接来说明。$FPM-k$模块的实现可以被如下公式化:
它接受N-k+1个特征图如{fj,j=k,..,N}。对于特征图fj,我们首先使用一个3x3的卷积+BN+ReLU的组件去捕获语义信息,然后将其插值到fk大小。这些插值上采样后的特征使用concat进行融合后,再经过一个 1x1 卷积降维获得pk。然后pk被当作残差函数去更新原始的特征图fk来计算最终的特征图f_k^p。当k=3时的一个例子如Figure3所示。
2.3 融合模块
论文使用融合模块(FM)来融合多个特征图的特征并检测显著对象。如Figure2所示,首先将TM2的多级特征进行Concat,然后送入两个 3x3 卷积层中。然后,在最后一个 1x1 卷积层中获得最终的显著图。
2.4 实现细节
论文使用交叉熵损失来优化最终的显著图和标注显著图。然后作者使用了一个辅助损失,具体就是优化在FM模块之前的一系列中间结果,最终网络的总损失如下:
下面的Table1展示了本文的方法在5个数据集上均获得了SOTA精度,证明了此方法的有效性。
为了充分利用语义和细节信息,本文提出了一个简洁高效的渐进式特征打磨网络(PFPN)。PFPN致力于通过递归的方式逐步精炼特征来改进多层次的特征图表示,对于每个特征打磨步骤,均用特征打磨模块(FPM)将高级语义信息直接集成到所有较低级别的特征图中,从而减少了信息丢失。最终,PFPN在5个benchmark上的性能明显优于16种最新方法。
雷锋网雷锋网雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。