用TensorFlow实现物体检测的像素级分类

本文作者：图普科技

编辑：郭奕欣

2018-04-14 08:02

导语：TensorFlow 的物体检测从原来的图像级别成功上升到了像素级别。

雷锋网 AI 科技评论按：本文由「图普科技」编译自Using Tensorflow Object Detection to Do Pixel Wise Classification。

最近，TensorFlow 的「物体检测 API」有了一个新功能，它能根据目标对象的像素位置来确定该对象的像素。换句话来说，TensorFlow 的物体检测从原来的图像级别成功上升到了像素级别。

使用 TensorFlow 的「物体检测 API」图片中的物体进行识别，最后的结果是图片中一个个将不同物体框起来的方框。最近，这个「物体检测 API」有了一个新功能，它能根据目标对象的像素位置确定该对象的像素，实现物体的像素分类。

用TensorFlow实现物体检测的像素级分类

TensorFlow 的物体检测 API 模型——Mask-RCNN

实例分割

「实例分割」是物体检测的延伸，它能让我们在普通的物体检测的基础上获取关于该对象更加精确、全面的信息。

在什么情况下我们才需要这样精确的信息呢？

无人驾驶汽车
为了确保安全，无人驾驶汽车需要精确定位道路上其他车辆和行人。
机器人系统
机器人在连接两个部件时，如果知道这两个部件的确切位置，那么机器人的操作就会更加高效、准确。

「实例分割」的方法有很多，TensorFlow 进行「实例分割」使用的是 Mask RCNN 算法。

Mask R-CNN 算法概述

用TensorFlow实现物体检测的像素级分类

Mask RCNN 算法架构

在介绍 Mask RCNN 之前，我们先来认识一下 Faster R-CNN。

Faster-RCNN 是一个用于物体检测的算法，它被分为两个阶段：第一阶段被称为「候选区域生成网络」（RPN），即生成候选物体的边框；第二阶段本质上是 Fast R-CNN 算法，即利用 RolPool 从每个候选边框获取对象特征，并执行分类和边框回归。这两个阶段所使用的特征可以共享，以更快地获得图像推算结果。

Faster R-CNN 对每个候选对象都有两个输出，一个是分类标签，另一个是对象边框。而 Mask-RCNN 就是在 Faster R-CNN 的两个输出的基础上，添加一个掩码的输出，该掩码是一个表示对象在边框中像素的二元掩码。但是这个新添加的掩码输出与原来的分类和边框输出不同，它需要物体更加精细的空间布局和位置信息。因此，Mask R-CNN 需要使用「全卷积神经网络」（FCN）。

用TensorFlow实现物体检测的像素级分类