生成模型：基于单张图片找到物体位置

本文作者： AI研习社-译站

2019-02-13 11:26

导语：机器人技术和自动驾驶的兴起驱使人们需要更好的机器视觉。

生成模型：基于单张图片找到物体位置

本文为 AI 研习社编译的技术博客，原标题：
Generative models: finding the object position by a single image
作者 | Ian Tsybulkin
翻译 | 小Y的彩笔
校对 | 邓普斯•杰弗审核 | 酱番梨整理 | 菠萝妹
原文链接：
https://medium.com/@iantsybulkin/generative-models-finding-the-object-position-by-a-single-image-cc36b160a428

机器人技术和自动驾驶的兴起驱使人们需要更好的机器视觉。有许多不同的方法可以帮助机器人来给自己定位，导航，防止碰撞等等。这其中的一些方法要求非常复杂的 AI 算法，巨大的训练数据集，和昂贵的硬件。在这篇文章中，我们将展示一个相对简单和强大的算法，既不要求初步训练也不需要强大的硬件来运行。你只需要知道机器人预计要检测出哪种物体。这个算法仅花费很小的计算能力就可以以很棒的准确率检测到目标的位置。

工业上的应用

更具体的，让我们假设有一个传送带在传送不同尺寸的盒子，一个机器人需要将他们堆到不同大小的托盘上。为了实现这个，机器人需要检测盒子的类型和它的位置。盒子的位置可以用（x, y)坐标和盒子一条边和x轴形成的夹角来定义，比如，盒子沿传送带排列。机器人只有固定在传送带上的相机。

生成模型：基于单张图片找到物体位置

相机的启动

我们将会生成许多虚拟的图像，对应传送带上盒子的不同位置。由于这个原因，我们需要知道相机的坐标，和它相对于参考框架的角度，这些参考框架是与传送带相关的，我们称之为全局参考框架。

生成模型：基于单张图片找到物体位置

相机的启动

知道相机得坐标系和它的角度，我们可以找到相机的外部矩阵，而相机的外部矩阵是由它的特征确定的，比如焦距和像素数。外部矩阵可以轻易的通过一个标准的相机校准流程得到。

所以将任意在全局参考框架中的 3D 向量转化为一个图像像素的矩阵，可以用内部矩阵和外部矩阵的乘积得到，我们把它记作 M。

生成模型：基于单张图片找到物体位置

那么，我们找到了一个由相机矩阵定义的 2D 或 3D 的转换，它允许我们生成不同状态下盒子的虚拟图像。

生成图像

如果可以将任意的 3D 向量转换成图像，如果有盒子的 {x, y} 位置，角度 α 和维度 {W x D x H}，我们就能生成图像来表示在相机眼中盒子是什么样的。也就是说对于任何状态的盒子 {x, y, α, t}，我们可以构建一个虚拟图像来表示在相机眼中类型 t，位置在 {x, y}，角度为 α 的盒子的样子。

生成模型：基于单张图片找到物体位置