用深度学习技术，让你的眼睛可以控制电脑

本文作者： AI研习社-译站

2018-08-24 10:44

导语：在本文，我们将看到如何使用最先进的人工智能技术来解决这个问题，通过眼球运动把相应命令下达到你的计算机。

本文为 AI 研习社编译的技术博客，原标题 Use your eyes and Deep Learning to command your computer — A.I. Odyssey part. 2，作者为 Julien Despois。
翻译 | 陶玉龙、老赵校对 | Lamaric 审核 | Lamaric

用深度学习技术，让你的眼睛可以控制电脑

你有没有过这样的经历，当你在吃东西的时候，发现自己没有多余的手来调节电影的音量，或者调节屏幕的亮度？在本文，我们将看到如何使用最先进的人工智能技术来解决这个问题，通过眼球运动把相应命令下达到你的计算机。

注：在你阅读完本文之后，我邀请你继续阅读那些后续专为实现细节而写的帖子（https://medium.com/@juliendespois/a-i-odyssey-part-2-implementation-details-f126f18bd320#.t4gpenon3）。

引言

我们想要实现什么

这个项目的目标是用我们的眼睛来触发计算机上的动作。这是一个非常综合的问题，所以我们首先需要明确我们想要实现的内容。

例如，我们可以检测眼睛什么时候朝向特定的角落，然后从那个角度进行工作。然而，这是非常有限的，并不是很灵活，加上它需要我们对角落组合。所以作为替代，我们使用递归神经网络来学习识别完整的眼球运动。

数据

我们不想使用外部数据集进行工作，作为替代的，我们自己制作数据集。我们在模型的训练和预测阶段用了相同的数据源以及处理方式,这对于我们这个项目而言具有非常大的益处。

毫无疑问，从我们的眼睛中提取信息的最有效的方法是使用专用的特写镜头。借助于这样的硬件，我们可以直接跟踪瞳孔中心，从而做出各种各样的令人惊叹的数据资料。

我不想使用外部相机，所以我决定使用我笔记本电脑破旧的720P摄像头。

工作流程

在我们直接进入技术讨论之前，让我们回顾一下这个过程的步骤。这里是我提出的流程：

用摄像头拍一张照片并找到眼睛。
对图像进行预处理并提取重要的特征（你是想说是利用神经网络来实现吗？）。
保持最后几帧特征提取的运行记录。
基于运行记录实现眼球动作的预测。

用深度学习技术，让你的眼睛可以控制电脑

我们将使用管道法处理图像。

我们将通过本文下述步骤来实现，让我们开始吧！

获取眼睛图片

探测眼睛

直接通过摄像头，对图像降采样并将其转换为灰度图像(多颜色通道会产生大量冗余信息)，这会使得接下来的操作更加快速，有助于模型实时运行。

对于探测，我们将使用 HAAR Cascades（Haar 基于特征的级联分类器）（http://docs.opencv.org/trunk/d7/d8b/tutorial_py_face_detection.html），因为它们快捷，通过简单调整，我们可以得到良好结果，但在直接探测眼睛时会导致许多误报。为了消除这些影响，我们在图像中检测人脸而不是眼睛，然后可以在人脸上找到眼睛。

一旦获得含有眼睛的边界框，我们可以从最初的全尺寸摄像头抓拍中提取图像，这样就不会丢失任何信息了。

预处理数据

一旦找到了双眼，我们就需要为我们的数据集处理它们。要做到这一点，我们可以简单地将双眼重塑为固定正方形，24px 大小，并使用直方图归一化来消除阴影。

用深度学习技术，让你的眼睛可以控制电脑