AI管理个人视频，分享快乐是否更简单？

本文作者：伍文靓

2019-04-04 19:30

导语：时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平，同时为人们提供更多方式来追忆他们宝贵的记忆。

AI管理个人视频，分享快乐是否更简单？

雷锋网注：【图片来源：Google Blog 所有者：Sudheendra Vijayanarasimhan and David Ross 】

如今，人们可以通过录制视频的方式与朋友和爱人分享美好时光，这已经不再是什么新鲜事。然而，每个拥有大量视频素材的人都会告诉你这样一个事实：遍历所有原始视频素材，寻找值得重温，或者适合与家人朋友共享的完美视频片段，是一项十分耗时的工作。

由于谷歌图片会自动在视频中寻找具有纪念意义的画面，并创建动画，所以，像孩子吹灭蜡烛的瞬间，或者朋友跳进泳池的瞬间，诸如此类的画面都可以被快速捕捉。这样一来，与朋友和家人分享美妙瞬间就容易多了。

在反复研究了用于时序动作定位（TAL）的R-CNN架构之后，自动化方面的一些难题已解决。这些难题的棘手之处在于，从千万种不同排列的数据中完成辨认或分类。因此，我们建立了TALNet，它能在一定时间内识别大量的短暂性动作。目前来说，相比起其他方法，TALNet完成这个任务的用时最短。它还允许谷歌图片推荐视频的最佳画面，让你可以与朋友和家人分享。

AI管理个人视频，分享快乐是否更简单？

雷锋网注：【图片来源：Google Blog 所有者：Sudheendra Vijayanarasimhan and David Ross 】

想要识别视频中的美妙瞬间，第一步是将人们可能希望保留的动作瞬间集合起来，比如吹灭生日蜡烛，猫摇尾巴等。然后，我们将这些带有特定动作的视频片段进行注释，以创建一个大型培训数据库。之后，我们会要求评定员找出并标记所有时刻。最后，模型经过这个带注释的数据集训练，之后就可以在全新的视频中识别所需的瞬间。

识别这些动作属于计算机视觉领域，它与生活中常见的对象识别一样，属于视觉检测的范畴。然而，TAL的目的是，在一个冗长且未修剪的视频里，标识每个动作的开始和结束时间，并给不同的动作贴上标签(如“吹灭蜡烛”)。它更侧重在一维视频帧序列中捕捉包含动作的时间片段。

我们使用的TALNet方法是受到了R-CNN二维图像对象检测框架的启发。因此，要理解TALNet，首先要理解R-CNN。下图演示了如何使用R-CNN架构进行对象检测。

AI管理个人视频，分享快乐是否更简单？

雷锋网注：【图片来源：Google Blog 所有者：Sudheendra Vijayanarasimhan and David Ross 】

第一步是生成一组对象推荐，可以对图像中的对象进行分类。在此之前，要先通过卷积神经网络(CNN)将输入图像转换为二维特征图。然后，对象推荐网络围绕候选对象生成包围框。这些框是在多个尺度上生成的，以便应对自然图像中对象大小的不确定性。在对象确定之后，使用深度神经网络(DNN)将边界框中的对象分类为特定对象，比如“人”、“自行车”等。

时序动作定位是用一种类似于R-CNN的方式完成的。首先将视频输入帧序列转换为编码场景的一维特征映射序列。此映射被传递到一个视频段推荐网络，该网络生成候选段，每个候选段由开始和结束时间来定义。然后，DNN对视频片段中的动作进行分类，比如灌篮、传球。

AI管理个人视频，分享快乐是否更简单？

雷锋网注：【图片来源：Google Blog 所有者：Sudheendra Vijayanarasimhan and David Ross 】

虽然时序动作定位可以看作是对象检测的一维对应物，但是，处理动作定位有一些值得注意的问题。为了将R-CNN方法应用到动作定位领域，我们特意解决了三个问题，并重新设计了体系结构来专门解决这些问题。

1.动作在持续时间方面变量更大

动作执行的时间范围变化很大，可以从几秒钟到几分钟不等。对于长时间的动作，理解动作的每一个框架并不重要。相反，我们可以通过快速浏览视频，使用扩展的时间卷积来更好地处理这个动作。这种方法允许TALNet搜索视频中的动作，同时根据既定的膨胀率跳过交替帧。根据锚段的长度自动选择不同速率的视频进行分析，可以有效地识别大至整个视频或短至一秒的动作。

2.目标动作前后的内容很重要

目标动作前后的内容包含了定位和分类的关键信息，这里说的是时间前后，而不是空间前后。因此，我们在时间内容上进行了编码，方法是在推荐生成和分类生成的阶段，将目标段在时间前后上按一定比例扩展。

3.目标动作需要多模式输入

目标动作由外观、运动轨迹，有时甚至是音频信息来定义。因此，为了获得最佳的结果，考虑特征的多种形式是很重要的。我们对推荐生成网络和分类网络都使用了一种后期融合方案，其中每种模式都有一个单独的推荐生成网络，这些网络的输出组合在一起才能得到最终的推荐集。

这些推荐使用单独的分类网络对每种模式进行分类，然后经过综合平均得到最终的预测。由于这些改进，在THUMOS的14检测基准上，TALNet在动作推荐和行动定位方面表现最佳，并在ActivityNet项目中展示了其竞争力。现在，每当人们将视频保存到谷歌图片中时，模型就会开始识别这些视频并创建动画来共享。

我们正在不断完善，使用更多的数据、特性和模型来提高动作定位的精度。时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平，同时为人们提供更多方式来追忆他们宝贵的记忆。

雷锋网注：本文编译自Google AI Blog

【封面图片来源：网站名Google AI Blog，所有者：Sudheendra Vijayanarasimhan and David Ross】

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

1人收藏

伍文靓

主编

WeChat ID：JANE_WW5 | 关注智能汽车以及自动驾驶

扫描关注作者微信

发私信

当月热门文章