0
本文作者: 伍文靓 | 2019-04-04 19:30 |
雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
如今,人们可以通过录制视频的方式与朋友和爱人分享美好时光,这已经不再是什么新鲜事。然而,每个拥有大量视频素材的人都会告诉你这样一个事实:遍历所有原始视频素材,寻找值得重温,或者适合与家人朋友共享的完美视频片段,是一项十分耗时的工作。
由于谷歌图片会自动在视频中寻找具有纪念意义的画面,并创建动画,所以,像孩子吹灭蜡烛的瞬间,或者朋友跳进泳池的瞬间,诸如此类的画面都可以被快速捕捉。这样一来,与朋友和家人分享美妙瞬间就容易多了。
在反复研究了用于时序动作定位(TAL)的R-CNN架构之后,自动化方面的一些难题已解决。这些难题的棘手之处在于,从千万种不同排列的数据中完成辨认或分类。因此,我们建立了TALNet,它能在一定时间内识别大量的短暂性动作。目前来说,相比起其他方法,TALNet完成这个任务的用时最短。它还允许谷歌图片推荐视频的最佳画面,让你可以与朋友和家人分享。
雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
想要识别视频中的美妙瞬间,第一步是将人们可能希望保留的动作瞬间集合起来,比如吹灭生日蜡烛,猫摇尾巴等。然后,我们将这些带有特定动作的视频片段进行注释,以创建一个大型培训数据库。之后,我们会要求评定员找出并标记所有时刻。最后,模型经过这个带注释的数据集训练,之后就可以在全新的视频中识别所需的瞬间。
识别这些动作属于计算机视觉领域,它与生活中常见的对象识别一样,属于视觉检测的范畴。然而,TAL的目的是,在一个冗长且未修剪的视频里,标识每个动作的开始和结束时间,并给不同的动作贴上标签(如“吹灭蜡烛”)。它更侧重在一维视频帧序列中捕捉包含动作的时间片段。
我们使用的TALNet方法是受到了R-CNN二维图像对象检测框架的启发。因此,要理解TALNet,首先要理解R-CNN。下图演示了如何使用R-CNN架构进行对象检测。
雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
第一步是生成一组对象推荐,可以对图像中的对象进行分类。在此之前,要先通过卷积神经网络(CNN)将输入图像转换为二维特征图。然后,对象推荐网络围绕候选对象生成包围框。这些框是在多个尺度上生成的,以便应对自然图像中对象大小的不确定性。在对象确定之后,使用深度神经网络(DNN)将边界框中的对象分类为特定对象,比如“人”、“自行车”等。
时序动作定位是用一种类似于R-CNN的方式完成的。首先将视频输入帧序列转换为编码场景的一维特征映射序列。此映射被传递到一个视频段推荐网络,该网络生成候选段,每个候选段由开始和结束时间来定义。然后,DNN对视频片段中的动作进行分类,比如灌篮、传球。
雷锋网注:【 图片来源:Google Blog 所有者:Sudheendra Vijayanarasimhan and David Ross 】
虽然时序动作定位可以看作是对象检测的一维对应物,但是,处理动作定位有一些值得注意的问题。为了将R-CNN方法应用到动作定位领域,我们特意解决了三个问题,并重新设计了体系结构来专门解决这些问题。
1.动作在持续时间方面变量更大
动作执行的时间范围变化很大,可以从几秒钟到几分钟不等。对于长时间的动作,理解动作的每一个框架并不重要。相反,我们可以通过快速浏览视频,使用扩展的时间卷积来更好地处理这个动作。这种方法允许TALNet搜索视频中的动作,同时根据既定的膨胀率跳过交替帧。根据锚段的长度自动选择不同速率的视频进行分析,可以有效地识别大至整个视频或短至一秒的动作。
目标动作前后的内容包含了定位和分类的关键信息,这里说的是时间前后,而不是空间前后。因此,我们在时间内容上进行了编码,方法是在推荐生成和分类生成的阶段,将目标段在时间前后上按一定比例扩展。
3.目标动作需要多模式输入
目标动作由外观、运动轨迹,有时甚至是音频信息来定义。因此,为了获得最佳的结果,考虑特征的多种形式是很重要的。我们对推荐生成网络和分类网络都使用了一种后期融合方案,其中每种模式都有一个单独的推荐生成网络,这些网络的输出组合在一起才能得到最终的推荐集。
这些推荐使用单独的分类网络对每种模式进行分类,然后经过综合平均得到最终的预测。由于这些改进,在THUMOS的14检测基准上,TALNet在动作推荐和行动定位方面表现最佳,并在ActivityNet项目中展示了其竞争力。现在,每当人们将视频保存到谷歌图片中时,模型就会开始识别这些视频并创建动画来共享。
我们正在不断完善,使用更多的数据、特性和模型来提高动作定位的精度。时序动作定位的改进可以推动视频亮点、视频摘要、视频搜索等许多重要功能的进展。我们希望继续提高这一领域的技术水平,同时为人们提供更多方式来追忆他们宝贵的记忆。
雷锋网注:本文编译自Google AI Blog
【封面图片来源:网站名Google AI Blog,所有者:Sudheendra Vijayanarasimhan and David Ross】
雷峰网版权文章,未经授权禁止转载。详情见转载须知。