微软亚洲研究院资深研究员梅涛：原来视频可以这么玩了！ | CCF-GAIR 2017

本文作者：汪思颖

编辑：郭奕欣

2017-07-10 11:11

专题：GAIR 2017

导语：视频也可以像美图一样玩了。

7月9日，由中国计算机学会（CCF）主办，雷锋网与香港中文大学（深圳）承办的CCF-GAIR 2017全球人工智能与机器人峰会进入了第三天。在CV+专场首场，微软亚洲研究院资深研究员梅涛博士为大会带来了题为《Video Content 3C: Creation, Curation, Consumption》的分享，即视频的创造、处理和消费。雷锋网对梅涛博士的演讲内容梳理如下：

微软亚洲研究院资深研究员梅涛：原来视频可以这么玩了！ | CCF-GAIR 2017

为什么要讲视频的内容，梅涛博士提到如下几点。

一，视频跟图像相比信息更丰富，处理起来也更富挑战性；
二，大家近来看到比较多的是视觉领域比如人脸、安防方面的进展，而视频（尤其是短视频）相对来说是比较崭新的领域；
三，他本人从事视频分析的研究和产品已经十多年了，在这十几年里，几乎人人都说视频是下一个风口，今天看来这个说法似乎也是成立的。

在传统的视觉理解的方法里，要做视觉问题基本上分三个步骤：

第一，理解一个物体，比如说识别一个桌子，首先要检测一个关键点（比如角、边、面等）；
第二，人为设计一些特征来描述这些点的视觉属性；
第三，采用一些分类器将这些人为设计的特征作为输入进行分类和识别。

“现在的深度学习，尤其是在2012开始，图像理解的错误率在不断降低，深度神经网络也从最早的8层到20多层，到现在能达到152层。我们最新的工作也表明，视频理解的深度神经网络也可以从2015年3D CNN的11层做到现在的199层。”

梅涛博士也在演讲中表示，视频内容的生命周期大致可以分为三个部分，即视频的创作、处理和消费：

creation

要讨论视频的创作，这里面涉及到一个基本概念，那就是视频的产生原理。“Video的产生是先把Video切成一个一个的镜头，可以看成是一个一个断码，然后每一个镜头再组合编成一个故事或场景，每一个镜头还可以再细成子镜头，每个子镜头可以用一个关键帧来代表。通过这种分层式结构可以把一段非线性的视频流像切分文章一样进行结构化，这种结构化是后面做视频处理和分析的基础。通过这种结构化将视频分解成不同的单元，就可以做视频的自动摘要，即将一段长视频自动剪辑为精彩的短视频，或将一段长视频用一些具有高度视觉代表性的关键帧表示。这些摘要使得用户对长视频的非线性快速浏览成为可能。”

梅涛博士表示，微软目前将视频摘要的技术用在了Bing的视频搜索里，现在全世界有八百万的Bing用户通过一种叫multi-thumb的技术，可以快速预览每一个视频搜索结果。

此外，微软研究院研发的PIX是一个全新的相机app，它可以在你按下拍摄按键的同时就对拍摄的视频进行实时处理，可以将一段抖动的视频变得平稳，还可以自动判断视频中静止和动态的像素，生成 loopy video animation。

curation

当用户有了视频之后，研究者要做的事情是给视频片段打上标签，这样后面的搜索就可以基于标签搜到视频的内容里面去。“我们最近的工作可以对视频内容打上1000多个静态标签和超过500个以上的动作标签。我们设计的P3D（pseudo 3D resent）是专门为视频内容理解而精心设计的3D残差网络。”

做图像分析目前最好的深度神经网络是微软亚洲研究院在2015年提出的152层的残差网络（ResNet），目前最深可以做到1000层。但是在视频领域，专门为视频设计的最有效的3D CNN目前才11层。为了解决这一问题，梅涛博士表示，团队最近借用ResNet的思想，将3D CNN的层数做到了199，识别率能在UCF 101数据集上比之前的3D CNN提高6到7个百分点。这一对视频进行自动标签的技术，将会被使用在微软的Azure云服务中。

实现了视频自动标签技术外，梅涛博士还阐述了团队“更进一步”的研究工作：用一段连贯通顺的自然语言，而不是孤立的单个标签，来描述一段视频内容。

“比如给定这段视频，我们能不能生成一句话来描述这个Video？以前我们说这个Video是一个舞蹈，现在可以告诉你这是一群人在跳一段什么舞蹈，这个技术就叫Video Captioning。这个技术使得自动生成视频的标题成为可能。”

微软亚洲研究院目前把这个技术用在了聊天机器人的自动评价功能里，例如微软小冰，当用户上传视频给小冰，它会夸赞对方。在这个技术上线一个月后，小冰在某视频网站上的粉丝数涨了60%。当然，小冰现在还可以根据图片内容写现代诗，将来我们希望小冰能够根据视频来写诗。

“我们也可以将Video进行编辑，加上滤镜，或是做风格的转换，把自然的Video变得非常卡通。Video中的人物分割出来可以放到另外一个虚拟的场景里面去。你可以想象，当两个人在异地谈恋爱的时候，我们能够给他一个房间，让他们在同一个房间里、在星空下、在安静湖面上的一艘小船上进行聊天。

另外，我们也可以提供storytelling的服务，让原始的、没有经过任何编辑和处理的image、video集合变成一段非常吸引人的、有一定设计感和视觉感的故事，这段视频demo就是机器自动产生的效果。加上人工的处理，视频就可以变得更加时尚。”

consumption

视频的消费往往和广告紧密相关。梅涛提到，做Video广告有两个问题需要解决：第一个问题是广告到底放在Video的什么位置；第二个问题是选什么样的广告，这个广告跟你插入点的信息是不是相关，使得用户接受度更加好。

他们的解决方案是将Video进行分解，并计算出两种度量，一个是discontinuity，衡量一个广告插入点的故事情节是否连续；另一个是attractiveness，衡量一段原始视频的内容是否精彩。对这两种度量进行不同的组合就可以满足符合广告商（advertiser）或用户（viewer）的需求。

最后梅涛总结道，在做科研的人看来，AI也好，深度学习也好，落地都有很长的路要走。“虽然计算机视觉已经发展了50多年，虽然现在AI炒的很火热，但做科研和技术的，还是要脚踏实地去解决一个个的场景和一个个底层的基础难题。”

雷锋网AI科技评论原创文章，更多详细的演讲内容参见雷锋网AI科技评论后续报道。

微软亚洲研究院资深研究员梅涛：原来视频可以这么玩了！ | CCF-GAIR 2017

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

专题

GAIR 2017

本专题其他文章

汪思颖

编辑

关注AI学术，例如论文

发私信

当月热门文章