腾讯优图贾佳亚在“腾讯·云+未来”AI大数据专场分享：计算机视觉有哪三种打开方式？

本文作者：奕欣

2017-06-22 12:04

导语：贾佳亚在今日“腾讯·云+未来”AI大数据专场所做的主题演讲《计算机视觉前沿与应用》，雷锋网AI科技评论对速记做了不改动原意的编辑和整理。

腾讯优图实验室杰出科学家贾佳亚，香港中文大学计算机科学工程系终身教授，于 2017 年 5 月 15 日公布消息，全职加入腾讯优图实验室，负责计算机视觉、图像处理、模式识别等人工智能领域的研究,及人工智能与各应用场景结合的深度探索。

雷锋网了解到，贾佳亚在加入腾讯后鲜少露面，本次在“腾讯云+未来”AI大数据专场做主题演讲，也是为数不多能一窥腾讯优图实验室及研究成果的公开场合。以下是贾佳亚在今日“腾讯云+未来”AI大数据专场所做的主题演讲《计算机视觉前沿与应用》，雷锋网AI科技评论对速记做了不改动原意的编辑和整理。

腾讯优图贾佳亚在“腾讯·云+未来”AI大数据专场分享：计算机视觉有哪三种打开方式？

谢谢大家，刚才蒋杰和王龙都介绍了腾讯在整个腾讯云的部署中，其硬件和它的基础构架上的优势，我觉得这是一个非常重要的部分。

我今天给大家讲讲在 AI 的算法层面，我们能做什么事情。腾讯优图团队在世界上是做图像识别算法非常有优势的，我们有很强的研发团队，在深圳、香港、上海都有自己的研发队伍。这是腾讯这几年变化最大的地方，也就是我们会把新的技术、新的能力、新的硬件、新的软件全部提供给大家，希望给各位有需求的公司或者是业务人员有更加强大的助力。

计算机视觉是什么？它其实就是一种人的理解，我们看到东西的时候，不仅仅是看到红绿蓝三种颜色，这是我们最基本的对颜色的理解。但是当我们看一张图象的时候，我们不会分离看每一种颜色，我们会把它看成一个整体。这个图是我非常喜欢的，但是我想找到是谁创造的，在网上很难找到是谁发明的图片，这张图片是一张非常完美的正连和侧脸的结合，从一个角度看，你可以说这是一张正脸，你也可以说是一个侧脸。

什么叫计算机视觉？计算机视觉的目标是让计算机程序能够解读和理解图片，不仅仅是颜色，而是能够更高层的理解它的语义、理解它的特征，从表面来看这个事情是很简单的，事实上很难。1983 年，华盛顿第一次召开计算机视觉大会（雷锋网 AI 科技评论按：即 CVPR，国际计算机视觉与模式识别会议），到现在已经超过了 30 年的历史。在这 30 多年中，对我们现在很多从业者，或者在工业界的朋友而言，其实他们并不了解这 30 年里研究者们到底干了什么事情，有什么发生了。但是到了云的时代，我们会发现能更加直接地对云的技术进行展示，我们也能更加多地接触到用户使用这种技术。

我们怎么看待这个世界？首先我们要理解计算机视觉为什么要在 1983 年开始？你想想 1983 年的时候大家在用什么样的计算机？我之前在别的地方进行过一个讲座，我问大家还记不记得 2000 年的时候我们的是用什么样的计算机。那时候是没有 LED 和 LCD 的，那时候是用的很笨重的、很大的显示器，那时候用的手机是诺基亚，没有彩色屏幕，全部是一个单独的小机器，上面一个很小的屏幕。但在 1983 年的时候，我们这个领域开始建立起来的时候，那时候连计算机的基本能力都不具备，但是当时很多的科学家已经在开始想象，我们能不能在卫星图像上，比如说当时在军事运用上，或者是在一些非常高精尖的应用上，在卫星或者是载人飞船上面，能不能利用一些机器帮助人们解决问题，所以那时候就开始了这方面的研究。

这个研究是一种类比，我们之所以研究对视觉的理解过程，是因为我们人眼就是一种自然智能，我们能看到东西，当我们看到东西之后，我们就会自然想象，我能不能让一个机器也看到东西，这是很自然的。当然我们现在能隔空打物，我也想设计一个新的方案让机器也隔空打物，显然我们现在还不行，所以也不会让机器也这样。

在大脑皮层里，超过 50% 的神经原细胞是处理视觉的，所以我们说计算机视觉是最重要的方向，它代表了信息的多样性和可用的信息。

计算机视觉有三个打开方式，第一个是语义理解、识别、检测。当我们看到一张图的时候，我们能不能像人一样分析这张图里有什么东西。比如说现在这样一个在开车的人，当然这明明是一个人，只是他戴了一个头套，计算机会检测到这里面有一个狼，然后它有蓝色的眼睛，同时还在开车，这是一个理解过程、检测过程，这就是语义的理解、识别、检测，这是非常重要的一个计算机视觉的内容，在腾讯云上以后也会陆续输出这些部分。

腾讯优图贾佳亚在“腾讯·云+未来”AI大数据专场分享：计算机视觉有哪三种打开方式？

其次是不受想象力约束的神奇效果。前几年有一个电影是讲你在一个梦境里的变化，就是你不停地下楼梯，每次下到最后都回到原点。这个事情我们作为科学家来研究到底是什么原理，我们用软件重构了这样一个系统，我们确实可以在视觉模式上把它搭建起来，虽然在语义逻辑上不是很好理解的，但是我们在视觉上确实可以体现出来，最终产生很酷炫的效果，比如说这个球，它还可以在这上面跳来跳去，跳到最后它就回到原点了，你看他每次都在下台阶，结果却回到了原来的起点，这是一个特殊的神奇效果，在视觉上可以做的事情。

还有一些固有需求的图像视频计算，比如说我们需要通过一张图像把一些最重要的内容提取出来。

第一个打开方式，理解识别。理解识别的应用是非常广泛的，这张图是 2006—2012 年我们这个领域里的一个非常大的竞赛，这个竞赛叫做 PASCAL，这个竞赛是给你超过 1000 张图像，希望你从这几千张图像里面找出其中 20 个物体的类别。从 2009 年到 2012 年，在这个领域里有超过 20 种方法解决这个问题，它的准确率不断提高，但是它始终是有瓶颈的，因为类别很少，我们发现大家对这个比赛的认可度也就慢慢降低了。

后来出现了这个领域里最出名的一个比赛叫做 IMAGE NET，这是斯坦福大学的几个教授发起的比赛，它推翻了原来所有一切的竞赛规则，他说现在在整个数据库里包含了超过 14000 万张图像，相比以前的几千张或者几万张图象，这是一个巨大的进步，在量级上是完全不可同日而语的，同时它有超过 2 万多种类别，你告诉我这张图象是属于 2 万个类别的哪一个，这一个非常大的匹配过程和检测过程，所以 IMAGE NET 推翻了当时对数据的理解，以前大家专注于做小数据，因为大家觉得反正我没有大数据，不如就做小数据，当你在学术界真正的把大数据放出来的时候，是有更多的研究人员愿意去跟上的。

这张图是告诉大家，我们从 2010 年到 2014 年的时候，开始在这个数据库上做事情，最开始 2010 年的时候，大家发现我们的错误率是 28%，也就是说有 100 张图像里面，有 28 张图像是分错的，就是说它是找不到的，这个准确率已经是一个比较可以的准确率，大家会觉得，可能放在一些不太重要的岗位上或者应用上的时候就可以用了。但是到了 2011 年的时候，我们把它提高了 2%，也就是说现在可以多两张图像，能做得更好了。到 2012 年的时候，我们发现多了 10%，也就是说在 100 张图像里面多 10 张图片可以分析准确了。因为那一年出现了深度学习，它验证自己在整个领域里面，到底能不能推动 AI 的进程，就是通过这样一个竞赛，通过在那一年时间，把准确率提高 10% 这样一次事件，导致对于整个世界上所有的领域、所有的人，业界和学术界开始意识到，我们可以把这个事情做得更好。到现在可以做到 100 张图里只有一两张图是错误的，这个识别率远远高过人的识别率。人眼看一张图，你能分辨 2 万个种类吗？这是很难的事情。

另外一个就是检测，大家看到检测已经慢慢的变成这个领域的核心的内容或者是应用方向。大家可以想像以后我们的智能家居是什么样的，以后智能家居重要的应用可能是冰箱，你打开冰箱的时候，你会发现里面堆满了各种各样的东西，有苹果、梨、蔬菜、肉类，现在我们想进入智能家居的第一步，是不是说我打开一个冰箱，让电脑自动知道里面还有多少库存，如果库存不够的时候，我们要不要上京东去购买一些，或者我要去其它的电商买一些东西回来，这是一个很有趣的应用，我相信很多人或者是机构都在研发这些技术，其中一个重要的组成部分，在算法层面上，就是对物体的检测，也就是说我们希望发现中间到底这个是苹果还是西红柿，或者是其他的什么东西，它有多大，数量有多少，它能不能够用一个礼拜，或者说只够用 3 天，或者说你现在就必须买，否则明天就没饭吃了，这种状况下，我们希望通过一个检测来发现。

再往下走就是在最新的研究上，我希望能够分析到更加细颗粒度的图象识别，这个问题就对于智能驾驶、辅助驾驶，或者是大规模的城市理解和建设有着巨大的推动作用，因为在这样一个城市级的道路复杂环境下，你会看到每个东西都在动，上面一张图在下面会分割成不同的部分，机器会告诉你，我识别了这个车，识别了这个树，我也识别了这个电线杆和路，在智能驾驶或者辅助驾驶里需要有这样的颗粒度，越精细越好，以后希望通过计算机视觉帮助我们在自动驾驶这个新兴产业，这个市场规模可能是有几万亿美金，在这样的市场下，怎么体现我们在其中的技术实力，这是一个重要的部分。

第二个打开方式：新视觉效果。我给大家介绍一些好玩的东西。这是很早的一个连续剧，它当时有一个片头，就是这个人慢慢的从一张素描变成了一个人的状态，这个过场在当时是非常酷炫的。这是艺术家做出来的，他请了专门的人帮你画了一张素描的图，然后把这个图贴到视频里面慢慢的做转换，现在的 AI 已经自动实现这种功能了，比如说看到非常漂亮的自然场景的时候，我们团队研发的 AI 技术可以自动的产生非常有趣的一些效果，能够把它变成铅笔画、水彩画、油画，甚至是各种抽象的画法，我们在 2011 年的时候已经有这方面的一系列的论文介绍这件事情，这个现在变成了一个可控的东西，每一个客户想去使用这样的功能的时候，通过我们的云，通过我们这样一些技术的扩展方向，我们可以把这件事情很容易的做到，以往你可能需要请一个艺术家坐在边上，大概花一天或者两天时间帮你设计这样东西，今天你可能只要打开电脑，接上我们的网络，用上我们这样一个 API 或者 SDK，然后你在一秒钟内就得到这样一个结果，这是一个非常大的进步和进展，这也是为什么在技术层面上很多东西可以用的，也就是用得更加舒服，比人的操作来得更加方便和直接。

这是另外一个例子，我们当时做的时候有一个初衷，我们看这张表，大家都有做图表的经验，当你做了这个表格很漂亮的时候，结果打印出来发现并没有做的时候这么好的效果，原因是我们在电脑做出来的效果很好，但是打印机打出来的颜色并没有那么炫。所以我们在前几年花了一两个月的时间做了一个非常小的工具，这个工具就是当我看到这样一张彩色图的时候，我能把它自动转换成一个黑白图象，这样大家要打印这样一张彩色图象的时候，你可以打印出一张非常漂亮的黑白图象，这样你就可以用一个普通的黑白打印机，打印出一个效果上可以媲美于彩色打印机的功能，当然这个功能我们当年是想推销给各种各样的打印机公司的，好像打印机公司也没有兴趣，最后我们就没有用上。

这是另外一个例子，我们经常会画饼状图，在 PPT 里画的很好看，结果打印出来给老板观察的时候发现分不出具体的颜色的细节。我们就通过一个算法把它直接变成这样一张黑白打印的效果，最后出来的时候，我们可以在 29 毫秒之内，把这张图转变成可以接受的效果，这也是一个技术的进步，当然我们做这个事情也就花了大概一个月不到的时间，这是我觉得有趣的地方，计算机视觉永远可以产生一些新的大家想象不到的效果。

第三个打开方式：固有需求的图像视频计算。比如说我要做视频，我希望做前景、背景分割，我需要做手势识别，我需要做人的操作，在图像里面做一些逆运算，比如说去模糊，我看到这样一张图，比如说你跟领导站在台上拍了一张照片，或者是你在领奖的时候，或者是好不容易见到一个你想见的朋友，大家在一块儿开心的照了一张照片，结果照模糊了，这时候你就面临一个非常尴尬的境地，因为你不可能再回到原来的场地再拍一张照片，所以我们当时在设计算法的时候就在想，能不能通过这张图回复其中的固有信息呢？我们通过一个非常高级的计算过程，可以把中间所存在的一些字或者是一些重要的信息重构出来，这样的结果是可以通过我们现在的算法完整实现的。

这是另外一个例子，这个图是什么东西，估计在座的没有几位能看得清楚，但是我们通过算法可以告诉你，这是一张城市方向的图像，我们甚至可以看得出来上面是「多伦多」，是在这个城市拍摄的图像。

还有一个是强迫透视。大家如果喜欢摄影，你会发现这个很有意思，这是一双筷子，好像是在夹光点，其实是在拍照的时候特意布置的场景。甚至我们可以做这样一个场景，前面有一个人在吹，后面的人全倒的状况，实际上前景、后景是有深度分别的，这也是在计算机运算里面非常有趣的效果。我们在前两年的时候开始研究这样一些效果上面，是不是背后有自己的原因，我们找找看它的几何的原因，我们分析对一张完全清晰的图象，我们也可以分析各个边缘的细小的分别，通过这些细小的分别，我们可以得到一张图象以后，然后我们可以在后期再去把它变成单反效果，可以把背景虚化，把前景凸显出来，甚至我们可以切换，把这个模糊的地方换得不一样，把聚焦点放在别的地方。我知道在所有的相机厂商采用这个方法之前，我们在学术界里面已经有了一个非常大的研究，我们在这上面是有一系列论文在解决这个问题的，当然现在也有一些厂商是在用我们这个技术，在实现自己的一个后期的单反效果的增强。

这是其中的一个例子，比如说在一张图像上，我先拍一张图像，后期在这个手机上我可以重新做虚化，显示哪个地方是你想要的，哪个地方是你不想看的，这也是技术发展的一些有趣的进展。每到一个时刻，我们总会产生一些新的大家想象不到的事情，这些都会自然而然的产生。

我们优图团队实验室着力于在做一些最前沿的研发，我们希望把视觉、自然语言处理和语音这样三个大的方向结合起来，在语音这一块，我们在小微的专场里面还有另外一个同事会介绍我们在语音合成、人声分离等等一系列的技术上的进展，所以大家有兴趣可以在小微专场看到我们的另外一个介绍。

在视觉这一块，新的视觉体验、识别和视觉内容计算，这是我们不可分割的三个巨大的方向。在接下来可能会有更多的方向，但是在这几个方向上，我们要做的事情，或者是我们的能力是能够得到充分体现的。其实我加入腾讯的时间并不长，但是我觉得我们整个优图团队在腾讯里面所产生的价值，因为有了云的部署，我们优图的能力会扩展得更加快一些。以后如果是我们的客户，一定会接触到更多更有趣的效果和应用。

更多资讯请持续关注雷锋网。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

7人收藏

奕欣

初心者

扫描关注作者微信

发私信

当月热门文章