专访地平线李源：CV大环境，也许情况没那么坏

本文作者：杨晓凡

2019-07-22 10:23

导语：从一线研究者身上一窥CV十年

雷锋网 AI 科技评论按：2007 年，清华大学计算机系学生李源凭论文《Tracking in Low Frame Rate Video: A Cascade Particle Filter with Discriminative Observers of Different Life》获得了当年的 CVPR 最佳学生论文奖，这也是中国学生史上第一次拿到这项在计算机视觉领域代表着不小荣誉的奖项，清华新闻网为此事撰写的新闻今天也还能看到。而后，李源在谷歌继续从事计算机视觉研究近十年，并在去年离开谷歌，加入了中国人工智能创业企业地平线（Horizon Robotics），成为地平线应用 AI 实验室的负责人。

巧的是，今年 CVPR 2019 的最佳学生论文也出自中国作者，这篇论文也让同样参加此次大会的李源有所留意。李源作为在计算机视觉研究一线「拼杀」了十余年的老兵，也作为计算机视觉领域历年发展、CVPR 历年变迁的亲历者，我们好奇她的经历如何反映了这个领域的变化、她如何看待这个领域的进展、如何看待计算机视觉的产业化，以及她对 CVPR 会议动向的理解。

雷锋网 AI 科技评论在 CVPR 2019 展区、地平线展台对李源进行了专访。

专访地平线李源：CV大环境，也许情况没那么坏

地平线团队在 CVPR 展台合影，右一为李源

计算机视觉科研和产品老兵

雷锋网 AI 科技评论： 2007年获得 CVPR 2007 最佳学生论文奖的时候，您还在攻读南加州大学的博士学位，当时的研究领域包括对象检测和追踪、对象整合、带有人体动作理解的上下文知识。这些年来研究领域是否有所变化？

李源：我毕业了以后去了谷歌，在谷歌期间主要的研究领域是大规模图像检索、细粒度对象识别、对象检测这些东西。谷歌的业务需要理解海量的图像里面的内容，包括一般的互联网上的图像，也包括个人的照片，方便做一些搜索相关的业务，例如商品的搜索、Google Photos搜索等等。

现在在地平线，我负责的团队是做计算机视觉方面的研究，项目范围比较广, 从基础的网络架构优化，到各种检测分割识别算法，再到针对特定应用场景的算法都有涉及。举例来说，网络结构优化，包括手工的、自动的(NAS)，因为我们有自己的芯片，需要针对芯片来优化网络结构, 这方面有不少论文, 最近比如DenseNas；再比如检测、分割、跟踪和识别，这次 CVPR 我们有一篇关于分割的 Oral paper（arxiv.org/abs/1803.01534）。 当前我们的研究方向在逐渐从单张图像往视频上转，从单传感器往多传感器转, 从2D往3D转。

针对应用场景的算法, 主要是和我们的驾驶以及 AIoT 两大产品线合作, 用算法的改进和创新加速产品落地. 我的团队里有几位资深的 tech lead 都很厉害。所以我对这些领域不精通，但他们都很精通。对我自己来说，和他们合作是一个宝贵的学习的过程。

关于发论文, 我从毕业了以后就基本上做得非常的面向应用，就是说发论文就不是我的目标了。做的东西虽然是偏科研，就是研究还没有被解决的问题，但是希望是能够用到产品上的，比如说能带来一些新的产品特性，或者改善现在的产品，所以很多时候需要考虑的问题并不光是算法上的创新。也比如说我在谷歌的时候有很多的问题都是来自于，面对缺少标注的、带有噪声的、但是非常大量的数据，要怎么做数据挖掘把它转化成有用的数据。包括模型设计的时候要考虑到效率、如何部署，这些都是需要端到端地考虑的问题。

雷锋网 AI 科技评论：作为应用 AI 实验室的负责人，工作模式是如何的（相比于纯学术研究）？

李源：我从毕业了以后就在做面向应用的计算机视觉科研，工作模式也一直没有太多的改变，就是刚才说的研究还没有被解决的问题，并且希望是能够用到产品上。

和产品线团队相比，由于我们隶属平台部门而不是某一个产品线，首先我们有很好的机会去了解不同产品线的需求，挖掘其中的共性，提高研发效率；第二我们可以更多的关注新算法，做有一定风险的，或是更长线的投入。

雷锋网 AI 科技评论：具体说是先设定一个工程目标然后确定技术瓶颈、定点突破？

李源：有时候是技术战略预判了, 需求一开始不完全清晰但是有个大概方向, 先有锤子(牛逼的算法)，然后去找钉子；有时候是先有钉子: 产品线说我要这个，但是现在做不了，然后我们去造锤子；有时候是钉子锤子逐步磨合迭代出来；几种状况都有。所以还挺有意思的，因为你要对产品和技术都有判断力，然后才能做决策，有时候还要考虑到资源, 比如自己的团队以及合作的团队各自擅长做什么。

雷锋网 AI 科技评论：有没有想要分享的心得或者对年轻学者的建议？

李源：想不出来什么不老生常谈的。一点是，每个人想做的事和适合做的事都不一样，比较容易成功的事一般是自己擅长的（会不断得到正反馈）或者是自己觉得很有热情的，应该去找到这样的事情；二是，一起工作的人很重要，找到一个支持你信任你的领导/导师，和靠谱的、志同道合的人一起工作事半功倍，同时也慷慨的帮助你的伙伴。我离开谷歌的时候一个同事对我说，再牛逼的项目往往几年后也面目全非，但是你给周围的人留下的影响是永久的。谷歌是一个很牛逼的公司，但是我离开以后想念我的领导和同事多过谷歌的技术；而地平线最让我感动的也是这里的小伙伴们。

计算机视觉领域，发展得健康吗？

专访地平线李源：CV大环境，也许情况没那么坏

CVPR 2019 workshop 论文海报展区

雷锋网 AI 科技评论：领域内都认可深度学习是一个强大的工具，大多数问题都可以通过DNN端到端地解决，以至于很多学术论文也是在这个思路上的小修小补，甚至有人认为整个领域的研究风气都开始更关注于某些具体环境下的解决方案设计而不是深入的理论探究。您认同这种观点吗？

李源：理论研究和包括你说的具体环境下解决方案，就是我们平时说的面向应用的论文，其实两种都需要，但是适合做这两种事情的人也不一样。

雷锋网 AI 科技评论：偏应用的论文比重是否太高了。因为我们现在有深度学习这样的工具，所以发这样的论文其实比较简单？

李源：CVPR上是比较高。我觉得这本质上是一个需求、产出、成本的平衡。现在我们可以看到，第一，计算机视觉各方面的应用需求是非常大的，相比10年前现在开始大量的落地了；二, 做一些面向应用的论文本身风险也相对低，平均下来对作者的要求也比基础理论研究低。一个现实的问题就是, 如果你博士生在读，可能会觉得做一面向应用的论文可能更容易做出来，周期短，同时对工业界来说也更有吸引力。

如果我们觉得应用论文和理论研究论文之间的比例是不理想的，觉得理论研究被轻视，那么要从整个社区来引导。

比如导师对学生的引导，我记得朱松纯老师有过一些访谈，非常有启发性，很多同学看了以后都觉得很有收获。我觉得我们需要多一些这样的。再比如地平线的徐伟老师在我们硅谷的研究院是做通用人工智能 Artificial General Intelligence，这是一个非常长期的科研课题。我觉得需要整个社区里面比较有影响力的人去带着大家做，或者鼓励大家做。

另外就是会议的组织上对某些研究成果的激励，其实除了 CVPR 以外有一些会议是更偏重基础研究的，也算是各有侧重吧.

现状上我觉得还好，出现这个情况，也是因为现在计算机视觉的技术逐渐成熟, 应用在蓬勃发展。

专访地平线李源：CV大环境，也许情况没那么坏

雷锋网 AI 科技评论：开幕式上，程序主席 Derek Hoiem 展示了这个图表，可以说现在是有记录以来论文数量增速最快的时候。所有人都知道这样的增速是不可能长期持续的，如果让您大胆地猜测一下的话，增速放缓最有可能是从什么时候、从哪些课题开始的？

李源：一个技术有突破以后，肯定会呈现一个爆发式增长的曲线，比如从深度学习开始很多东西都开始行得通了。它最后肯定是要减缓的，因为慢慢地从这个突破到下一个突破之间饱和了。而后一个突破还没出现的。

至于三年还是五年，很难做这样准确的预测。现在有些问题已经解决得差不多了，或者现有的技术已经不足以继续把它往上推了，就会变成增量式的，会看到每一篇论文的贡献变小了。我觉得最有可能放缓的课题应该可能就是单张图像上2D的感知，例如图像分类、检测、分割。

雷锋网 AI 科技评论：计算机视觉前辈 Alexei Efros 谈到未来五年的计算机视觉发展趋势时，说他对多模态学习不太乐观，比如视觉很难和语言结合，抽象程度相差太多，导致许多信息无法得到有效利用。您的看法如何？

李源：多模其实我还是很看好的，今年的最佳学生论文《Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation》就是多模。多模以前三四年前就开始流行，比如视觉问答（visual question answering）是 NLP+视觉，然后现在还有音频+视觉。其实深度学习出来以后，语言、声音、视觉的表征之间的距离被拉近了，所以我觉得这是一个很好的方向。

我们在地平线的团队有重点关注这个方向，例如语音图像的结合。现在不能要求它做得特别完美，但是已经可以提升效果，比如说语音加上图像以后命令词识别错误率显著降低。我们正在实现低功耗的硬件上的多模模型。纯图像的算法会渐渐饱和。从长期来看，人脑就是原生地对这些多模态的输入有一个连贯一致的表征，对人的感知研究有一个领域就叫 multi-sensory integration，研究人怎么把这些感知结合起来。

雷锋网 AI 科技评论：这两年 CVPR 展区里有大批自动驾驶企业，这体现了企业认为现阶段的计算机视觉技术就能为自动驾驶给出良好解决方案的信心。那么，随着计算机视觉技术的持续发展，下一个出现曙光的实际问题可能是什么？

李源：下一个出现曙光的，我要是知道我就去创业了（笑）。我其实不确定能不能很快看到下一个像自动驾驶一样、有这么大影响力的东西，因为驾驶真的太普及了，每个人出门都要开车乘车，能不能找到一个这么单一而广泛应用的东西是很难说的。个人觉得会有更多的专用机器人普及，场景可能会碎片化一点, 技术会有共性. 比如工业, 物流, 仓储, 家用场景的机器人。拥有自动/辅助驾驶功能的汽车其实就是一种专用机器人，它恰好是一个应用范围特别广、对人的生活的影响特别大的一种机器人。

计算机视觉技术走向成熟时的自动驾驶

CVPR 2019 上地平线的展台，同时展示了单摄像头感知、水平 360 度环视感知环绕感知、LiDAR 的检测识别方案以及 SLAM 方案

雷锋网 AI 科技评论：关于自动驾驶的技术路线之争，我听到一种说法是，激光雷达并不是那个能单独走到最后的方案，既然需要视觉识别的补充，就完全可以最后全部交给视觉识别，就像人类不需要雷达也可以开车一样。作为有不同级别解决方案、可以支持多传感器融合的自动驾驶解决方案提供商，你们怎么看待路线之争、怎么看待认为激光雷达无法走到最后的观点？

李源：我咨询了我们驾驶产品线的专家. 两者竞争现在没有定论 (LiDAR 的成本越来越低，纯摄像头的视觉能力越来越高），而且LiDAR 和摄像头并不是排他的关系。人的感知已经证明只用摄像头是可以的（人的双眼），但现在我们计算机视觉技术还没成熟。而且现在还有其他的传感器在涌现。LiDAR 的优势在于对三维世界的三维感知，所以它在安全性方面，特别是自动驾驶测距、测速方面有优势。另外多传感器的冗余也提高安全性. 我们公司会在硬件架构上支持 LiDAR 和摄像头，以及融合算法，作为我们客户的可选方案。

雷锋网 AI 科技评论：视觉芯片是自动驾驶的关键部件，芯片的算力会影响整个系统的表现。为了达到系统表现的线性提升，你们认为芯片的算力有必要指数提升吗，就像特斯拉说的那样？你们的应对措施如何？

李源：我们对算力的定义不是纯粹的去追求TOPS。我们智能驾驶产品线产品规划与市场总监 Will Lin 有个很形象的比喻：和汽车的动力系统做个类比，芯片算力就好比是发动机汽缸的大小。汽缸可以做得很大，但是一辆车开起来的感觉是整辆车的设计、多个系统的表现共同决定的。如果只关注缸有多大的话，只能说缸越大车就越费油，但不代表就有更好的用户体验.

我们不能只关注芯片里面乘法和加法运算峰值，也要关心怎么运用这些计算能力，端到端地评估对于特定应用能输出的感知能力。这个是一个综合的问题，算法设计、硬件架构，编译器怎么优化，这些都是需要考虑的。我们的应对措施就是软硬件联合设计。

雷锋网 AI 科技评论：自动驾驶赛道的竞争目前非常激烈，你们是否认为会有不必要的纯竞争开销？你们又有哪些优势

李源：竞争开销是有的。首先，我们的定位非常清晰，定位为二级的技术供应商，不直接去和上下游的公司去竞争，这样会更容易赢得客户和市场。另外，我觉得我们现在的关注点或者说优势跟上一个问题里谈到的是差不多的，就是我们在芯片和算法上都有非常深厚的积累，基于这些积累去做一个芯片加算法加工具链的解决方案，做好软硬件协同优化，开放给客户并支持客户的定制化需求。

形象一点来讲是「只造武器、不打仗」，是给客户提供完善功能的芯片和工具链，以及算法样例，赋能一级供应商。

雷锋网 AI 科技评论：假如说数据是用户自己用自己的数据的话，那岂不是比较广义的来说，我们可能会丧失一些与数据共同迭代改进的机会

李源：我们不碰数据的生意，但是我们也有自己的用来训练和迭代的数据。如果客户愿意把数据分享给我们，共同去面向应用去做迭代和优化，我们是非常欢迎的。但同时我们也理解有些客户不想分享数据，我们会用我们自己的数据做算法的迭代和评估，把芯片优化好，给客户推荐一些方案。如果客户有自己喜欢的算法，或者客户自己有大量的数据，我们可以给他提供建议。

雷锋网 AI 科技评论总结：对于学术角度观察计算机视觉领域产生的忧虑，以及关于领域的未来趋势、自动驾驶方案中的争议点，李源都给出了结合研究和工业实践的回答，简单明了、令人信服。从学生时代的最佳学生论文作者，到如今的地平线应用 AI 实验室负责人，可以说李源和深度学习驱动的计算机视觉一同快速成长，也见证了相关技术大批量走向工业应用。计算机视觉领域未来会如何继续发展、地平线能否在激烈竞争中笑到最后，我们一同拭目以待。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

杨晓凡

读论文为生

日常笑点滴，学术死脑筋

发私信

当月热门文章