0
本文作者: 奕欣 | 2017-08-14 03:09 |
雷锋网 AI 科技评论按:如果你常逛知乎,相信你对周博磊并不陌生。周博磊目前是 MIT 在读博士生;知乎深度学习(Deep Learning)、机器学习、人工智能话题优秀回答者,目前有近两万的知乎关注者。在 CVPR 2017 上,周博磊牵头分别组织了一个 tutorial (http://deeplearning.csail.mit.edu/) 和 workshop (http://sunw.csail.mit.edu/),获得了不错的反响。
在参会期间,雷锋网 AI 科技评论与周博磊进行了一次交流,他分享了对计算机视觉研究的一些心得体会。
周博磊,MIT CSAIL 五年级博士生,师从 Antonio Torralba 教授。本科于 2010 年毕业于上海交通大学生物医学工程系,2012 年在香港中文大学取得信息工程硕士学位。研究方向为计算机视觉和机器学习。
个人主页:http://people.csail.mit.edu/bzhou/
知乎主页:https://www.zhihu.com/people/zhou-bo-lei/answers
CVPR 是计算机视觉领域的主流会议,物体识别和场景分析是计算机视觉里面的核心问题,邀请到的嘉宾也是在这个方向有重要贡献的研究者,所以我们的那个 tutorial 整个是 full house(爆满)。邀请的嘉宾之一 Ross Girshick(Facebook 人工智能实验室研究科学家)和我在聊的时候也提到,他也挺惊讶有这么多人关注 object detection 的问题,而并不只局限于 GAN 和生成模型这些比较火的领域,毕竟物体识别还是计算机视觉的一个核心问题吧。群众反响比较好的话,就说明这个(tutorial)还是办得比较值得。
我邀请了恺明、Ross 还有晓刚老师,包括我自己,一起作为演讲嘉宾,这个 Tutorial 的主题包括物体识别、场景识别以及神经网络的可解释性问题等,都和大家的研究方向有关,也是一个比较好的结合点。他们也是研究这个领域比较领先的学者,就这样组织起了本次 CVPR 的一个 tutorial。(友情提示:演讲 slide 已经放在主页上,视频随后也会放出)。
今年(CVPR)感觉华人(中国)公司挺多的,从论文角度来讲,相对于理论和系统领域,计算机视觉一直也有很多华人在做研究。这次过来我更关注的是和人交流。新的 paper 很多其实在 arXiv 上面都有。主要还是和以前认识的朋友重新聚一聚,和了解过工作的研究员进一步面对面交流。
研究领域的话,其实 workshop 就是一个体现前沿趋势的环节,比如第一天的 visual interaction(视觉交互),虽然去的人不多,但我觉得是一个比较重要的方向。物体识别和检测目前已经做到极限了,那么物体之间的交互可能就会是进一步的研究方向。
另外一方面是我自己马上博士毕业了,准备找找教职和 industry lab 的研究工作,CVPR 也是一个可以了解这些信息的来源。
现在比较火的应该是视频的分析和识别,包括谷歌和 Facebook 其实都投入了很大的人力在做,就像 Facebook 的机器学习组其实都招了挺多研究视频的人,可能在 10 月份 11 月份的时候会发布一个更大的视频数据集。我觉得可能未来会有更多的东西可以做。
另外,因为识别问题目前已经做得非常好了,识别的下一步可能会是什么?下一步可能会是认知的任务,或是提升到推理的层面。比如系统识别出这里有个茶杯,但它是基于什么在支撑?其实是底下的桌子,这就是一个物体交互的过程,会涉及到更多认知层面的东西。
在做研究的过程中,我一个很深的感受是,现在的深度学习或者说 AI 的研究变得越来越工程化了,变成一种群体作战。这也可以解释为什么现在公司其实是占优势的。因为它们有很多工程师,可以帮你把平台搭得很好,有很多研究员一块来做研究,整个事情就是一个比较庞大的系统工程;而不像之前,可能一个人两个人在实验室,就可以倒腾一个东西,现在可能变得越来越系统化了。
另外一点就是变得更平民化了。现在大家的数据和代码都很快开源,门槛变得越来越低。像本科生如果愿意去学的话,其实是可以很快在一个子领域做出一些突破的。这个研究也不一定会有多大的创新,但因为计算机视觉有太多的子任务了,所以选一个方向努力做几个月,可能就可以在顶级会议上发一篇 poster,难度也不像五、六年前那么大。
以后会议可能更多的是一个交流的过程吧,现在 CVPR 的接收率接近 30%,可能在五、六年前只有 23%到 24% 的样子,而且投稿的论文也几乎 double 了(雷锋网 AI 科技评论按:CVPR 2017 年有效投稿 2620 篇,录用 783 篇)。我第一次参加 CVPR 是在 2011 年的时候,开会的地方(Colorado Springs)就比较偏僻,参加者可能也就一千多人。
第二个是,深度学习方案确实开始 work 了,所以公司可以很快跟进并整合到自己的系统里面。MIT 自己和三星、美国政府还有一些带军方背景的公司有合作,但高校一般不会和比较小的公司合作,因为小公司可能对产出有比较快的要求,如果是做基础研究的话,不会那么快地看到产出。另外有些公司的需求可能也比较简单,工程师也能做到的,就不需要放到学校里面来做。
但现在 AI 的整个研究变得越来越实际了,工业界以前是给学校资金支持,然后找一些有想法的老师一起合作;现在更普遍的模式是工业界自己建立研究院,雇佣一些老师来工业界,并且用 engineering 和资源去支持老师的研究工作。包括像李飞飞这样的老师加入谷歌,因为谷歌的资源比较充足,她可以做更多的事情,如果这些都让她实验室里仅有的几个学生来做的话,其实不太现实。一方面是学生自己也要花时间学习,另外也没有这样的平台或数据去从头实践这样一个系统。
我对自然界的东西比较感兴趣,有点像「师法自然」这样的,喜欢研究各种生物系统。高中的时候我其实是搞生物竞赛的,后来去了上海交大,大一在生物实验室做了一阵子,觉得不是那么有意思。后来和侯晓迪一起玩乐队的时候受他影响挺大的,开始上手视觉方面的研究,那时候还是 07,08 年的样子,计算机视觉还不怎么 work。有意思的是,当年侯晓迪推荐给我看的第一篇论文就是我现在导师(Antonio Torralba)的作品,当时也没想到后来会选他(做导师)。大三的时候就在计算机系那边跟着张丽清老师做 CV 的研究,之后就到香港中文大学跟着汤晓鸥老师和王晓刚老师做研究,更加坚定了做研究的想法,硕士毕业后就来 MIT 了。
未来(选择)留在学校对我的吸引力是多方面的吧。一方面是可以更自由地去做研究,第二个是可以带学生,一起去做这件事情,也不是每个人都想去公司,对吧。
我觉得计算机视觉本质上是一种 science(科学),怎么发现一个好的问题是更加重要的,可解释性其实就是一个比较有意思的问题。当时我们收集了很大的一个场景分类数据库,训练了一个模型后发现准确度非常高。我导师的第一篇论文就是做场景分类的,他就觉得很不可思议,为什么机器能够达到人的水平。我们就开始做一些可视化的工作,后来这篇论文投到 ICLR 2015 上中了 oral,当时也就十几篇(oral)吧,而且其他的论文都是工业界的文章,像谷歌、微软和 Facebook 这些。所以我们这篇论文就有种让人眼前一亮的感觉,因为我们更像一种从科学角度去探讨问题的感觉,从设计问题到实验过程都不是那么工程化,本质上更像是一种探索。
深度学习其实不是一个黑箱,它里面的结构还是比较清楚,只是说大家觉得参数这么多好像很难理解。比如我们 15 年 ICLR 的工作就说明了一个这样的问题,当我们训练了一个场景分类的模型之后,它里面就学会了很多 object detector 的内容。比如说你觉得这是一个客厅,是因为你看到里面有电视、有沙发;那么我们在教神经网络识别的时候,它也是同样检测这张图里有没有电视和沙发,然后再分类为客厅的。这个过程实际上和人的识别过程是很类似的,我觉得以后会有更多的工作去研究这方面的问题。(http://arxiv.org/pdf/1412.6856.pdf)
我前两个月去参加了一个叫 VSS(Vision Science)的会议,这个会议主要探讨的就是做 vision science 的人是怎么解决视觉问题的,他们就是从人脑、从认知的角度去探讨问题,对我的启发也很大。
回到 CVPR 的 tutorial 上,其实昨天恺明和 Ross 分享的都是怎么把性能提升,怎么去训练一个更深的模型,这是故事的一个方面;故事的另外一方面是,这些训练得到的优秀的表征到底有些怎样的含义,如何比较不同的表征的语义性,能更好的帮助我们理解内部的运作机制,这也是我的一个研究方向。
并不是想成为「网红」。在知乎上写回答的一个原因是,现在误导的信息比较多,所以我觉得有必要出来以正视听吧,但我说的也不一定对,其实也只是把我自己的观点表达出来,分享自己研究的一些心得体会。
MIT 其实很早就有 AI 了,有些老教授会觉得,如果把 AI 作为一个 popular science 去宣传的话其实挺没必要的,这样对研究员的压力很大,如果老想着要做能搞大新闻的研究,也不一定是好事。
(在知乎上回答问题)这也是对我自己的一个训练,就是怎么把自己的想法有逻辑地表达出来。这对研究员来说其实是比较欠缺的一部分,因为读博的话可能就一个人埋头深入研究,其实不知道怎么跟别人分享自己的想法。但如果有这么多人能觉得我写的东西对他们有帮助的话,其实也是挺好的。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。