3
本文作者: 宗仁 | 2016-10-12 19:07 |
近日,在有韩国“硅谷”之称的韩国大田,IROS 2016正在如火如荼地举行,在Special论坛的人工智能/深度学习专场,百度深度学习实验室(IDL)主任林元庆做了《AI,the (next) big thing》(《人工智能:大幕已启》)的主题演讲,作为计算机视觉和机器学习领域非常活跃的一名成员,现百度IDL负责人,目前他领导的IDL正进行着PaddlePaddle深度学习开源框架、图片搜索、基础图像识别技术、人脸识别、OCR(光学字符识别)、视频分析、学习机器人、细粒度图像识别、AR以及医疗影像分析等十多个研究方向。雷锋网在演讲过后采访了林元庆,请他讲了关于IROS,关于开源平台,关于AI眼下最重要一步的看法。以下是采访全文。
IROS是世界上最大的关于Robitics的国际会议之一,大会的Plenary talk是会议众多演讲的重中之重。虽然平时我很少在外面公开做演讲,但这样一个学术性的talk既然主动邀请,就过来了,另外这也是向世界的Robotics研究人员介绍百度人工智能的好机会。
很多,像我刚刚说的百度大脑里面,有语音识别,计算机视觉,NLP,推荐/预测,运动/控制,决策/规划,这几个AI大方向都是机器人学的重要基础技术。
这两个技术都在进步,我们没有一个预设的立场,百度这两个方向都在应用。选择上,百度不同业务,训练阶段大部分用的大部分是GPU,testing阶段有用GPU,也有用FPGA的,更成熟的业务可能会选择FPGA,这样优化的空间会更大一些。
(看你刚刚放的PPT划分的百度AI相关业务,这些业务用哪个组合会有明确的选择吗?)
这个很难讲,人工智能不是单个技术,而是包含很多很多的不同技术,以计算机视觉为例,它就有图像分类,物体检测,图像分割等不同技术。GPU和FPGA对不同的任务,可能各有优缺点。
(就是一项业务训练的时候用的GPU,实际应用的时候可能转到FPGA?)
对,是这样。
这几年ImageNet的竞赛涌现出一些非常有用的算法,比如AlexNet之后的GoogleNet, VGG, ResNet等,对工业界的技术性能的提高,有很大的推动作用。ImageNet一个很大的意义是在于推动算法的革新。这对工业界和学术界,都是非常有意义的。
同时,工业界打造的产品,常常需要go beyond ImageNet。我记得第一年(2010年)ImageNet比赛我们拿了第一名。我是当时项目的负责人。但之后我们发现ImageNet的结果很难直接用在产品上。我们后来开始主攻细粒度图像识别。百度糯米这个月下旬将推出一个非常重要的功能,其中的一个重要技术就是菜品图像的细粒度识别(识别图片里的菜品是哪个餐馆的哪道菜)。即使是通用的图像分类,百度的图像库有接近1亿张带类别标签的图片,比ImageNet Challenge(150万张图片)的大很多。我们内部的数据要比公开的数据大很多,需要更好地反应我们要解决的问题。
对,有很多关联的。最直接的当然是细粒度图像识别方向。我们希望在百度搭建一个非常强大的细粒度图像识别的研发团队。其它的项目与这也有关联。比如人脸识别就是一个最经典的细粒度图像识别任务。很多技术是相通的。还比如我们的医学图像分析,它的很多做法与细粒度图像识别也有相通之处。
我们现在强调做instance-level的细粒度图像识别。比如,我们身下坐的这把椅子,我们不单单只是识别这是一把椅子,我们还需要识别出这是哪个厂家哪个型号的椅子。还比如前面提到的“哪个餐馆哪道菜”的识别。这些都是非常精细的识别。这些问题当然都很难,需要投入很大的研发力量。但应用前景是非常大的。
NEC美国实验室在美国是非常优秀的实验室,也在AI上做了非常多的工作。我也非常幸运地在那里做了7年半的研究,包括最后三年多作为实验室媒体分析部门的负责人。当时的工作与现在的工作一脉相承。
最重要的一步是要有用,能解决实际问题,真正能解决一些很重要的问题。比如自动驾驶,那就是要真正能上路。人脸识别,就是什么情况下人脸识别都能识别得非常精准。
机器人,包括AI,大家可能会有一些误解,觉得这是单一技术,但其实它涵盖的技术非常复杂,而一个人是很难去解决所有的技术的。像今天第一个talk讲的机器手抓取,从应用角度来看这是一个非常特定的领域,但这个方向做学问的话你都可以做很久。
我个人的倾向是注意不要大而全,要根据自身的兴趣和特长定一些侧重点。我经常会跟我身边的人说,要认准一个方向,做到这个方向的Mr. something,比如Mr. fine-grained image recognition。这样你的事业可能就越走越宽。
AI的平台很重要,确实需要多样化的选择,上次我也回了他朋友圈,认为我们这一代人应该团结起来,推动深度学习平台的开放和多样化。百度现在有PaddlePaddle深度学习平台,这个其实是百度花了非常大的资源做的一个平台,现在开源了,希望能在中国人工智能领域贡献一些我们的力量。
还是不太一样。很多AI技术有一个正循环效应,越多的人来用,你的系统越好,这样会吸引越多的人来用。你已经快速迭代了甚至已经做到极致了,别人再去重新开始一个,难度是比较高的。
林元庆在演讲的过程中,以及会后采访的过程中,一直在强调AI大幕“已经启动”这个关键动作,虽然“人工智能”这个概念最早从1955年8月31日就开始提出,但从当时的诞生,到中间的两起两落,一直像个蹒跚学步的孩子一样经历了60年才迎来了第三次复兴的浪潮。
1956年到1974年,全球第一次人工智能浪潮出现。
1974年到1980年。第一次人工智能冬天出现。
80年代出现了人工智能数学模型方面的重大发明,第二次浪潮出现。
1987年到1993年现代PC的出现,让人工智能的寒冬再次降临。
不过这一次,随着硬件,数据,算法三板斧的默契配合和发展,AlphaGo与世界顶级围棋高手李世石的人机世纪对战,人工智能已经从基本的语音识别,图像识别,向着自动驾驶,视频,AR,医疗,金融等各种领域无声地渗透,也引发了全民关注AI复兴的热潮。
老骥伏枥,志在千里。如果说过去60年是它从孕育到踌躇的“蹒跚”周期,那往后60年,将会是它揭开“无穷大”大幕的周期。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。