0
本文作者: 张瑞 | 2019-07-18 15:54 | 专题:CCF-GAIR 2019 |
7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7月14日下午,在「智慧城市·视觉智能」专场上,澎思科技首席科学家、新加坡研究院院长申省梅进行了题为「后深度学习时代的智能视觉技术落地」的演讲。
作为人工智能领域崭露头角的公司,申省梅介绍道,澎思科技从传感器-图像处理到3D几何,从机器学习到深度学习、增强学习,从监督学习到半监督、无监督学习都有布局,澎思拥有计算机视觉全栈技术,并在人脸识别、行人检测,目标跟踪、行人再识别、车辆异常行为检测、自动驾驶、移动操作机器人等多项大赛中拿到冠军。
在限制条件下的人脸识别已经取得了很好的成绩,但对于如何提高非受限条件下的动态人脸识别效率,申省梅认为除了在人脸识别技术上不断提高外,还要从源端着手,以及采用图像增强的方法,比如超分辨,去除运动模糊、降噪、去抖动、去雾、去雨、去雪等。
另外,在视觉的落地上,申省梅认为应该坚持“以商业价值为导向的算法开发”。用“最有效的算法+最经济的软硬体”解决客户的刚需,更重要的是,算法-软硬件变动更新速度,要快速对接客户的不同需求,形成敏捷而有价值的运营模式。
获得最佳视觉模型最简单的规则是,足够多的平衡数据、足够好的数据标注、足够深的网络。
随着大量数据的生成,半监督无监督的探讨有所突破,计算机视觉的未来发展十分乐观。
随着工业界对计算机视觉的持续青睐,众多企业将结合实际应用场景来剪枝优化迁移,不断开拓新的应用领域,人工智能行业的发展还远没有到巅峰,还有众多的落地机会。
澎思科技首席科学家申省梅
以下是申省梅大会现场全部演讲内容,雷锋网作了不改变原意的整理及编辑:
大家好,我是澎思科技的申省梅,我今天跟大家分享的是课题是“后深度学习时代的智能视觉技术落地——商业价值为导向的技术研发”。
今天的内容分为三个部分,第一部分是计算机视觉澎思科技的全栈技术;第二,有这样的技术之后,商业价值在哪里?我们要讲的是以商业价值为导向的算法开发。第三部分,分享一下人工智能行业的发展前瞻。
澎思的计算机视觉全栈技术包含两个方面,首先是澎思有一支全球顶尖的算法团队,有国际前沿的算法研发能力。计算机视觉包含了对周围世界的描述-几何学,和计算机模仿大脑对看到的世界的学习建模。以前的学习是机器学习,现在深度学习逐步代替了机器学习,并且我们也看到了很多几何学方面出现的问题和局限,大家用深度学习把它解决得很好。我们从传感器(包括普通相机、高清相机、ToF 传感器,Imaging LiDAR),我们从它的底层的研究、图像的处理到3D融合、3D重建,从机器学习到深度学习,从深度学习到强化学习,从监督学习到半监督、无监督学习,横跨了所有的计算机视觉领域。
另一方面,我们团队也参与了很多产品、解决方案的研发,拥有丰富的经验。
这里跟大家分享一下我们在计算机视觉领域展现的成果。我们曾参加过多项国际比赛,并拿到冠军,包括人脸方面的,如人脸识别。目标检测、图像分类、图像分割方面的奖项,也包括情感、目标跟踪,及智能交通方面,还有机器人、自动驾驶方面的比赛。去年我们在IROS的操作机器人当中拿到冠军,还有NeurIPS里面的自动驾驶也拿到了冠军,这个自动驾驶牵涉的技术面是非常广的,有机器视觉,还有导航、控制。刚才大家提到了很多机器人跟别的学科的不同,就是因为它不仅仅是看到了、理解了,还要做决策,做决策的过程实际上是一个交互的过程。
人脸识别方面,我们参加了美国NIST人脸识别比赛,获得了冠军,包括1:1、1:N、N:M的应用。为什么我们重视这个比赛,是因为它是无约束人脸的比赛,无约束人脸就是人脸拍的时候没办法控制它的角度,有各种各样的姿态,有很多遮挡,还有光线不同,反光、光线不均匀,还有各种表情,以及有时候像素非常低,这个比赛也是动态和静态混合的比赛。在这个比赛当中,我们应用了迁移学习,也应用了异构多模融合和双模态的对抗性生成网络。
还有一个比赛是微软的百万人脸大比赛,我们也是获得了双项竞赛冠军。
在做人脸识别的过程中,我们也用了深层对抗网络GAN,使得数据的不平衡性得到改善,从数据的结果可以看到,大家有用3D的方式来增加训练数据,但相比之下,我们用GAN来做的,效果会更好。
大家说人脸识别到目前已经解决了很多的问题,已达到99.9%,但我们需要考虑是在什么条件下,在限制条件下拍摄的人脸,比如说人证合一,这方面已经做出了很好的成绩,但是对于非限制条件下拍摄的人脸,甚至是在动态监控下拍摄的人脸,人脸非常模糊,连人都很难认出来的情况下,到底怎么办?是不是达到很好的水平?实际上,并没有。
这样一个挑战性的人脸问题,我们不仅要从人脸识别的角度让它提高,还要从源端做起,在各种各样条件下做到捕捉到清晰的人脸。如果摄像机没办法自己达到这种效果,用普通的相机,再加上图像增强是不是可以帮忙。
这就谈到图像增强,右边这个图是经常发生的事情,当太阳光照过来的时候,有一部分非常暗,有一部分像素都饱和了,大部分人用的HDR的方法,就是宽动态范围摄像,这种方法在一定程度上可以解决问题,可以看到HDR的图已经比原始的要好很多,当我们这个场景中出现了运动的人或车,或运动的一些东西的时候,你用这种方法产生的效果就是左下角这种图,那个火车在动,它上面的字都看不清了,如果是一辆汽车,它的车牌就没办法识别了。我们用了智能化动态信息补偿的方法,生成右边这种清晰的图像。当我们用在CCTV(闭路电视)的相机上,就可以看到左边和右边的区别。
这个图像增强包括了怎么去噪声,前面的演讲嘉宾也谈到了,过去有很多很著名的方法,比如有一个很好的去噪声方法BM3D,它去高斯噪声非常有效。但泊松噪声图像下的去噪是非常难的,因为它的噪声方差是跟噪声像素的强度相关,所以过去的方法没办法得到很好的效果。最近我们用深度学习CNN和LSTM的方法拿到好的效果,通过主观和客观的比较,它在特别严重的噪声条件下有很强的竞争力,可以看到最后这个是我们的结果。
在AI图像增强方面,我们的相机有去抖动、去雾、去雨、去雪的效果,我在这里就不一一详细介绍了。
第二方面就是以商业价值为导向的算法开发。
澎思的立场——应用驱动的解决方案、商业驱动的算法研究。当我们知道了一个应用的需求、客户的需求的时候,我们会一起分析,这个需求需要怎样的解决方案。作为算法来说,我们会分析什么样的算法适合这个解决方案。我们的计算机视觉全栈技术都有,但并不是每个技术都适合作为解决方案的。商业上最有价值的方法就是用最有效的算法、最经济的软硬件来满足客户的刚需。
你看到这个“算法池”的意思是有可选性。这个算法池不像过去那样做出来是一成不变的,因为现在的深度学习日新月异。所以这就要求算法人员以及把算法放进软硬件的人员要非常敏感、快速反应。我们的硬件是可编程的,可以把一个很大的算法浓缩在这个小盒子里面。同样的盒子,如果觉得成本贵了,我们还可以用低成本的硬件,用比较轻便的算法交给客户。
刚才讲到了,因为澎思的营销团队是在前线工作,了解To B、To G客户的刚需,所以有一个团队可以把刚需反馈回来,我们的软硬件算法人员一起讨论方案,研究出来最经济、最灵活的软硬件平台,更重要的是我们的人要非常快速反应。
现在的大环境跟过去不同,尤其是做解决方案的,即使是同样的领域的客户,但他的要求是不同的。另外,深度学习每天有新的东西出现,去年和今年比,今年的模型就可以比去年快20倍,所以这就要求我们的软硬件团队要设计灵活,以适应快速的更新。
这是我们最近的人脸动态识别,给到客户那边,他们做了很多的比较,他们认为我们比友商的性能提高了很多。我们最新的人脸算法,包括轻量级、标准级的,已经交付于我们的软硬件团队,融入软件平台、硬件设备里。
另外一个技术我们做的是跨摄像机空间的ReID技术,也叫做行人再识别。当摄像机看不到人脸的时候,我们能看到人的身体,所以会用人身体的特征来进行再识别。
在上周我们的再识别在Market1501、DukeMTMC、CUHK03等三个数据库上的比赛都拿到了第一。这个竞争蛮激烈的,因为很多的公司都在刷这个榜。ReID支持以图搜图,一个相机看到一个可疑的人,拍下来了,就可以用这个图去搜这个人跑到哪里了,临近的相机调动起来,马上就可以找到这个人。
另外一个以商业价值为导向的算法研发是行人属性。行人属性和ReID不一样,它没有图可以搜,但它可以输入特征,如“短头发,穿着白色上衣、蓝色牛仔裤、白色运动鞋,背着书包的男子”,我们输入这些特征,可以从视频里面搜索出来,最近我们这方面也获得了很好的成绩。
关于智能交通方面,我们有车辆、车牌的检测和识别,不光是在白天,也在晚上达到了很好的精度。
再谈一下超分辨率。很多人做超分辨率可能是为了让多媒体内容或视频的噪声减少,看得更清晰,对于人脸识别,一定的噪声、一定的清晰还是可以识别出来的。
但对于非常小的人脸,比如说已经小于20×20了,在现在的人脸识别当中就是放弃的,因为太小了。但是我们用了高分辨率,我们可以做到12×12这么小的像素,也就是说一个相机拍得很远的一张人脸,我们用了高分辨率的网络,大家可以看到最右边的就是输入,中间就是我们高分辨率网络的输出,最右边是理想的希望达到的水平,也就是真实的样本。我们进行了大量的实验,把人脸识别率从75%提升到97%。
还有3D重建,在这个当中,我们的关键技术就是视觉SLAM。我们有做这个的基因,一旦有客户对我们提出这方面的要求,就能很快把它做出来。
现在谈到视频结构化,刚才也有人谈到这一点,视频也好,语音也好,要在上面进行数据处理是不可能的,所以一定要视频结构化。但对我们来讲,视频结构化的优先顺序是不一样的,因为我们有人的卡口、车的卡口,所以对人和车是优先做的。
关于行人,可以看到人有基本的特征(性别、年龄、头部是怎么样的,有没有戴眼镜,他的上装、下装是什么样的,他的携带物,以及行为),我们看到一个视频,就会把它描述下来,生成这个视频的Metadata,回头搜寻的时候就可以做逻辑推理,应用到不同的场景。
对车辆也是如此。现在学术上都是针对一个任务就有一个模型,多个任务就有多个模型,我们现在要设计一个单一的模型,输出不同的任务,最重要的是保证性能不下降,还要把这样的东西放在一个小盒子里,而不是放在服务器上,所以这也是我们的挑战。正是因为我们自己设计算法和软硬件,所以我们可以做的到。
除了人、车以外,要做城市规划,做其他方面应用,对场景也非常重视。场景的视频结构化、时间、地点,这些都是视频的Metadata,有了它之后你就可以做各种逻辑推理,完成各种任务。
人工智能行业的发展前瞻
最后这个部分是跟大家一起探讨人工智能行业的发展前瞻,也有很多人在担心人工智能是不是已经到顶峰了、是不是已经开始停滞了。因为计算机资源消耗很多的电能、数据难以获取,会存在很多障碍。我们一起来探讨一下,从2010年以来,计算机视觉取得了飞跃的发展,离不开三大要素。
这三大要素可能很多人都知道,也有人说是四大要素,因为投资的大量的涌入非常重要。
这三大要素,第一是数据-大数据-超大数据。
第二是计算资源,大家看到英伟达的GPU每半年都会更新换代,速度越来越快,显存越来越大,而且价钱越来越便宜。在昨天的AI芯片会场我们也看到了很多公司在做落地的AI芯片。
第三方面是人工智能开拓者、领头人,以及在研发行业中耕耘的人员的努力。今年6月份的CVPR上,李飞飞团队的ImageNet的文章获得PAMI奖,得到了非常好的肯定,没有这样的数据就没有今天的AlexNet,VGG、GoogleNet、ResNet,我相信每个人都会同意这一点,这样超大的数据库训练的模型,不但用在拍照的图像上,也可以将它用到医学图像。
今年大家也看到了开拓人工智能的三位先驱者都获得了图灵奖,肯定了他们对今天的人工智能的飞跃发展起到的作用。
要得到一个很好的视觉模型,不但是视觉的,甚至说语音也是可以的,但它的基本原则是什么呢?我们认为:一要有足够的数据,这个数据要平衡。二要有很好的标注,标注中不要有很多噪声。三是要用足够深的网络,这样就可以训练出一个鲁棒性很好、泛化性很好的模型。
但问题是从哪儿来数据呢?这个数据的标注牵涉到很多的人力、物力和时间,要用很深的网络,越深的网络牵涉的计算机资源就越大。刚才我们看到旷视有一个很大的GPU资源来做训练,这都是问题。计算机资源这一块我就不谈了,大家也知道很多,也在不断地改进。
我就谈谈数据的限制。因为数据的有限性,如果数据不够,带来的问题就是鲁棒性、泛化性不好,在这个数据上训练的东西不可以轻易地用在另外的场景,或者用在上面的性能会大幅地下降。但是我们想一下,傅里叶变换这个无限的表达公式是完美的,但是当它用在硬件的时候,我们的硬件是有限的,所以也需要有限的东西来表达无限的。比如说用8×8DCT来做图像跟视频的压缩,也会发现它在很多场合下产生类似鲁棒性的问题,所以这应该不是一个问题。
如何解决大量数据的生成和标注,以及数据的长尾问题呢?除了我们每个人都知道的数据采集、人工标注,当然现在又出现了很多很好的标注工具辅助我们。最近我们也看到了很多人用GAN来生成数据,如做ReID、人群估计,有很多的场景可以用GAN来生成。
有人也用虚拟模拟软件Simulator,我们知道做自动驾驶的,没办法去采集一些数据。比如要采集下雨的数据,要等到雨天开车出去;要采集下雪的数据,要等到冬天下雪的时候出去;要采集危险的数据,怎么去采集呢?用虚拟的模拟软件Simulator,采集不同场合下、不同情形下的数据。但是有人会问,采集下来的数据与现实的差别很远,有人也会用GAN来把虚拟的数据转成更接近现实的数据。也有人用环境互动的方式、强化学习的方式生成数据,有的会用多种模型、多种模态来半自动地生产数据。
随着大量数据的生成,半监督、无监督学习的方法有所突破,我相信计算机视觉的未来发展是非常乐观的。
人工智能行业的发展,我个人认为还没到巅峰,我相信大部分在座的人也会同意这个观点,尤其是还有很多的落地机会,我们的学术总是走在前面的,落地还有很长的时间。
作为工业界的我们,就要考虑实际情况,怎么样来做迁移学习,怎么样剪枝优化压缩。还有更重要的就是在现有环境中去思考、去开拓新的AI应用,多去想一想、尝试一下AI能为我们做什么。刚才也有很多人谈到了这个时代。我觉得IoT时代,从互联网时代开始,给我们带来了很多游戏规则的变化,比如一个公司不拥有酒店,但它可以做酒店的生意,那是什么公司呢?Airbnb。你没有车,可以做车辆有关的业务,那就是Uber、滴滴,在新加坡是Grab,你没有商店,可以卖东西,早上我听了阿里的介绍,我也是很有感触。IoT的时代造就了那么多的公司,游戏规则的变化。现在是人工智能的时代,再加上IoT,还会让更多这样的公司出现。
所以大家都带着这种思考,尝试一下AI能为我们做什么。还有就是你们可以在自己的环境当中搜集、建立数据集,因为很多的现象,过去有人尝试用公式把它表达出来,但是很多现象是没有办法用公式表达的。但是你有数据集,可以收集数据,标注、训练模型,从而发现它们内在的关系,然后可以制定决策,这ye包括经济的决策、金融的决策,DNA方面的研发,这些都可以去探讨,从你挖掘数据中探讨它们的内在关系。
另一方面可以建立强化学习、递增学习的商业环境去训练挖掘。
在人工智能方面还有很多的空间可以做,比如我们说到监控相机对物体的检测或识别是要理解看到了什么,,但是研究机器人就不仅仅要知道看到了什么,它还要采取行动。所以不仅仅是理解,还有决策,反馈再决策。所以这个强化学习是很重要的。DeepMind很成功,你看到他们很多的人工智能的开发都在游戏方面,真正把它用在机器人的实际操作方面,你会发现还有很多的问题,这里面有很多的空白大家可以做。你在机器人的大会上,看到那些叠衣服的机器人,你看了以后觉得不错,但是那个速度超慢,你不会觉得它能代替人。因为商业价值不在那里,这就是人工智能的空缺,我们还有很多东西可以去做。最后一点就是我们要打造灵活的软硬件、AI平台,让它的落地做得更好。
最后讲一下澎思新加坡研究院,它在澎思科技主要承担两方面的任务,第一是做垂直领域技术的开发,最重要强调快速,能够有工业级研发的交付能力,结合公司的发展方向做创新。第二是要做前沿科技的探索和储备。我们在新加坡这个窗口,直接接轨全世界,我们又带着全球的视角来探索前沿科技,并且我们要非常敏感,要很快在我们这边研发一些突破性的技术,让我们公司在新的领域、新的业务当中有一些大展手脚的机会。
今天我就分享到这里,谢谢大家。雷锋网雷锋网雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。