0
雷锋网按:本文为雷锋网独家专栏,作者系佐思产研研究总监周彦武,雷锋网经授权发布。
双目摄像头可以完成所有单目摄像头能完成的功能,同时能够获得后者永远无法企及的深度信息。
典型的豪华车如奔驰的S级和E级,宝马7系和5系,雷克萨斯LS系列(2018),路虎Discovery SportSUV,捷豹XFL、XE,都是双目摄像头。
无论何种状态的驾驶系统,无人的还是有人的,对障碍物的信息最重要的是障碍物与自车之间的距离,其次才是识别障碍物的类型。
准确判断障碍物与自车间的距离是保证车辆安全的首要信息,只有获得准确的距离信息,才能准确得出有可能发生碰撞的时间,也就是TTC。单纯识别障碍物毫无意义,识别出前方是个小孩,但无法得出准确距离信息,就无法得出准确的TTC,就无法保证小孩的安全。等识别出来,人可能已经被撞死,届时深度学习图像识别毫无意义。
当然,激光雷达在距离测量上也很精确,同时FOV也很大,覆盖面更广,但是成本高,功能单一,无法识别颜色(刹车灯)。而双目不仅能精确地测量距离,同时还可以识别刹车灯,车道线,路旁的交通标志等。豪华车也不是不计成本的,所以双目摄像头成了豪华车的首选。
对单目来说,要想获得距离信息,必须先识别目标。
要提供目标距离信息,首先要对目标进行框图边界分割,而分割和识别是一体的,不识别无法准确分割。
图像识别简单分为两大类:一类是基于词包模型的图像识别,一类是基于深度学习的图像识别。
欧洲NAVER实验室高级科学家Gabriela Csurka等人首次将“自然语言处理”领域的 BoVM(bag-of-words)模型引入到图像分类领域。就是将图像类比为文档,将图像信息用若干单词表示,最终用单词的频率直方图表示图像。
首先,将一幅图像待检测的特征点或者特征区域用特征描述算子对其进行描述。将提取的特征算子采用机器学习的方法进行训练获得用特征频率表示的视觉单词组成的视觉词典。
最后,通过对不同类别的视觉直方图进行学习,便可以获得学习模型。在测试环节,提取待测试图像的特征,获得待测试图像的视觉单词直方图,与上述获得的学习模型与待测试图像的频率直方图进行匹配,获得分类识别结果。
由此可见,将 Bag-of-Word 应用到图像分类模型上通常需要三个步骤:特征检测与描述、视觉词典的构建、分类器。
视觉词包模型(bag-of-words)相对比其他模型最大的优势在于适用于大部分的应用场合,可以简单直观地把图像表示成直方图呈现出来,这样就可以使图像分类识别问题转化成普通模式识别问题,所需运算资源少。
但是,视觉词包模型也有一些缺点:
使用特征用视觉单词直方图表示,在这个转化的过程中,丢了特征的位置信息,在一些需要位置信息的研究中,如前方突然掉落的物体,突然出现的行人,这个方法明显是不适合的;
在视觉词包模型建立的在单词与单词之间相互独立的基础上,但是有些情况,单词与单词之间是互相有联系的,如连续的视频,因此,视觉词包模型在这种情况下使用,是造成识别结果较差。
词包模型实际上相当于只包含了一个卷积层和一个汇聚层,且模型采用无监督方式进行特征表达学习,而卷积神经网络则包含了更多层的简单、复杂细胞,可以进行更为复杂的特征变换,并且其学习过程是有监督过程的,滤波器权重可以根据数据与任务不断进行调整,从而学习到更有意义的特征表达。
从这个角度来看,卷积神经网络具有更为强大的特征表达能力,因此它在图像识别任务中的出色性能就很容易解释了。
分割并识别后是估算距离,单目估算距离主要是根据像素大小,这种方法准确度不高。
由于距离因素,行人3和行人2的像素大小是非常接近的,但行人2和行人3与车辆距离距离差别很大,但是在单目看来,距离是完全一样的。
双目与单目区别有几点,首先双目是测量距离而非估算。
上图为双目的距离计算公式,准确度比单目要高得多。双目与单目区别的第二点是双目可以在不识别目标的情况获得深度(距离)数据。
上图为双目的典型工作流程图。双目最后输出的是一张深度图。
用颜色深浅来代表距离。双目虽然不需要识别目标,但是双目需要级化分割(Segmentation),常使用的算法有Belief Propagation和Mean Shift。双目最关键的环节在立体匹配。
双目需要对每一个像素点都做立体匹配,运算量很大,但算法简单,比较适合用FPGA来完成,而FPGA不是特斯拉这种小厂能玩得转的。
全球目前主要的双目系统供应商有德国大陆,博世,韩国LG,日本日立和日本电装。
大陆MFS430
两个摄像头之间距离为22厘米,两个摄像头的FOV是53度*30度,像素为1280*960,配合大灯夜间探测距离为40米,白天为80米)宝马的双目全部由大陆汽车提供,奔驰的大部分双目也由大陆汽车提供,也有部分由韩国LG提供。
博世的双目系统,用于LandRover Discovery SportSUV、Jaguar的XFL、XE之上,两个摄像头之间距离为12厘米, 像素数为1080*960(最新版本的分辨率提升到了 1280*960),水平视角45度,垂直视角25度,最大探测距离为50米,不仅可以用于AEB,也可以用于LDW和TSR(Traffic Sign Recognition).
2013年10月,斯巴鲁推出第三代Eyesight,与第二代相比,像素数从30万提升到100万,两个摄像头之间的距离还是350毫米,而第一代是300毫米。每秒30FTP,从CCD图像传感器改变为彩色CMOS图像传感器。
最远探测距离从第二代的70米提高到100米,水平视角由25度扩展到35度。无论是摄像头还是处理IC都由日立提供。这也是公认目前最好的双目系统,从2009年推出到现在一直全球领先。
日本电装联合日本理光在2016年10月推出针对大发小型车设计的双目系统。
此双目系统由电装设计,理光生产,基线长仅8厘米。用在大发的TANTO上。
电装在2017年7月推出大型车用的双目系统,基线长度估计为22厘米,用在2018年版的雷克萨斯LS系列上。
目前国内有不少双目初创企业,未来他们推出的产品也值得期待。
雷锋网推荐阅读:
雷峰网特约稿件,未经授权禁止转载。详情见转载须知。