1
雷锋网【新智造】按:SLAM 技术最早被用于核潜艇的海底定位,近年来逐渐进入民用领域,尤其是扫地机器人在消费市场的推广,使得SLAM作为机器视觉的解决方案,备受重视。基于三维视觉的 vSLAM 技术也被广泛应用与机器人、VR、自动驾驶等智能设备上。本篇文章为雷锋网新智造频道 SLAM 专题的其中一篇,对初创企业远形时空的报道,主要介绍了其用于智能设备的视觉感知传感器和配套的软件解决方案,以及创始团队对于市场、技术的看法。
雷锋网正在启动“新智造成长榜2017”评选活动,我们将对人工智能与机器人行业进行大规模报道、梳理和调研,并联合数十家著名投资机构根据这些创新公司的技术实力、商业能力和成长性进行深度评选,最终从多个领域分别选出一些极具潜力成长性的创新公司。如果你想参与我们的评选,可点击「报名」链接,或通过邮箱xinzhizao@leiphone.com联系我们!
华中科大光电子专业毕业后,李昌檀先后在索尼、飞利浦、联想等大厂里工作了十几年,具体工作略有差别,但核心一直没变,那就是围绕“光电子”,做手机摄像头的系统、硬件、底层软件和集成。
在这个行当里,李昌檀取得了不少成绩,比如在 iphone 还没有光学防抖功能的时候,他做了中国第一款光学防抖手机,虽然由于各种原因,卖的并不好。十多年的研究,李昌檀希望自己能站在更高的维度上来看产品,他想知道用户真实的需求是什么,也想知道如何能做出有用的产品,但大厂分工细致,层级严格,已经无法满足他的需求。
于是,2014年李昌檀开始了第一次创业,作为初始团队加入了一个 VR 公司 。这次创业最大的收获,就是让他结识了黄石生博士。黄石生毕业于清华大学计算机系,师从计算机图形学领域的胡事民教授,在过去一直专注于图像与视频等媒体的研究,在图形学与视觉领域的顶级学术会议(SIGGRAPH/SIGGRAPH Asia/TVCG)上,发表过四篇文章。
相识一年之后,李昌檀联合黄博士,创办远形时空,开始了第二段创业生涯。李昌檀对雷锋网新智造说:
我们要做一些有用的事情,技术门槛高,是一门手艺活,有很多坑,需要一个一个爬出来,不是模式的创新,也没有很大的杠杆。
这个手艺活,就是基于视觉的 vSLAM 软硬件解决方案。在李昌檀看来,原先做的手机,现在流行的VR、无人车、无人机等没有本质的区别,都是用于人机交互的一个工具,底层技术是相通的。但有个区别在于,原先做相机,主要是让人看,现在是要让机器能够看懂。
雷锋网新智造了解到,SLAM 技术的全称为 simultaneous localization and mapping ,即实时定位及地图构建,SLAM 并不是一项新技术,国内外都有数十家公司在研究。黄石生介绍说,无论是定位还是地图,分开做都不是难事,难点在于结合,同时要保证即时。
SLAM 不仅仅是一项技术,其实更是一个包含传感器和算法实现的系统。在传感器方面,可以选择的比较多,比如激光雷达、摄像机、视觉里程计、GPS等,主流的是激光雷达和摄像机。
有了传感器感知环境之外,还需要算法实现,让机器“看得见”。远形时空选择的解决方案是摄像头+惯性导航+算法。黄石生认为,这样的解决方案,有以下几个优势:
小型化
虽然激光雷达精度可以达到毫米级,但在工程上无法小型化,尤其是旋转式的激光雷达。从目前在自动驾驶领域的实现来看,都需要给激光雷达预留很大的空间,在 VR/AR 等小型设备上,几乎没有用武之地。
成本低
激光雷达成本相当高昂,旋转式的激光雷达成本在8000-80000美元之间,固态雷达相对便宜不少,但相比摄像头还是非常昂贵,这对于厂商来说,成本很高。
响应频率高
激光雷达的响应频率不如摄像头,可以轻松达到50-60赫兹,惯性导航则更高,可以达到1000赫兹,这样输出信息时就非常快。
扩展性强
使用摄像头的解决方案,除了用来实时定位构建地图外,用户还可以利用它扩展其他功能,比如人脸识别、手势等其他视觉识别的功能。
特别就 VR 领域而言,现有的视觉解决方案都是由外而内的追踪,比如通过 Lighthouse 和 Constellation 的高精度追踪系统,而远形时空提供的 SLAM 解决方案,则不需要配合,是一体化的解决方案。
但以摄像头为主的解决方案采集到的信息量大,背后需要配套非常强大的算法来进行处理。经过李昌檀和黄石生的努力,在双目 SLAM 和单目 SLAM 两方面,算法和性能都有了非常大的提升。
在vSLAM学术研究方面,有很多优秀的工作,有的已经开源(例如ORBSLAM、LSD-SLAM、OKVIS、DSO、ORB-VIO、SVO等),为追求准确性这些方法往往采用计算强度很高的视觉优化(Bundle Adjustment),导致计算功耗很难降低,而纯视觉的 SLAM 往往受光照条件、高速旋转运动、抖动等等影响而产生不稳定,因此,这些方法在产品化在实际产品化过程中有较大难度。
远形时空推出的双目 SLAM 和单目 SLAM ,不仅仅依靠摄像头,还辅助惯性传感器(即 Visual-Inertial SLAM),很大程度上克服了纯视觉 SLAM 的缺点。另外,为提高稳定性和精度,远形时空团队在传感器硬件、惯性辅助的图像特征追踪、丢失重定位等核心技术方面都做了优化,提高了 vSLAM 的稳定性和精度。
双目 SLAM 表现
单目 SLAM 表现
远形时空团队推出的双目 SLAM 和单目 SLAM 的精度均在厘米级,drift 小于1%,而计算功耗很小,比同类产品减小超过至少一半以上的计算量,最低时只是1/4左右。
在机器视觉领域,其实存在着众多玩家,比如百度前日刚收购的硅谷公司 xPerception,其定位和业务范围与远形时空非常类似,国内还有格灵深瞳、速感科技、Human+、拓视觉等初创企业。面对竞争相对激烈的市场,李昌檀认为:
其实我们也看到一些比较优秀的创业团队,我们觉得非常好,大家能够一起教育市场,把这个市场做大。而且,暂时还没有一个可以通吃产品,我们非常希望做一个能用在很多领域的产品,但实际上还不存在通用的解决方案。所以,无论竞争是否激烈,必须得在某一个细小的领域扎根下来,再拓展更容易一些。
目前,远形时空基于这种解决方案,做出了一个嵌入式的硬件产品,并将首先在 VR 领域进行落地,国内外各有一家 VR 厂商已在洽谈合作,预计在年内会有进一步消息。现在公司共有10人左右的技术团队,已完成数百万的天使轮融资,即将开始下一轮的融资计划,大概千万量级。新一轮融资将会用于产品量产、新品研发、团队扩充三个方面。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。