0
编者按:以深度学习架构为基础的人工智能技术(如深度神经网络,DNN)早已在全球铺开,其应用范围覆盖了汽车市场、计算机视觉、自然语言处理、传感器融合、物体识别和自动驾驶等领域。眼下,自动驾驶新创公司、互联网公司和 OEM 商都在探索图形处理单元(GPU)在神经网络中的应用,推动车辆早日进入自动驾驶时代。
如今,业界最先进的高级驾驶辅助系统(ADAS)一般都建立在集成或开放平台之上。想要获得更智能更复杂的ADAS系统并迈向完全自动驾驶时代,我们需要开发、模拟并最终拿出一套完整的解决方案。这篇论文描述了以深度神经网络为基础的深度学习架构发展现状,该架构将充当汽车上的超级电脑,成为集成在自动驾驶车辆平台的驱动核心。本文主要对人工智能技术在自动驾驶车辆中的运用进行介绍。
| 什么是深度学习?
深度学习是当下推动 AI 发展最受欢迎的方法,它让机器能认识并理解这个世界。神经网络是一大批简单、可训练的数学单位,它们可携起手来学习复杂的动作,如本篇提到的驾驶。[3]
深度学习还是一个过程,在这一过程中,数据被转换成了电脑程序做出的决定。它与那类基于算法的系统的最大不同就是一旦搭建起基础模型,深度学习系统就能靠自己学习来完成既定任务。[4]这些任务的范围也十分宽泛,包括为图片加标签、理解人类语言、保证无人机独立执行任务和驱动车辆自动行驶。深度学习可以模仿人类大脑的学习和认知模式,理解语言和关系并分辨话语中的歧义。[5]
神经网络都是固有的并行模型,因此它们与多核心的GPU简直是天作之合,而后者在PC、机器人和车辆上都扮演着重要的角色。GPU可以充分释放神经网络的平行性,在深度学习系统的定义、训练、优化和布局上优势巨大。美国《大众科学》(Popular Science)曾撰文称,“GPU是现代AI技术的骨干。”[6]
| ImageNet
深度学习过程中最简单的一个例子就是 ImageNet 大规模视觉识别挑战。该挑战将评估大规模图片和视频库中物体识别、图片和场景分类算法的能力。[7]在2012年前,由于传统计算机视觉算法的瓶颈,物体识别准确度的提升相当缓慢(识别率低于70%)。但2012年深度学习技术的引入让识别准确度跃升至80%左右,而现在这一数字则提升至 95%,深度学习已经完全替代了传统的计算机视觉算法。(见图表1)
图表 1 : 在ImageNet挑战中传统计算机视觉与深度学习在准确度方面的对比
| 深度学习在高科技产业中的现状
社交巨头Facebook是业界第一家利用GPU加速器训练深度神经网络的公司。深度神经网络和GPU在全新的“大苏尔”计算平台和Facebook的AI研究院(FAIR)系统中扮演着重要角色。Facebook称自己的目标是推动机器智能不断进化并为人类找到更棒的沟通方式。[8]
谷歌在深度学习领域也投入巨大。TensorFlow 是该公司第二代机器学习系统,其任务是理解大量的数据和模型。在架构内,TensorFlow 可灵活的完成各种任务,如知觉和言语理解,因此它在图片识别和分类、跨文本分析等方面有着得天独厚的优势。谷歌用数千个 GPU 大幅提升了深度学习能力,而若换成同样是数量的 CPU,其能力仅有搭载 GPU 平台的十分之一。[9]
该公司负责计算机视觉和机器学习的研究员 Anelia Angelova 认为,谷歌还在自动驾驶汽车项目中用到了串联型的深度神经网络,它可帮助车辆探测路上行人的轨迹。[10]
| 自动驾驶回路
图表2:自动驾驶回路
图表2向我们展示了自动驾驶回路的主要组成模块。其目标是通过相机、激光雷达和超声波传感器实时感应车辆周围360度范围内的情况。通过这些设备收集的数据,算法可以准确的理解车辆周边环境并给予精确反馈,包括车辆周边静态和动态的物体。深度神经网络的加入让车辆对周边物体的探测和分类能力大幅提高,因此传感器数据的融合也变得更准确。随后,这些经过加工的数据将成为车辆感知、定位和规划路线的重要依据。
在这一复杂过程中,
第一步名为“感知”,它覆盖了传感器数据融合、物体探测、分类、探测和追踪的人物划分。
第二步则是“定位”,它包括地图融合、地标和GPS定位。精确获取自己所处的位置对自动驾驶车辆非常重要,因为这是它安全行驶的前提之一。而如何整合高精度地图数据,这是车辆判定自己位置的关键。
最后一步是“路径规划”,其中包括车辆的线路和行为。自动驾驶车辆需要在高度动态的环境中安全的躲避各种潜在风险,通过复杂的算法找出适合行驶的路径,同时对环境的变化作出预测。此外,车辆需要保持行车的稳定,减少对乘客和其他车辆的干扰。在路径规划中,车辆需要将以上因素全部考虑在内,并最终给出一个完美的解决方案。
因此,想完成这一任务,车上的智能摄像头只能算杯水车薪,这其中每一步都需要深度神经网络的参与。通过深度神经网络,车辆要完成路面物体的探测和分类,地标建筑的识别和驾驶过程中的判断等。此外,深度神经网络完全是一个开放平台,各家车厂或一级供应商都可在该基础之上拿出自己的解决方案,同时防止自家产品与竞争对手同质化。
| 深度学习流程
深度神经网络是多层神经网络集结在一起形成的。在物体识别上,第一层的神经元会探测到各种边缘,而第二层的神经元则会识别更为复杂的形状,如由各种边缘组合而成的三角形和矩形。而在第三层中,神经元的识别能力再次增强。因此,只要能搭建起神经网络框架,就能解决许多特殊问题。
自动驾驶技术挑战性巨大就是因为拥堵的城市中路况非常复杂,很难进行有效预判。因此,研究人员需要将许多传感器和数据进行有机结合,以便精确定位车辆位置并感知路况、设定路线和控制方向盘。
深度学习简直就是以上这些困难的克星。眼下,与Caffe类似的神经网络框架可以进行选择性的学习。Caffe是伯克利视觉与学习中心的作品,它在表达、速度和模块化程度上优势巨大,因此非常适合肩负起自动驾驶的挑战。[11]
图表3: 深度神经网络的物体识别过程
完成以上诸多步骤后,特定的框架需要为特殊任务进行特训,物体识别和分类就是典型例子。像体育训练一样,想带深度神经网络出师需要一个教练来保驾护航,指导它如何做出反应。
图表 4 中提到的打分函数决定了期望输出与实际输出的不同,而这一不同就是我们所说的预测误差。神经网络中的每个神经元都会出现误差,而这些误差会成为神经元之间相互调整的权重信息。这样一来,在同样的述如下,神经网络的反应就会准确很多。[12]在外部刺激下,无需程序员干预,深度神经网络也能做出正确选择。
图表 4 : 深度神经网络训练回路
为了解决训练问题,开发人员首先要用驾驶场景的图片搭建一个数据库。此外,训练前他们还要给这些图片贴上正确的标签或正确的驾驶决定。一旦数据库搭建完成,框架模型就能配置成功,训练的问题也就迎刃而解了。
随后,研发人员需要在模拟的驾驶情况下对完成训练的神经网络进行离线测试。验证完成后,它就正式“毕业”并可以被刷入自动驾驶车辆的行车电脑(ECU)来进行路试了。另外,端对端系统的培养方案与其类似。
图表5: 驾驶场景
图表5介绍了一个现实中常见的驾驶场景,图中的视角是美国高速公路上经常会看到的。研究人员会将数据灌入以深度神经网络为基础的自动驾驶系统,图片下方的窗口会将各种数据视觉化。位于窗口中心的白色车辆已经感应到了身边的两辆车。根据车辆间的相对速度、位置和其他数据,路径规划系统会选择最佳路线(图中的绿色线)并根据情况决定是否变道。
| 英伟达DRIVE™解决方案
图表 6 : 端对端深度学习平台
现下,英伟达已经拿出了一个可用于训练、测试和自动驾驶车辆部署的集成平台。DRIVE解决方案让车厂、一级供应商和研究机构实力与灵活性大增,它们可在此基础上打造出让车辆观察、思考和学习的系统。这套解决方案始于英伟达的DGX-1,这款深度学习超级电脑可以用行驶中搜集的数据来训练深度神经网络。随后,DRIVE PX 2就可以做出提前推断,保证车辆在路上的安全。而连接两者的是英伟达的DriveWorks,这款套件包括了各种工具、库和模型,能大大提高自动驾驶车辆的研发、模拟和测试。
DriveWorks可以帮助传感器校准并获取周边数据,并通过DRIVE PX 2上复杂的算法同步处理传感器搜集的数据。
| KITTI Benchmark
英伟达利用DRIVE解决方案来发展自家的物体识别系统,不过,该系统还有个名为DRIVENet的神经网络框架来当助手。在5个月时间内,这套解决方案KITTI benchmark上拿到了最高分,最重要的是DRIVENet可以实时做决定。值得注意的是,英伟达的GPU们异常强悍,它们直接承包了分数排行榜前五名。这台名为KITTI的分数评价系统由德国卡尔斯鲁厄理工学院与丰田工业大学联合打造,它能判别物体识别是否有效。[13]
图表 7 : KITTI benchmark测试成绩
许多自动驾驶公司已经是英伟达深度学习技术的用户了,通过该技术它们训练神经网络的速度提高了30-40倍。宝马、戴姆勒和福特就是英伟达的用户,此外,日本新创公司Preferred Networks和ZMP也是英伟达死忠粉。在实地测试中,奥迪利用该技术在四小时内完成了深度神经网络的训练,同样的工作量,一个智能摄像头需要2年时间。沃尔沃则直接将英伟达DRIVE PX 2放进了实车中,未来它们将在哥德堡上路测试。
| 对未来的展望
BI Intelligence 预测,到 2020 年,全世界将有 1000 万辆车拥有一定的自动驾驶能力。[12]它们中的许多都需要利用 AI 来感知周边环境、确定车辆位置并应对复杂的交通环境。
图表 9 : 搭载自动驾驶功能车辆未来的市场增长预期[3]
眼下,一场自动驾驶领域的军备竞赛已经开打,未来会有更多新公司加入。同时,在各家公司的努力下,现在市场上 100+ 个行车电脑解决方案最终也将走向整合。
1. Introduction to deep learning, GTC 2015 Webinar, NVIDIA, July 2015 http://on-demand.gputechconf.com/gtc/2015/webinar/deep-learning-course/intro-to-deep-learning.pdf
2. The Crown Jewel of Technology Just Crushed Earnings, Ophir Gottlieb, Feb 17 2016, Capital Market Laboratorieshttp://ophirgottlieb.tumblr.com/post/139506538909/the-crown-jewel-of-technology-just-crushed
3. Google's release of TensorFlow could be a game-changer in the future of AI, David Tuffley, November 13, 2015, PHYS.ORG http://phys.org/news/2015-11-google-tensorflow-game-changer-future-ai.html
4. Facebook Open-Sources The Computers Behind Its Artificial Intelligence, Dave Gershgorn, December 10, 2015, Popular Sciencehttp://www.popsci.com/facebook-open-source-hardware-behind-artificial-intelligence
5. IMAGENET Large Scale Visual Recognition Challenge (ILSVRC),http://www.image-net.org/challenges/LSVRC/
6. Facebook AI Research (FAIR), https://research.facebook.com/ai
7. Google's Open Source Machine Learning System: TensorFlow, Mike Schuster, Google, January 15 2016, NVIDIA Conference, Tokyo
推荐阅读:
特斯拉致死车祸被调查,谷歌继续加强自动驾驶安全 | 智驾周刊
苹果真的不造车了?要去做自动驾驶软件? | 新智驾 Weekly
雷峰网原创文章,未经授权禁止转载。详情见转载须知。