清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

本文作者：思佳

2017-07-16 20:08

专题：GAIR 2017

导语：“自动驾驶有可能是人工智能最具商业价值，而且最早落地的垂直领域。”

“自动驾驶有可能是人工智能最具商业价值，而且最早落地的垂直领域。”7月10日，在由中国计算机学会（CCF）主办，雷锋网和香港中文大学（深圳）承办的CCF-GAIR全球人工智能与机器人大会压轴日的智能驾驶专场上，邓志东如是说。

邓志东现任清华大学计算机系教授、博士生导师。自2009年起，邓志东带领团队开发了三辆具有感知和自主决策功能的自动驾驶汽车，在该领域积累颇深。如今，随着人工智能技术的演进和发展，人工智能在L4（SAE）级别自动驾驶产业落地的进程中发挥着不可替代的推动作用。邓志东的主题演讲也是围绕这个话题展开，雷锋网新智驾对演讲内容做了不改变原意的整理编辑。

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

*清华大学教授、博士生导师邓志东

一、限定区域是个坑

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

2016年9月20日，美国交通运输部最新发布自动驾驶联邦新规，已经明确无人驾驶汽车以SAE的6级作为分级标准（L0-L5）。现在大家普遍感兴趣的是L3和L4，L3即限定条件下的自动驾驶，L4即高度自动驾驶。

具体而言，自动驾驶的第一个阶段是辅助与半自动驾驶（L0和L1），第二个阶段是过渡期的无人驾驶（L2和L3），第三阶段是真正的无人驾驶（L4和L5）。

作为过渡期的第二阶段，也就是人进行辅助的人机共驾阶段，包括L2和L3。

L2是解放手脚，但人眼和人脑还要受累；
L3是解放人眼，解放人眼的关键是机器能够代替人对包括极端与紧急情况下的环境进行安全可靠的感知。

L4和L5是真正的无人驾驶阶段，最鲜明的特征就是自主行驶的安全性得到了充分的保证。

L4是解放人脑，但仍要限定区域和限定功能；
L5不需要进行任何限定，就跟人一样，人可以去的地方，车也可以去，人不能去的地方，车也不能去。

所以L2是解放了手脚，L3解放了人眼，L4和L5把人脑也解放了，对车辆的自主行驶完全可以放心。L5甚至都没有方向盘、踏板和后视镜了。

从L2到L4，要考虑的一个核心的问题就是限定区域和限定功能。

1、封闭区域的自动驾驶

如限定速度，考虑空旷可视、交通流稀疏等特定的应用场景，具体包括封闭场地的循迹自动驾驶、沿着固定车道的自动驾驶等。在这种情况下，我们可以采用轨迹跟踪或车道线视觉跟踪加上简单的障碍物检测技术，比较容易就实现到L3、L4级别的自动驾驶。只要能降低成本，就容易获得商业模式，这就是现在很多人搞的低速车商业落地，这是较容易实现的。

2、结构化道路与限定功能的自动驾驶

如限定行车功能的高速公路和在部分城市道路区域的自动驾驶。这种结构化和半结构化道路相对简单，再加上对自主行车功能的限制，如触发条件非常苛刻的自主变道超车等，可能仅需要利用高精度地图、障碍物检测加上行为预测技术等，也是相对比较容易实现L3到L4的自动驾驶能力。

3、复杂场景的自动驾驶

比如说更大城区范围乃至整个城市或各种路况的自动驾驶。Uber现在在匹兹堡市的自动驾驶免费出租车路测与试运行，就是真实城区范围的自动驾驶，这达到了很高级的阶段，因为需要考虑全路网高精度地图、障碍物检测、行为预测、复杂决策等，尽管目前车上还保留有两名安全工程师。这时要实现L3、L4比较困难，但是它的商业价值是巨大的，现在我们说的无人驾驶就是要走到这个高级阶段。

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

由此引申出百度的阿波罗计划，它的目的是什么呢？

简言之，百度在开放式软件平台方面与博世等Tier1（一级汽车零部件供应商）合作，是否希望成为一家自动驾驶人工智能算法公司？同时或希望将重点放在云端的数据服务平台，退到后方做包括高精度地图和大数据在内的服务市场？

二、环境感知与环境建模之争

1、完全基于环境建模的自动驾驶

相对封闭场地的循迹自动驾驶和全路网的固定线路自动驾驶，是一个完全基于环境建模的技术解决方案。

优点：使用RTK厘米级精度的轨迹跟踪，路面行驶可轻易实现高速高精度；
缺点：无环境适应性，缺乏自主性。采用的RTK高精度组合导航设备，受差分基站的通信范围、多径效应和收星数等影响，同时成本高昂。例如进口的DGPS/IMU最便宜的二十多万，贵一点的要五六十万，且仅仅适合于视野开阔的空旷与封闭场景。如果把组合导航设备的价格降低，它也可以实现商业模式。

进一步，可利用高精度地图来实现自动驾驶，即综合利用地图匹配导航来降低导航设备的硬件成本，同时也更有利于实现全路网的自动驾驶。

目前大多数的自动驾驶汽车都是属于这种类型的。

2、完全基于感知的自动驾驶

即沿固定车道或道路的自动驾驶。

优点：全路网自主行驶，具有高度自主性和环境适应性；仅依靠摄像头或激光雷达，无高精度地图，无RTK，成本低；
缺点：受车道线与路缘质量的影响较大，车速较低，可靠性差。

这种途径类似于人类的驾驶方式，完全靠感知进行，显然这种技术路线比较极端，对环境感知的要求非常之高，挑战极大，也会带来很多不确定性。

结论：环境感知必须与环境建模结合，以便同时获得高性能路面行驶能力与局部自主性等。

三、视觉主导还是激光雷达主导？

目前，自动驾驶环境感知的技术路线主要有两种：一种是以特斯拉为代表的视觉主导的多传感器融合方案，另一种以低成本激光雷达为主导，典型代表如谷歌Waymo。

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

1、视觉主导，以特斯拉为代表：摄像头+毫米波雷达+超声波雷达+低成本激光雷达。

摄像头视觉属于被动视觉，受环境光照的影响较大，目标检测与SLAM较不可靠，但成本低。目前，特斯拉已经在其量产车上列装了Autopilot 2.0固件，而且成本较低，只有7000美金左右，8个摄像头组成单目环视，有1个毫米波雷达和12个超声波雷达，希望从L2跳跃到L4。

经过半年的努力，特斯拉近期已经完成了将路测大数据从Mobileye单目视觉技术过渡到基于Nvidia Drive PX2计算硬件平台的特斯拉Vision软件系统上，并且在今年3月底发布了8.1软件版本，它用深度学习的方法在短期内基本达到了Mobileye的技术水平，这是以前很难想象的。特斯拉的自动驾驶技术究竟怎么样，一个重要的观察点就是看它能否在2017年年底，如期从洛杉矶开到纽约，实现全程4500公里且无人工干预的完全自主驾驶。

2、激光雷达主导，以Google Waymo为代表：低成本激光雷达+毫米波雷达+超声波传感器+摄像头。

激光雷达是主动视觉，它的目标检测与SLAM比较可靠，但是却丢失了颜色和纹理且成本高昂。目前谷歌Waymo自己组建团队研发激光雷达的硬件，把成本削减了90%以上，基本上是7000美金左右，同时他们已经开始在美国凤凰城地区对500辆L2级别的车进行社会公测，大大地推进了该类技术路线的落地实践。

激光雷达主导的解决方案未来可以沿如下两个方向继续推进商业化进程：

一个是发展摄像头与激光雷达的硬件模组，把两者结合起来，既有激光雷达，又有彩色摄像头，可以直接获得彩色激光点云数据。
另一个是进一步降低激光雷达的硬件成本，比如研发固态激光雷达并真正实现产业化，届时成本会下降到几百美金。

总之，现在自动驾驶领域有三大核心问题需要着力突破：即利用人工智能，尤其是利用深度学习进行目标识别、自主导航和信息融合，这三方面的技术成果是真正具有商业价值的。

目标识别：例如对交通流稠密的复杂城区，如何可靠地进行周边障碍物的检测与行为预测，特别是对极端与紧急情况的感知与预测。
自主导航：激光SLAM或视觉SLAM及其与低成本组合导航的精准融合；
信息融合：多传感器如何进行信息融合。

结论：自动驾驶应以信息化汽车作为底层平台，其中信息化包括数字化或软件化，也包括内部总线化和外部网联化，这是智能化的基础和条件。像线控、OTA（空中下载）、SDU（软件定义升级），应该成为底层平台的标配。

四、人工智能加速自动驾驶产业落地实践

自动驾驶可能是人工智能最具有商业价值，而且是最早落地的垂直领域。

自动驾驶是一个万亿美元级别的巨大市场。如果考虑到共享无人驾驶汽车更重要的是提供增值服务，若计入增值服务市场，那它的市场价值可以乘以10，也就是可以达到10万亿美元的级别。

自动驾驶汽车是一种非常特殊的产品形态，必须考虑绝对的安全性和低成本，还要有整体的解决方案，形成产业生态，最终去找到它的商业模式。

深度学习源于原始的真实大数据，它的实时性已得到GPU、TPU、FPGA、ASIC和类脑芯片快速发展的支撑，已经成为自动驾驶感知、决策与控制的基础技术。

深度学习是环境感知和自主决策的决定性技术，可望使自动驾驶汽车具有类似于人类司机的驾驶技能自主学习与改善能力，其中大数据技术与路测成为关键。我们人类开车是先去驾校进行有教师的监督学习，然后从驾校出来之后到拥有几十万公里的驾驶经验，这是我们通过试错式的强化训练实现的。是不是可以让机器也有同样的深度监督学习与深度强化学习能力，像AlphaoGo一样？

总之，深度卷积神经网络和深度强化学习可以广泛应用于自动驾驶的感知、决策、控制、分析和学习等各个关键环节。

1、环境感知与基于认知地图的精准自主导航

深度卷积神经网络近期的革命性进展，带来了人类水平的视觉检测与识别能力，再加上低成本激光雷达、高精度地图、5G通信、智能网联以及智能交通系统和智慧城市的合力支撑，极有可能使极端环境与紧急情况的可靠感知与低成本、高精度自主导航成为现实，助推自动驾驶从L2到L3的发展。

然而深度卷积神经网络有一个最大的缺陷，就是它目前还不能实现语义理解。在这样的困境下，我们可以通过其他支撑，例如高精度地图（包括栅格与认知地图），以及用5G通讯和NB-IoT移动物联网组成的车联网，还有ITS等形成合力，来解决这个挑战性问题。

2、具有自主学习能力的自主决策与智能控制

由AlphaGo强力推动的深度强化学习的最新进展，有可能使自动驾驶汽车拥有类似于人的自主学习能力，获得包括具有紧急情况预测在内的端到端的自主行为决策功能和数据驱动型智能控制系统，助推自动驾驶从L3跨越到L4。

3、人工智能有望使自动驾驶落地成为可能

在自动驾驶问题中，弱人工智能主要涉及算法（深度卷积神经网络与深度强化学习），数据（目标大数据，目标行为大数据、驾驶行为大数据等），计算（如移动端、云端、离线训练深度学习加速器），自动驾驶细分场景（目标与行为意图感知、认知地图与导航、信息融合、自主决策、智能控制等）和垂直整合等5个维度。

支撑自动驾驶落地的深度学习算法与开源代码框架

支撑自动驾驶发展的算法中，包括环境感知、障碍物检测、行为预测、自主导航、自主决策和智能控制等。

环境感知：主要是考虑一些极端情况，如路面有雨雪、存在高强度反光以及车道线或路缘严重缺失或存在大量遮挡等。
障碍物检测：目前可以用几百层的深度卷积神经网络来做像素水平的检测、分割和识别。
行为意图预测：障碍物的行为预测与障碍物检测同等重要。
自主导航：强调低成本、高精度和高环境适应性的方法，例如基于SLAM的解决方案，把成本降下来。
认知地图：人类开车时使用的就是认知地图，而非栅格地图。
自主决策和控制：自主决策即基于深度学习的端到端自主决策方式，输入一系列视频图像信息，然后输出一个自主决策而非直接是执行机构的控制量，后者也是一种极端的技术方案，实际上存在着严重的安全隐患。基于强化学习的控制算法从90年代发端，进一步可以研究基于数据驱动和知识驱动的无模型智能控制技术。

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

*深度学习的开源代码框架

支撑自动驾驶落地的大数据

大数据之于自动驾驶非常重要。目前，谷歌已累计拥有超过500万公里的路测大数据，2016年还有10亿英里的模拟大数据产生；特斯拉则积累了3.57亿公里的大数据。

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

如上图所示，截至目前，加州已经有36家企业被批准合法路测。全球范围内自动驾驶企业竞争激烈，目前产业竞争的焦点集中于以下两点：

自主行驶大数据里程数；
紧急情况的人工干预频率。

最新排名显示，从目前技术水平来看，谷歌Waymo做得最好，达到5分，它的研发团队或人才也是最好的，获4.5分。Uber的商业模式做得最好，因为它在匹兹堡市全城区进行无人驾驶出租车测试，它的商业模式评分得到了5分。特斯拉的技术评分为3.5，在技术的先进程度上全球排名第二。

深度学习方法采集与喂食的大数据越多，就越能获得更好的驾驶直觉，所以科技巨头都在疯狂追逐大数据。可以说，谁拥有与利用的自动驾驶大数据越多，谁的技术成熟度就越高，或者说离产业落地的距离就越近。

在深度卷积神经网络中使用大数据，必须要解决大数据的完备性问题。但实现完备性是很困难的，必须要将各种极端与紧急的情况都跑出来。中国的道路交通情况是全世界最为复杂的，很容易出现极端与紧急路况，所以我们具备可能是最好的路测环境与自动驾驶大数据。另外需要指出的是，为了将自动驾驶汽车的障碍物识别率从 99.999% 提高到 99.99999%，需要的是规模为指数级增长的大数据，因为有所谓的长尾效应，这需要极大的资源付出。

支撑自动驾驶落地的计算引擎

大规模的深度学习模型，高达数百层，可以利用超级GPU/TPU集群服务器进行离线训练。目前全球芯片巨头都在全面布局人工智能芯片，面向自动驾驶车载移动端与云端的深度学习芯片尤其成为兵家必争之地。现在看来，谷歌似乎也要利用其TPU加入全球AI芯片大战。

清华大学教授邓志东：起底自动驾驶，从技术路线到产业化落地实践 | CCF - GAIR 2017

*英伟达芯片阵营

与汽车主机厂、与自动驾驶科技企业、与Tier1，各个芯片巨头目前都在布局自己的AI芯片产业生态或阵营，可谓纵横捭阖。目前英伟达芯片阵营最大，许多车企与互联网企业都在使用英伟达硬件平台，后者马上还要进行新一代Xavier平台开源。其他的AI芯片阵营，包括英特尔及其由英特尔收购的Mobileye所组成的Intel/Mobileye联盟以及围绕谷歌Waymo的AI芯片阵营等。

支撑自动驾驶落地的其他基础条件

在支撑自动驾驶落地的其他基础条件方面，高精度栅格地图和基于深度学习的高精度认知地图可能形成巨大的产业。数字化、网联化与智能化的交通基础设施会逐步建成。

此外，由于深度学习目前存在不能实现语义理解的缺陷，因此必须借助于5G和NB-IoT等作为基础的智能网联技术（支持云端和路测设备通信），智能交通系统和智慧城市等，形成合力，以便解决极端和紧急情况下的可靠感知问题。

最终目标，是实现共享化的无人驾驶和人工智能增值服务。

结语

限定区域是一个坑，什么都可以装进来。技术等级达到L3甚至L4并非多么不可思议的事情，关键是这个级别是针对哪个限定区域的，是港口、机场、园区的，还是高速公路、部分城区的，或者是整个城市的，甚至是全国的，因此一定要考虑区域，当然也要同时考虑对其行车功能的限定。反过来说，限定区域也是自动驾驶商业模式逐步演变过程的真实体现，即要从简单到复杂逐步推进。

环境感知必须与环境建模（高精度地图）相结合，在5G通信、NB-IoT、车联网以及ITS和智慧城市的支撑下形成合力，实现极端环境与紧急情况下的可靠感知，助推L2跨越到L3，为自动驾驶产业的落地实践，迈出最为重要的一步。

高可靠、低成本是视觉或激光雷达主导技术路线的共同要求，多传感器信息融合是必须要着力解决的共性核心技术。

深度学习是环境感知和自主决策的决定性技术，可望使自动驾驶汽车具有类人的自主驾驶学习能力，其中路测与大数据成为关键。

最后，人工智能的新一轮复兴必将加速L4及以上无人驾驶产业的商业落地。

雷锋网推荐阅读：清华大学邓志东教授：国内研究氛围浮躁，原创性算法太少

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏