自动驾驶领域，「决策」和「感知」终于握手言和

本文作者：郭思

2024-02-27 10:59

导语：轨迹预测准确率提升30%的大模型「上车」之道。

作者丨郭思

编辑丨陈彩娴

围绕大模型应用于自动驾驶的讨论热度持续升温，却呈现出愈发复杂而矛盾的现象。

一方面，资本力量的积极投入，行业巨头纷纷抢占先机。例如，特斯拉近期推出了其“端到端”的全自动驾驶软件FSD v12版本，并已在美国和加拿大地区逐步面向非员工用户提供更新服务。与此同时，小米汽车于23年末宣告搭载自主研发的端到端感知决策大模型的小米智能驾驶系统面世，展现其在自动驾驶领域的创新突破。

学术界同样对此表现出浓厚兴趣，诸如BEV（鸟瞰视角）技术和NLP（自然语言处理）的应用推动着汽车智能化走向新的高峰。其中，上海人工智能实验室在2023年CVPR会议上荣获最佳论文奖的UniAD自动驾驶模型，正是全球首个实现感知决策一体化的自动驾驶大模型典范。

然而，另一方面，透过华丽的宣传表象，实际专注于研发和应用自动驾驶大模型的企业数量并不多（据AI科技评论了解，当前在这一领域稳健推进的仅有英国Wayve等少数公司）。传统汽车行业的模块化管理模式长期以来形成的壁垒，令汽车行业在面对大模型试图一揽子解决诸多问题的新模式时承受巨大压力。

在此之前，国内某企业自动驾驶的负责人也曾透露，大模型技术的发展潮流促使整个部门内部组织结构发生显著调整。一体化的自动驾驶决策大模型在某种程度上缓解了过去车企内部感知与决策部门间可能出现的冲突与不协调。然而，在迈向大规模部署和产业化发展的道路上，尚需面对轻量化部署难度高、高质量训练数据匮乏、传统车企转型升级步伐缓慢等一系列挑战。

大模型「上车」之路，看似近在咫尺，实则极具挑战。

1、大脑和耳目的「分崩离析」

和人类一样，智能驾驶汽车想要自己开上路，首先需要对周围环境有一个认识。这件事情一般会交给自动驾驶的感知系统来完成。感知系统以多种传感器的数据和高精度地图的信息作为信息输入，经过一系列计算及处理，对自动驾驶汽车周围环境进行精确感知，也常常被比喻成智能汽车的”眼睛“和”耳朵“。

只不过有了眼睛和耳朵还不够，上路还需要强大的大脑，这也就牵扯到了自动驾驶领域的决策系统。

长久以来，这两个系统各自面临技术和实践上的挑战，有时呈现出“分崩离析”的状态，在某些复杂场景下，感知模块可能无法准确识别或理解环境信息，而决策模块也可能因对感知结果处理不当或算法局限性导致不正确的行驶决策。

这一现状也体现在众多自动驾驶公司的组织架构之中。

在国内自动驾驶行业某头部公司内部，感知与决策团队之间的紧张关系一度成为焦点。感知部门作为信息采集和初步处理的上游，负责通过各类传感器收集环境数据并进行初步分析；而决策部门则扮演下游角色，基于感知数据做出驾驶策略决策。由于两部门职能紧密相连且相互依赖，两位团队负责人在技术路线、资源分配及责任边界等方面出现了较大分歧，甚至影响到了整体工作的协调推进。

最终，为了解决这一内耗问题，最后导致管理层不得不将两个人的权责范围进行调整。

另一个传统车企研究院的技术架构师曾告诉AI 科技评论，自动驾驶部分这两个部分碰撞十分之多。软件模块一旦涉及到接口的东西，出现问题之际，很难撇清是谁的责任，必须要有模块化的测试用例，从而去进行区分。

汽车在行驶过程中，最终决策如果有出现错误，就可能意味着在决策之上的每一个环节都在出现问题。传统的模块方式，会有误差的累积。如果感知模块未能正确识别出道路障碍物或预测其他交通参与者的行为，则可能导致决策规划模块依据错误的信息做出不正确的行驶决策。此外，模块之间的信息传递如果不清晰或者接口定义不严谨，也会导致信息丢失或误传，进一步增加决策错误的风险。

为了减少这类问题，汽车制造商和研发机构通常会采取诸如模块化设计与测试、集成测试与回归测试、功能安全认证以及强大的仿真平台与实车测试等措施，以求最大程度上减少误差累积和避免事故发生。

但尽管如此，由于自动驾驶技术的复杂性和多学科交叉特性，完全消除错误和不确定性仍然是一个艰巨的任务。模块化设计与测试虽有助于隔离问题，确保每个模块独立运作的可靠性，但在实际集成过程中，模块间的交互可能导致新的未知问题出现。

行业迫切需要一套更简单高效解决的方案。

2、决策与感知握手言和是大势所趋

2023年12月，小米汽车宣布推出搭载其自研端到端感知决策大模型的小米智能驾驶系统。紧接着，特斯拉也发布了其“端到端”自动驾驶软件FSD v12版本，并开始在北美向非员工用户推送。这似乎在表明对决策感知一体化的深入理解正成为共识，预示着行业发展的趋势。

然而，在决策感知一体化概念进入公众视野之前，早就有一群敏锐的学术先行者已经关注到这一动向。

2023年6月，上海人工智能实验室的自动驾驶全栈可控端到端方案UniAD相关研究论文，在人工智能顶会CVPR（国际计算机视觉与模式识别会议）上荣获最佳论文奖。这是有史以来自动驾驶相关技术首次获此殊荣。UniAD向全世界展示了感知、规划及决策一体化的“端到端”框架，为自动驾驶开拓了新方向。

上海人工智能实验室青年科学家、OpenDriveLab团队负责人李弘扬博士向AI科技评论表示，2023年的获奖只是最终结果。在此之前，包括其团队在内，学术界和产业界对自动驾驶的研究经历了一段探索过程。

2021年，彼时刚加入上海人工智能实验室不久的李弘扬，注意到了国外一个自动驾驶系统开源项目——Openpilot。

基于Openpilot系统，只需为车辆安装一个当时售价999美元的后装设备，内置单个摄像头和电路板，可以处理L2级别的驾驶场景，实现自适应巡航控制（ACC）、自动车道保持（ALC）、前向碰撞警告（FCW）和车道偏离警告（LDW）等功能，目前已支持40余种车型。相比特斯拉完全自动驾驶系统，Openpilot成本低，效果却十分惊艳。

OpenDriveLab团队系统研究了Openpilot的各项技术细节，得出结论：Openpilot之所以能够在单一设备上实现L2级自动驾驶，关键在于端到端的系统设计，而非传统的模块化框架。并于当年发表了一篇Openpilot研究论文，向学术界和产业界分享了观点。

自动驾驶领域，「决策」和「感知」终于握手言和

OpenDriveLab团队Openpilot研究论文截图

论文链接：https://arxiv.org/abs/2206.08176

「原来自动驾驶可以做得如此简单。」

受此影响，团队开始着手设计端到端的直接输出项目，成为开启UniAD研究的首个关键节点。

而UniAD研究的第二个关键节点则与BEV + Transformer相关。

BEV是如今自动驾驶领域的热门词汇。即通过车辆上传感器接收的数据生成俯视图（地图）坐标系下感知结果的算法，包括检测、分割等任务，是现行自动驾驶领域环境感知和表示的重要方式。

在BEV之前，大部分汽车厂商的做法是先去感知了2D图像中的一些特征，比如说车在哪里，车轮的接定点在哪里，车的长宽比例是多少，拿到了一些图像层面的信息之后。再根据相机的一些3D的标定几何参数去获得目标在三维空间下的准确的位置信息。

直到 2014 年，一篇标题为“Automatic Parking Based on a Bird’s Eye View Vision System”的论文发表，改变了这一局面。该论文的核心内容是：通过四颗鱼眼摄像头感知环境信息，并来构建一个 BEV 视觉系统，并由此实现自动泊车。BEV横空出世，成为了大家争相研究的方向。

感知下游的规划控制成为了主流做法。而随着深度学习技术的持续进步，在2021年底至2022年间，BEV与Transformer的深度融合逐渐成为了自动驾驶领域内的主流研究趋势。

当时，学术界面临如何继续深化自动驾驶技术创新的挑战，这要求从系统架构和软件工程层面深入探讨，并前瞻性地预见行业发展趋势。

而从商业化角度看，2021年之际，自动驾驶技术似乎已触及了一个瓶颈阶段，L2级别的辅助驾驶功能基本满足了大部分日常驾驶需求。吉利汽车与Mobileye的合作就是这一趋势的体现，当时计划在2021年实现L2+级自动驾驶系统的量产。其他汽车制造商如日本的几家大型车企也在2022年前后在其主力车型中广泛普及L2级别的自动驾驶技术。

只不过在应对复杂多变的交通场景，提供更加流畅和稳定的驾驶体验上，各家都显得捉襟见肘。

李弘扬锐地感知到了这一趋势，坚信端到端大模型具有广阔前景，是推动自动驾驶领域发展的有力途径。

一开始他们在感知阶段使用Transformer，而在预测和控制阶段则采用了Resnet架构。尝试将所有模块整合进单一网络结构，但在这时却遭遇了训练不稳定和性能下滑的问题。统一了全用 Transformer 这种网络结构之后， QPV 等等这些几个变量都能统一到一起。需要一整套的这种系统的级联以及丰富模型训练的这种经验的背景，才把这一套跑通。

在UniAD中，研究人员首次将感知、预测和规划等三大类主任务、六小类子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的基于 Transformer的端到端网络框架下，实现了全栈关键任务驾驶通用模型。

自动驾驶领域，「决策」和「感知」终于握手言和

在 nuScenes 真实场景数据集下，UniAD的所有任务均达到领域最佳性能（State-of-the-art），尤其是预测和规划效果远超之前的最佳方案。其中，多目标跟踪准确率超越SOTA 20%，车道线预测准确率提升30%，预测运动位移和规划的误差则分别降低了38%和28%。

该成果一旦大规模应用其实也会一定程度解决文章开头提及的决策和感知打架的矛盾。

3、走向产业的三大拦路虎

在学术前沿技术公布之后，紧随其后的重点是探索其产业落地的可能性及其对社会价值的有效贡献。对于UniAD这一自动驾驶领域的尖端技术来说，其向车载应用场景迈进的道路充满了挑战。

核心挑战首先是如何实现模型的轻量化部署以及获取高质量的训练数据。另一方面，UniAD作为一项自动驾驶领域成果，能否上车其实也受制于车企的推进意愿。这三点正是UniAD大规模部署途中的三大拦路虎。

当UniAD宣布开源时，外界普遍关注其如何能在短时间内迅速达到高水平并成功实现在车辆上的应用。

实际上，这一问题的复杂性远超出人们的初步认识。李弘扬坦言，尽管基于Transformer架构的UniAD在追求卓越性能的过程中取得了显著成果，但也无可避免地受限于Transformer模型本身固有的问题，尤其是在模型部署环节，因其巨大的参数量带来了严峻挑战。

在此背景下，众多汽车制造商及相关企业正集中力量，着力于在确保高性能的前提下，将模型高效部署于车载嵌入式系统中，特别是像NVIDIA Orin等高性能汽车芯片以及高通骁龙819等新型芯片平台。

李弘扬团队所研发的多项算法在关键性能指标FPS上有显著提升，已实现每秒处理超过20帧图像，这意味着系统拥有更强的实时处理能力和更快的响应速度。

回顾初期，UniAD初次发布时，其FPS仅为8至9帧。经过学界与产业界共同努力，如今已将该数值提升至超过20帧的高度。

在追求轻量化部署的过程中，车载芯片本身的特性也是一个重要考量因素。在自动驾驶领域，芯片并非单纯追求极致算力，而是更看重稳定性以及功耗控制，要求在较低功耗范围内（通常为十几瓦左右）持续稳定工作。同时还要具备良好的散热性能以适应严苛的车载环境。相较于普通消费级芯片，车规级芯片需在更恶劣条件下运行，如宽温范围（零下40摄氏度至零上155摄氏度），以及应对光线、振动、粉尘、电磁干扰等多种复杂情况。

这就要求芯片即使在极端颠簸环境中也能保持稳定工作，而这虽不属于算法团队的传统研究范畴，却也是必须解决的适配问题。若芯片算力不足，无法支持多种算法，或者生态系统不够成熟，在设计网络结构时，就必须精简设计，甚至只能局限于芯片支持的现有库中的算法。

针对决策与感知一体化的需求，其对计算能力的要求一开始就非常高。以高端配置为例，单颗芯片可能具备200TOPS的算力，两颗芯片组合可达400TOPS，但这仅仅是理论上的峰值。在实际运行中，往往需要上千TOPS乃至更高的有效算力，因此需要进行针对性的优化适配。凡此种种，皆对汽车厂商与芯片厂商都提出了更高的要求。

除了轻量化部署是一大难题之外，横在UniAD面前的，还有高质量数据这一老大难问题。

在通用视觉领域，现有的数据集往往缺乏足够的三维数据或多角度信息。而对于自动驾驶应用场景来说，尤其是一些重要但出现频率较低的特殊情境数据尤为关键。比如车辆在降雪环境下突然进入半开放式隧道，或是遇到具有潮汐车道属性的左转信号灯等情况。

这些罕见且关键的驾驶场景对数据的丰富度要求极高，但由于实际发生的概率较小，故难以积累充足的此类数据。许多自动驾驶领域的研究者在开展感知相关的研究时，急需三维数据及多视角重建的支持。因为在实际驾驶中驾驶员主要依赖前方视野，而要全面重建驾驶场景，则需要综合考虑前后左右各方位的信息，这样的高质量数据极为稀缺。

除此之外，端到端技术的推行还面临着结构性阻力。特别是在已有明确分工的传统车企中，它们往往设有独立的二级或三级部门，分别专注于预测、路径规划、控制等专项任务。若推行端到端技术，则意味着可能需要整合多个部门的功能，组建一个新的综合性部门，类似于设立未来技术研究院。国内传统车企如一汽、广汽等，它们的相关研究和技术开发通常就在类似的研究院体系下展开。

相比之下，国内一些新兴造车势力更愿意接纳和运用端到端技术。由于这些企业是从零起步，没有历史负担，从无到有建立起自己的技术和管理体系，所以在技术层面更具创新性和前瞻性。此外，新兴企业的组织结构相对扁平，部门划分尚未固化，较容易接受端到端这样打破原有模块化界限的技术革新，从而更有效地推动技术进步与应用落地。