大国为何比拼陆地作战机器人？

本文作者：我在思考中

2021-10-09 17:32

导语：取法乎上，仅得其中。机器像人，路漫漫。

作者 | 吴彤

编辑 | 陈彩娴

取法乎上，仅得其中。机器像人，路漫漫。

军备竞赛，只要有一个国家迈出第一步，紧接着就会出现第二个国家，第三个国家......最终结成一张紧张又隐晦的霸权关系大网。

裹挟在人类历史上最大的内卷之中，各国军队开发作战机器人的意图是什么？站在军事变革的时代长河中，作战机器人的技术实际进展到了哪一步？人工智能会不会成为军备竞赛中的重要一环？我们惴惴不安的是军备竞赛的恐怖，还是前沿领域激发机器人的意识潜力？

从技术发展的角度看，许多高科技都是借助军事契机向前发展。1968年，阿帕网（ARPA网）诞生，有一个流传甚广的说法是，阿帕网是美国国防部为抵御前苏联的核打击而建造的通讯网络，即使部分指挥点被摧毁后，其它点仍能正常通讯工作。这个最初由美国国防部高级研究计划局用于军事研究目的局域网，被认为是现今互联网(Internet)的前身。从此之后，互联科技便开始了从局部互联到广域互联，从军用到民用的发展过程。

但着眼国际上成效显著的AI落地项目，人工智能技术在医疗健康领域大显身手。其因不仅是医疗领域有大量的数据可供机器学习，更为重要的是医疗问题多有明确的边界，AI运行极其隐秘且规整。在这种数据密集、知识密集、脑力劳动密集为特征的领域中，机器学习更像是设定好收益以及减益目标，通过无限穷举，并且依托强大算力的超级电脑，但是距离人们认知的“智能”，还有太大差距。

在现实世界中，少有存在明确边界的问题。

军事作战地形复杂，作战环境依附作战双方的机动战术，在这种软规则和硬规则的约束条件下成长起来的机器人，能否依据军事作战的特殊约束条件，提高机器人的自主决策能力，成长为配合士兵作战的钢铁智能？

1

世界军事强国对机器人部队的构想

英国正计划在2030年建机器人大军，部署12万个"终结者"机器人用于下一代战争。根据英军国防参谋长尼克·卡特将军的说法，在未来十年或2030年代，约有四分之一的英国军队可能是机器人。

与此同时，美国正在研制机器人战车，用来提升陆军作战能力。到21世纪30年代，这些快速、强力的车辆将在战场上巡逻，配合陆军进行作战。

发达国家率先将机器人作为军备一部分，多数人并不惊讶，机器人可能会补充新兵的缺口，减少对人类士兵的依赖，并可能多元扩充国家的军事力量。在以美国为首的许多国家已经增加了对机器人技术的军事投资，机器人很可能成为未来任何国家军事武器库中的关键部分。

从历史的长河看，社会形态开始向智能化演变的时候，战争形态必将随之向智能化演变。从冷兵器时代刀、枪、剑、戟，强调士兵近战肉搏，到热兵器时代枪林弹雨重视战略战术，我们是否要马上迎来信息战、信号战、无人作战时代？

目前，美国陆军研究实验室(Army Research Lab，ARL)正训练机器人在崎岖的地形(上、中)测试自主导航技术，目标是能协同人类队友。ARL还在开发具有操作能力的机器人，这种机器人可与物体交互，替代人类作战冗余行为。

然而，机器人的底层技术到了望而生畏的地步了吗，带着这些问题，IEEE Spectrum的高级编辑，Even Ackerman（埃文·阿克曼），近期前往了马里兰州阿德尔菲实验室中心（ Adelphi Laboratory Center），以第一视角写下了这篇文章。AI科技评论将其整理，与大家一同探索军地作战机器人的真实能力。

2

美国陆军研究实验室的陆地作战机器人

01 在混乱环境中，机器人表现糟糕

“我可能不应该站得这么近，”当机器人慢慢靠近我面前地板上的一根大树枝时，我对自己说。让我紧张的不是树枝的大小，而是这个自主操作的机器人。虽然我知道它应该做什么，但我完全不确定它接下来会做什么。

如果一切都像ARL的机器人专家预料的那样，机器人接下来会识别出树枝的存在，抓住树枝，并把树枝拖到道路的一旁。这些机器人很清楚自己正在做什么，但我站在它们面前，还是心生恐惧，所以我往后退了一小步。

大国为何比拼陆地作战机器人？

这款机器人的名字叫“RoMan”（Robotic Manipulation），意为“机器操作”，和一台大型的割草机差不多大，有一个履带底座，可以应对大多数不同的路况。它的前部有一个矮小的躯干，配备了摄像头和深度传感器；还有一对手臂，手臂的原型来自灾难响应机器人 RoboSimian，最初由NASA的喷气推进实验室（Jet Propulsion Laboratory，JPL）为美国 DARPA 的机器人竞赛开发，执行与灾难相关的任务。

RoboSimian

今天，罗曼的任务是清理道路。这是一项多步骤的任务，ARL希望机器人尽可能自主完成。操作员不会指示机器人以什么方式抓住目标物体、或将目标物移动到某个特定的位置，而是告诉RoMan要“清理出一条干净的道路"，然后由机器人自主决定如何完成这项任务。

“自主决策的能力”，本就是机器人之所以可以称为机器“人”的原因所在。我们重视机器人，是因为它们能够感知周围所发生的事情，根据感知的信息做决定，然后在没有人类干预的情况下采取有效的行动。在过去，机器人的决策是遵循高度结构化的规则。在像工厂一样结构化的环境中，机器人能很好地工作，但在混乱、陌生或定义不明确的环境中，比如战场，那么，对规则的依赖则会使机器人“笨手笨脚”，因为机器人无法提前精确预测与作规划。

02 深度学习：一块“绊脚石”

和许多机器人（包括家用吸尘器、无人机和自动驾驶汽车等）一样，RoMan是通过人工神经网络来应对在半结构环境中遇到的挑战。大约在十年前，人工神经网络开始应用于各种各样的半结构化数据。此前，这些半结构化数据一直是基于规则编程（也就是所谓的“符号推理”）来运行的计算机的难题。

人工神经网络不是识别特定的数据结构，而是识别数据模式，找出与网络先前遇到的数据相似但不完全相同的新数据。人工神经网络的部分吸引力，就在于它们是通过实例进行训练，通过让神经网络学习标记的数据，形成自己的识别模式。具有多层抽象的神经网络，则称为“深度学习”。

尽管人类参与了训练的过程，人工神经网络也受到了人类大脑神经网络的启发，但从根本上看，深度学习系统的识别模式与人类看待世界的方式是不同的。我们经常无法理解深度学习系统的输入数据与输出数据之间的关系，所以深度学习系统也往往被称为“黑盒子”模型。

深度学习的这种“黑盒子”不透明决策特性，给像 RoMan 这样的机器人和 ARL 实验室造成了一些问题。这种不透明性也意味着，我们要必须谨慎使用依赖深度学习系统的机器人。

深度学习系统擅长识别模式，但缺乏人类对世界的理解能力，也就无法像人类一样做出合乎情理的决策。这就是为什么深度学习在一些定义良好且范围小的应用中能取得最出色的表现。

“当你同时拥有构造良好的输入和输出，并且可以在这些输入与输出中完整地表达你的问题，那么深度学习就很有用。”美国罗彻斯特大学机器人与人工智能实验室主任 Tom Howard 谈道。此前，Tom Howard为RoMan和其他地面机器人开发了许多自然语言交互算法。“问题是，在为智能机器人编程时，这些依赖深度学习系统的机器人实际存在的大小是多少?"

Howard解释说，当你将深度学习应用到更高层次的问题时，输入的数据量可能非常大，处理大规模数据会十分困难。尤其当研究的对象是一个170公斤重的双臂军用机器人时，它在执行任务中可能出现的不可预测或无法解释的行为就变得无比关键。

几分钟后，罗曼还没有动——它仍然坐在那里，对着树枝沉思，手臂像螳螂一样摆动。在过去的10年里，ARL的机器人技术合作联盟(Robotics Collaborative Technology Alliance ，RCTA)一直与来自卡内基梅隆大学、佛罗里达州立大学、General Dynamics Land Systems公司、JPL、MIT、QinetiQ North America、中佛罗里达大学、宾夕法尼亚大学和其他顶级研究机构共同开发用于未来地面作战的机器人自主能力。RoMan就在这个大项目中的一个代表。

RoMan正在思考的“清出一条路”的任务对机器人来说是很困难的，因为这个任务太抽象了。在这个任务中，罗曼需要识别可能挡住去路的物体，推断这些物体的物理性质，弄清楚如何抓住它们，以及采用哪种最佳的操作技巧（推、拉、提等等），然后将这些行为完整地执行出来。对于一个本就对世界了解有限的机器人来说，这个任务的步骤实在太多，且充满未知。

03“模块化”理解世界

ARL操纵和移动项目的人工智能首席科学家Ethan Stump 谈道：“让机器人逐渐理解世界，正是ARL所开发的机器人与其他依赖于深度学习的机器人所不同的地方。”

“军队也许会在世界上的任何地方执行任务，但我们不可能收集应用到机器人的所有地域的详细数据。我们也许会被派去地球另一侧从未涉足的森林，但我们也要表现地就像在自家后院一样出色。”他介绍，但大多数深度学习系统只能在它们受训的领域和环境中可靠地运行。此外，如果军队作战机器人的深度学习系统表现不好，他们并不能通过简单地收集更多的数据来解决问题，数据量有限。

ARL的机器人还需要意识到自己在做什么。Stump 解释：“在一项任务的标准执行顺序中，你有目标、约束条件、表达指挥官意图的话术。”换句话说，RoMan 可能需要快速地清理一条道路，也可能需要安静地清理一条道路，这取决于任务的具体要求。即使对目前最先进的机器人来说，这也是一个很高的要求。

在我看着的时候，RoMan再次搬运树枝。ARL的自主方法是模块化的，其中，深度学习与其他技术结合，让 RoMan 帮助ARL确定什么任务适合什么技术。

目前，RoMan 正在测试两种从3D传感器数据中识别物体的不同方法：宾夕法尼亚大学的方法是基于深度学习，而卡耐基梅隆大学使用的是一种通过搜索来感知的方法，这种方法依赖于更传统的3D模型数据库。只有事先确定要寻找的对象，搜索感知方法才有效，但这种方法的训练要快得多，因为每个物体只需要一个模型。而且。即使物体很难被感知，比如物体的一部分被遮挡或被颠倒，搜索感知方法也能准确地识别物体。ARL同时测试两种方法，让两种方法同时运行、相互竞争，以选出最通用和最有效的方法。

感知是深度学习擅长的事情之一。ARL的计算机科学家 Maggie Wigness 说：“得益于深度学习，计算机视觉领域已经取得了极大进展，我们已经成功地将一些只在一个环境中训练的深度学习模型很好地泛化到新的环境中。"

ARL的模块化方法是将几种技术的优势结合起来。例如，基于深度学习视觉对地形进行分类的感知系统，可与基于逆强化学习方法（inverse reinforcement learning）的自动驾驶系统一起工作。在逆强化学习方法中，模型可以通过人类士兵的观察迅速创建或优化，而传统的强化学习基于既定的奖励函数来优化解决方案，通常只有在你不确定什么是最佳行为的时候使用。这和作战思维不谋而合，这种思维通常认为训练有素的人在一旁指导机器人才是正确的做事方式。

"所以我们想要一种技术，让士兵干预，结合一些战场实例。如果我们需要新的行为，就可以更新系统。深度学习技术需要更多的数据和时间。”Wigness说。

04 如何安全运行

深度学习要面临的，不仅仅是数据稀疏和快速适应的问题，还有鲁棒性、可解释性和安全性等问题。Stump说：“这些问题并不是只有在作战机器人中才会出现，但在军队作战时尤其重要，因为它所引起的后果可能是致命的。” 需要明确的是，ARL目前并不是在研究致命的自主武器系统，而是在为美国军方的自主系统奠定基础。在未来，作战机器人可能就如RoMan一样行动。

Stump还表示，安全永远是优先考虑的问题，但目前还没有一种明确的方法来确保深度学习系统的安全性。“在安全的约束下进行深度学习是一项重要的研究工作，但将这些约束条件添加到系统中确实困难重重，因为你不知道系统中已有的约束条件是从哪里来的。所以，当任务变化，或环境变化时，约束条件就很难处理。

这甚至不是一个数据问题，而是一个架构问题。"无论ARL的模块化架构是使用深度学习的感知模块，还是使用逆强化学习的自动驾驶模块，它都可以构成更广的自动系统的一部分，并满足军队对安全性和适应性的要求。

整合起来的深度学习系统就能作战？

Nicholas Roy 是 MIT 机器人小组的负责人。他形容自己是一个“煽动者”，因为他觉得深度学习不应该被神化，所以他同意ARL机器人专家的观点，即深度学习方法往往无法应对军队所面临的挑战。

“陆军时时深入新的环境，而且敌军总是尝试不断改变环境，所以机器人所经历的训练过程根本无法与军队的需求相匹配。" Roy说，"因此，很大程度上，深度网络的需求与陆军作战的任务是不匹配的，这是一个问题。"

在RCTA（Rear Cross Traffic Alert，后方横向来车警示系统）任务中，Roy强调地面机器人的抽象推理。他认为，当深度学习被用于具有明确函数关系的问题时，它就是一项有用的技术，但当你开始研究抽象概念时，就不清楚深度学习是否可行。"

Roy说：“我对神经网络和深度学习如何以一种支持更高级的推理方式进行组装非常感兴趣，归根到底，这是如何结合多个低级神经网络来表达更高层次概念的问题，但目前我们还不知道怎么做到这一点。"

Roy给出了使用两个独立神经网络的例子，一个用来检测汽车，另一个用来检测红色的物体。与使用基于逻辑关系的、带有结构化规则的符号推理系统相比，将这两个网络合并成一个更大的网络来检测红色汽车要困难得多。“很多人都在研究这个问题，但我还没有看到成功推动这种抽象推理形成的研究。”

在可预见的未来，ARL将通过让人类参与高级推理和偶尔的低级建议，来确保自主系统的安全性和鲁棒性。人类可能不会一直参与机器人系统的研究，但当人类和机器人作为一个团队一起工作时，它们的效率会更高。当机器人合作技术联盟项目（Robotics Collaborative Technology Alliance）的最新阶段在2009年开始时，ARL已经在伊拉克和阿富汗呆了很多年，在那里，机器人经常被当作工具使用。我们一直在想，我们要怎么做才能让机器人从工具变成球队中的队友。"

当人类指出抓取哪个区域的树枝最有效时，RoMan确实得到了一点帮助。机器人对树枝并没有认知，这种世界知识（即人们常说的“常识”）的无知是所有自主决策系统的通病。但如果有一个人能利用我们人类的丰富经验，稍微点拨一下RoMan，那么它工作起来就会容易地多。这一次，RoMan成功地抓住了树枝，并将树枝拖走了。

把一个机器人变成一个好队友很难，因为要赋予机器人何种程度的自主权是十分棘手的。机器人的自主权太少，就需要人投入大量的精力来管理，这适用于处理爆炸物等特殊情况，但在其他情况下则效率低下。但如果给予机器人太多的自主权，则会有信任、安全和可解释性等方面的隐患。

Stump解释：“我认为我们要找的标准是，机器人的操作水平相当于工作犬。它们清楚地知道在有限的环境下，我们需要它们做什么；如果它们去到新的环境，还会有少量的灵活性和创造力，但我们不期望它们用创新的方法解决问题。如果它们需要帮助，它们可以向我们求助。”

05对自主系统的探索要延续下去

即使是作为人类团队的一员，RoMan也不太可能马上在野外独立执行任务。RoMan更像是一个研究平台，借由这个研究契机，可以探索深度学习的一系列复杂问题。但是，ARL正在为RoMan和其他机器人开一个软件，名为“自适应规划参数学习”( Adaptive Planner Parameter Learning，APPL)，可能会首先用于自动驾驶，然后是更复杂的机器人系统，包括像RoMan这样的移动操控员。

APPL将不同的机器学习技术（包括逆强化学习和深度学习）分层排列在经典的自主导航系统之下，可以将高级的目标和约束应用在低级编程上。人类可以使用远程操作演示、矫正干预和评估反馈来帮助机器人适应新环境，同时，机器人可以使用无监督强化学习来调整自己的行为参数。

结果就是，一个自主系统可以兼具机器学习的多个优势，同时也提供了军队需要的安全性和可解释性。有了APPL，像RoMan这样的基于学习的系统，即使在不确定的情况下也可以采用可预测的方式运行。如果它处于与训练环境十分不同的环境中，则需要依靠人类调优或人类演示。

商业和工业自动驾驶系统（比如自动驾驶汽车）的快速发展，难免使人们好奇：为什么军队会在先进技术的洪流中处于落后地位？Stump 的看法是，自主系统中有很多难题，军队的难题与工业难题不同。比如说，军队就没有配备大量数据的结构化环境来操作机器人。未来，人类很可能仍然是ARL正在开发的自主框架中的关键角色。

3

结语：不要在发明棍子之前，困于对暴力的忌惮

从上述分析中可以看出，全球军事机器人研究并没有停滞不前而是在积极向前发展。人们更希望军事机器人开发者能够在战斗和智能自动化方面找到平衡。

我们的时代轨迹是真正实现人机共融，而从机器人一隅来看，人和机之间的关系，渐次为辅助、协同、替代、扩展。辅助和协同已经实现，人的主体地位就要摆在更显眼的位置了。

参考资料：https://spectrum.ieee.org/ai-army-robots
http://myy.cass.cn/rdpl/202106/t20210621_5341552.shtml
https://new.qq.com/omn/20201122/20201122A066AY00.html
https://www.163.com/dy/article/GHC04M7D055271RZ.html

大国为何比拼陆地作战机器人？