麻省理工最新研究：血虐人类玩家的RL智能体，在纸牌游戏中从最强对手变成“猪队友”

本文作者：我在思考中

2021-11-04 10:18

导语：再强大的RL智能体想要走进现实世界，也要过了“合作”这一关。

麻省理工最新研究：血虐人类玩家的RL智能体，在纸牌游戏中从最强对手变成“猪队友”

作者 | 青暮、眉钉

诸如《星际争霸》等复杂游戏，是AI模拟现实的绝佳场景。

如果AI在复杂的环境中，学会和人一样实时感知、分析、理解、推理、决策并行动，那么就可能在多变、复杂的现实环境中发挥更大的作用。

近年来，从国际象棋、德州扑克到《星际争霸》，基于强化学习（reinforcement learning ）算法的AI智能体早已达到人类顶级玩家水平。如DeepMind出品的AlphaStar早已在国际排位赛中达到宗师水平，完败99.8％的人类。

但在这些游戏中，AI与人类都表现为”对抗关系”

如果让AI与人类“配合”打游戏，强化学习智能体能成为一个“好队友”吗？

最近，麻省理工林肯实验室研究团队在arXiv提交了一篇新论文《Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi》，论文表明，尽管强化学习智能体在Go、星际争霸等竞争性游戏表现相当优异，但它们与人类合作玩游戏时，在简单的纸牌游戏中表现都很“糟糕”。

论文地址：https://arxiv.org/pdf/2107.07630.pdf

在这项研究中，研究团队评估了基于规则和基于学习的两类AI智能体，在纸牌游戏（Hanabi）中与人类合作的表现，通过游戏分数、团队绩效、可解释性、信任度和总体偏好等指标测量，他们发现，在几乎所有主观指标中，人类对基于规则的智能体队友的“好感”明显高于基于学习的智能体，而且对后者大多持负面评价。

作者表示，虽然强化学习智能体在对抗性游戏中创造了超人AI，但人类不该理所当然地认为RL系统在所有应用中都能表现优越，在目前的技术水平下，基于学习的智能体要想成为人机互动的最佳“队友”并不那么容易。

同时，论文中也强调虽然最终游戏得分几乎没有差别，但我们应该将主观评价纳入智能体的的考核标准，而不是单一地关注客观任务绩效。

RL智能在“人机合作”中有多菜？

强化学习（reinforcement learning）是训练AI智能体最常用的算法，它为智能体在游戏场景中提供了更灵活的动作，接收环境信息的反馈机制以及作战目标，如今基于强化学习的智能体已经不再需要人类玩家的游戏数据，而是可以在自我游戏模式下从头开始训练。

在棋盘游戏、街机游戏、实时战略游戏、多人作战以及模拟空中格斗等游戏中，RL智能体的表现已经达到了人类玩家的水平，甚至碾压顶级职业玩家。一个典型的例子是在AlphaGo与顶级围棋选手李世石的对战赛中，智能体凭借一步精绝之棋，扭转局面首战人类！

麻省理工最新研究：血虐人类玩家的RL智能体，在纸牌游戏中从最强对手变成“猪队友”

然而，RL智能体在以上游戏中的优势都是在纯粹的对抗性、单人或双人游戏中进行的。要想将智能体的AI能力扩展到现实世界，还必须能够展示团队智能，特别是与人类队友合作的团队智能。

论文作者Ross Allen表示，现实世界中的复杂性、不确定性、数据稀缺性以及决策周期和目标定位都是智能体面临的难题。尽管如此，智能体依然需要与人类协作，解决现实世界中深度学习应用的技术壁垒。

需要强调的是，不同于智能体之间的协作，要想与人类达成有效合作，AI队友需要表现出适当水平的人类反应，比如信任、精神负荷和风险感知等。考虑本次研究目的是评估在不完全信息博弈中的人工智能团队的合作，不仅要考虑到人类AI团队的客观表现，而且考虑到不同类型的人工智能队友工作时的主观人类反应和偏好。

在诸多游戏中，研究人员最终挑选了纸牌游戏Hanabi（花火）用于实验。纸牌游戏规则简单，又需要在限信息内充分发挥合作优势。Allen表示，“在解决现实世界中的问题时，最好从简单的做法开始做起” 。近年来，很多研究团队基于Hanabi游戏开发智能体，其中部分智能体是基于符号AI，部分使用强化学习。

Hanabi需要两到五名玩家按照特定的顺序合作玩牌，玩家们向后举牌，相互不能面对面，但每个队员都可以看到彼此卡片。玩家可以使用有限数量的令牌来提供卡片线索，但只能利用从队友手中看到的信息和自己手上的有限线索来制定取胜策略。

作者采取了三种游戏模式：一是自我游戏，即智能体用自己的副本参与游戏；二是交叉游戏，智能体需要与其他类型的智能体合作；三是与人类合作玩游戏，也就是交叉游戏。Allen表示，与人类的交叉游戏(也称为人类游戏)尤其重要，它衡量了人机合作，也是论文中实验的基础。

为了测试人类与人工智能合作的效率，作者选择了目前性能最佳的两款智能体SmartBot（SB）和Other-Play（OP），前者是在自我游戏中表现最佳且基于规则的人工智能系统，后者是在交叉游戏中排名最高的基于学习的人工智能系统。

在人类与AI队友的Hanabi游戏中，玩家可以同时接触到SmartBot和Other-Play，但不会知道是具体是哪种算法在运作。Allen表示结果令我们大吃一惊，“人类对基于学习的智能体合作评价非常负面，可以说他们讨厌与它合作”。

根据对人类参与者的调研，与基于规则的SmartBot智能体相比，基于学习的Other-Play在体验感上更差一些。在纸牌游戏中，向其他玩家提供"微妙暗示"的技巧是团队取胜的关键之一。比如，桌子上有一张“方块之一”牌，你的队友手里拿着两个方块。通过指着牌说“ 这是一个2 ”或“这是一个正方形”，你隐隐地暗示队友打出这张牌，但没有向他提供这张牌的完整信息，如果是有经验的玩家就会立即顿悟，但如果是向AI队友提供这样的信息，不会得到任何反馈。

基于“规则”的智能体表现更好

研究人员从客观和主观两方面评价了人工智能的合作水平。客观指标包括分数、错误率等；主观指标包括人类玩家的体验：对AI队友的信任度和适应度，以及AI理解动机和预测行为的能力。

实验的结果表明，尽管两个智能体的合作在客观绩效方面没有显著差异，但主观指标显示，与基于学习的代理相比，人类明显更喜欢基于规则的智能体。在论文中，作者对大多数图进行了着色，以显示与数据相关的参与者的自我评价和体验水平。

如下图显示了智能体类型（左）和自评玩家体验（右）的游戏分数，可以看出，当与任一智能体合作时，未发现显著差异，与自评体验的相关性仅在SmartBot游戏中显著。

由于分数是纸牌游戏的主要性能指标，也是RL智能体的奖励函数，因此作者研究了分数与其他一些相关性。结果显示自评经验和得分在汇集两位智能体的游戏时，呈现显著的正相关（p=0.0053，r=0.214）。SB智能体在游戏子集的相关性仍然显著（p=0.0023，r=0.247），但OP智能体的游戏相关性不显著（p=0.0867，r=0.1881），这表明对于该双变量分析来说，经验仅与SB的得分相关，而与OP无关。

此外，团队绩效（G3、G4）和得分（p=0.0003，r=0.275和p=0.0002，r=0.280）之间也发现了显著的正相关。但智能体的自我绩效（G1、G2）与得分没有显著相关性。

下图为人类玩家赛后对智能体表现的情绪测量，在所有智能体类型与纸牌游戏交互充分的情况下，经验更丰富的人类玩家对Other-Play智能体的评价要比SmartBot负面得多，而新手玩家对这两个智能体的评价相似，SmartBot代理的新手和专家评分之间没有显著差异。

在实验分析中，作者将参与者分为“新手”（n=10，自评经验≤ 5）和“专家”（n=19，自评经验>5）两组，并在交互作用显著的情况下（G3、G5、G7、G8、G9），对每种参与者的感受指标进行比较。

实验显示，两组对某人的评价没有显著差异，但专家们对OP的评价总是比新手差。G3“团队表现良好”（t（85）=3.551，p<0.001，效应大小d=0.752）的评价差异没有其他组（t（85）=5.068到5.855，p<0.0001，| d |>1.0）的大，但所有组都很显著。

可以注意到，有三名参与者在OP中获得24分，其中一名参与者两次获得24分（没有参与者在OP中获得25分）。对于问题E1，三人的评价都在Likert量表的最末端回答，并倾向于选择SB。

有趣的是，他们对OP和SB的累积分数分别为：参与者6（先玩OP，自评经验为7）：57和28；参与者19（SB优先，经验7）：68和48；参与者20（OP优先，体验6）：70和35。其中，累积分数最高的参与者的分数分别为68（OP）和54（SB），并且首选Likert评分为6的SB。

参与者评论指出，与OP合作时的低脑力负荷通常是由于对智能体感到沮丧并放弃与它合作而造成的。例如，在OP智能体未能根据人类发出的几条提示采取行动（“我给了它信息，它却把它扔掉了，不知道该如何与智能体合作”）。

此外，在下图的实验后的问题测量图中，除E8外，所有人对基于规则的智能机器人都表现出统计上的显著偏好（p<0.05）。

强化学习与现实世界的距离

这项研究测量了人类与智能体混合团队在纸牌游戏Hanabi中的游戏性能和反应，比较了人类与基于规则的智能体协作和与基于强化学习的智能体协作的结果。尽管在这些团队之间取得了相似的分数，但人类玩家强烈倾向于与基于规则的智能体合作，并且对另一个游戏代理持否定态度，理由是人类玩家对后者的理解、信任、适应度和感知能力体验较差。