人脑的前额皮质里藏了一个强化学习系统，DeepMind如是说

本文作者： sanman

编辑：杨晓凡

2018-05-16 15:31

导语：不只是机器在机器学习，原来人脑也在「机器学习」

雷锋网 AI 科技评论按：最近，AI 系统已经学会一系列游戏的玩法，如雅达利经典游戏 Breakout 和 Pong。尽管这样的表现令人印象深刻，但其实人工智能需要数千小时的游戏时间才能达到并超越人类玩家的水平。相比之下，我们则可以在几分钟内掌握以前从未玩过的游戏的基础操作。DeepMind 对这个问题进行了研究，论文《Prefrontal cortex as a meta-reinforcement learning system》发表了在了《自然》神经科学子刊上。随着论文发表，DeepMind 也撰写了一篇解读博客，介绍了论文的主要内容。雷锋网 AI 科技评论编译如下。

人脑的前额皮质里藏了一个强化学习系统，DeepMind如是说

什么是元学习？

人类只接受这么少的信息就能干这么多的事情，这项能力牵扯到了元学习理论，或者叫「学会学习」。我们日常的学习有两个时间尺度，短期学习中我们专注于学习具体的例子。而在长期学习中，我们通常要学会抽象出规律和技巧来完成任务。我们之所以能如此高效的学习以及如此灵活而快速的应用各种知识正是因为这种学习组合。在 AI 系统中重现这种元学习结构或者叫元强化学习对于实现快速、一次性学习卓有成效（详见我们的在 OpenAI 的论文及工作）。但是元学习这一过程具体的实现机制在神经科学中依旧是未解之谜。

在 Jane Wang 团队新发表在《自然》神经科学子刊上的论文中，他们在 AI 研究中使用元强化学习架构来探究大脑中的多巴胺在人类学习过程中起到的作用。多巴胺通常被认为是大脑的愉悦信号，也经常被认为类似于 AI 强化学习算法中的奖励函数。这些 AI 系统就是在奖励的指导下反复试验。他们认为多巴胺的作用不仅仅是作为奖励来评估过去行为的价值，它在前额叶皮层区也发挥着不可或缺的作用，使人类能够有效，快速，灵活地学习新任务。

引入神经科学

他们通过虚拟重建神经科学领域的六个元学习实验来测试他们的理论，其中每个实验都需要一个代理程序来执行基本原则（技能）相同但在某些维度上有所不同的任务。他们先使用标准深度强化学习技术（代表多巴胺的作用）训练了一个递归的神经网络（代表前额皮质），然后再对比递归网络的活动动态与以前神经科学实验真实数据的异同。递归网络是元学习的优秀代理程序，因为它们能够内化过去的行为和观察内容，然后在训练其他任务时借鉴这些经验。

类比 20 世纪 40 年代的心理学测试—Harlow 实验，他们重新创建了一个实验用于探索元学习的概念。在最初的 Harlow 实验中，一组猴子面前有两个不同的供选择的物品，其中一个可以给它们带来食物奖励。然后实验人员将这两个物品一左一右在猴子面前展示六次，每次物品的左右位置都是随机的，所以猴子必须知道哪个物品可以带来食物奖励。然后研究人员又展示了两个全新的物品，依旧只有一个会带来食物奖励。在这次训练过程中，猴子学会了一种策略来选择奖励关联物品：它第一次会随机选择，然后基于奖励反馈选择特定物品，并不在乎在左侧还是右侧。实验表明，猴子可以领悟任务的基本原理，并学会抽象的规则结构，这其实就是学会学习。

当 Jane Wang 团队使用虚拟计算机屏幕和随机选择的图像模拟一个非常相似的测试时，他们发现他们的元强化学习代理程序的学习方式就像 Harlow 实验中的猴子一样，即使换新图像代理程序也能像猴子一样适应。

人脑的前额皮质里藏了一个强化学习系统，DeepMind如是说

事实上，他们发现元强化学习代理程序学会了如何快速适应拥有不同规则和结构的任务。而且在它学会如何适应各种任务的过程中它还学会了提高学习效率的通用方法。

元学习与神经科学相互指导

重要的是，大多数学习都产生在递归网络中，这为他们的看法提供了有力支撑，即多巴胺在元学习过程中扮演着超越以往认知的更加重要的角色。多巴胺可以通过加强前额系统中的突触联系来增强特定的行为。在 AI 系统中，这意味着神经网络中的类多巴胺奖励信号可以调整人工突触权重，使系统可以学习解决任务的正确方法。然而，在 Jane Wang 团队的实验中，神经网络的权重被冻结了，这意味着权重在学习过程中不能被调整，然而，元强化学习代理程序仍然能够解决并适应新的任务。这表明类多巴胺奖励不仅用于调整权重，还对抽象任务和规则结构的重要信息进行传达和编码，从而使系统更快适应新任务。

神经科学家很早就观察到了类似的前额叶皮层神经激活模式，他们发现这种模式适应性强并且很灵活，之后他们一直在努力寻找这种现象的原因。其中一种看法是前额叶皮层不依赖缓慢的突触权重变化来学习规则结构，而是通过直接由多巴胺编码的基于抽象模型的信息的来学习规则结构，这能更好的解释多巴胺的功能多样性。

为了证明元强化学习的关键成分也存在于大脑中，Jane Wang 团队提出了一种理论，该理论不仅与多巴胺和前额皮层的那套理论相符，而且还可以解释一系列神经科学和心理学的神秘发现。该理论重点揭示了大脑中基于模型的结构化学习是如何出现的，为什么多巴胺含有基于模型的信息，以及前额叶皮质中的神经元如何根据学习信号进行调整。人工智能的洞察力可以用来解释神经科学和心理学的发现，也提升了每个领域研究成果的价值。展望未来，他们在设计新强化学习模型的时候可以从具体的大脑回路组织中获得灵感，神经科学与 AI 相得益彰。

论文地址：https://www.biorxiv.org/content/biorxiv/early/2018/04/06/295964.full.pdf

via DeepMind Blog，雷锋网AI科技评论编译

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

sanman

编辑

发私信

当月热门文章