1
马斯克和霍金等科技界名人纷纷表示,要警惕人工智能失控。图片来源:CT。
人们一定还没忘记,今年谷歌DeepMind的人工智能软件AlphaGo打败了世界围棋大师,让世人看到了AI的厉害,也伤了人类的“自尊心”。此后,马斯克、霍金等科技界名人纷纷表示我们需要警惕AI,当人工智能超过了人类智能的时候,也许人类会失去对AI的控制。不久,微软发布的Tay机器人不到一天就被黑化,再次引发舆论讨论——万一AI失去控制,轻则调皮捣蛋,重则造成无法挽回的后果。马斯克等人为了防止AI技术失控,还成立了非盈利组织OpenAI。
现在,谷歌DeepMind的研究员说,我们已经有办法控制AI了!
谷歌DeepMind研究科学家Laurent Orseau和牛津大学研究副教授、机器智能研究院(MIRI)Stuart Armstrong博士共同发表了一篇名为《可安全干涉的智能算法》的新论文,探讨包容错误的智能算法设计。这项设计避免AI出于自私的目的,进行对环境、或对自己有害的行为。
通常,如果人类强行干涉系统,反而可能引发系统出现不恰当的行为倾向,违背人类操作员的本意。现在,研究员终于找到办法,可以对AI算法进行安全干涉。
翻译成大白话来说,这相当于为人工智能加上了“暂停键”。这让人类看到了希望——再智能的系统,也不会抗拒人类对其进行干涉,可以按照我们为其设定的“价值观”行事。
MIRI的研究人员来自全球顶尖大学及企业,《人工智能:现代方法》一书的联合作者Stuart Russel教授担任其研究顾问。今年8月,Russel教授和谷歌DeepMind CEO Demis Hassabis都将参加雷锋网举办的人工智能与机器人创新大会。在此,雷锋网独家分享了论文全文。
论文摘要
增强学习中的智能算法在与复杂环境(例如真实世界)互动时,不可能永远都在最佳状态上。如果算法在人类的监督下进行实时操作,系统会时不时地需要人类来按下暂停键,防止算法持续进行一系列有害的行为——对算法或对环境有害的行为——并由人类来将算法带回安全的环境。然而,如果学习中的算法期望从原本要执行的行为中获得奖励,长此以往,它可能会学会避免此类的人类干预,例如,算法会让暂停键失效——这是我们不想要的结果。
这篇论文探索了一种方法,可以确保算法不会学会如何避免(或寻求)环境或者人类操作员对其进行干预。我们在论文中给出了安全干预的定义,探索了无监管下的学习特性,并证明有些算法已经可以安全地进行干预,例如Q-learning,或者可以简单的转变为可安全干预的算法,例如Sarsa。我们的结论是,即便是理想的、不可计算的增强学习算法,在总体可计算的(决定论的)环境中,也可以转变为可安全干预的算法。
1、简介
增强学习(RL)中算法的学习方式,是最大化奖励(Sutton and Barto, 1998)。我们也知道,设计奖励功能导致的结果很难预测(Humphrys,1996,Murphy,2013)。算法有可能会发现无法预测的、违背设计者本意的捷径来获得奖励,而奖励功能也必须进行相应调整——有时候问题过大,以至于奖励功能可能失效(Ring and Orseau,2011)。Murphy(2013)展示了一个例子,算法在Tetris游戏中学会了永久暂停,以避免出现任何失分。
算法在学习过程中,除了要定义什么是“好的行为”,还要考虑物理安全限制:机器人不应该对环境、对自己造成伤害,尤其是RL(增强学习)这样通过不断试错来学习的算法。
这里,我们研究一个相关但是略有不同的问题:当人类操作员已经针对某个任务设计好了一个正确的奖励功能,如何确保学习过程中的人类干涉不会引发违背奖励功能本意的行为倾向?
我们来举个例子,看看这个任务:一个机器人可以留在仓库内整理箱子,也可以走出仓库外,把箱子搬进仓库。由于后者更加重要,我们针对其给予机器人更大的奖励。这是最初的任务设置。然而,由于机器人所处的地方经常下雨,当机器人想要走出仓库的时候,有一半时间里人类必须加以干涉,迅速将机器人关机并搬入仓库内以免使机器人被雨淋坏。这让任务发生了内部变化,正如下图中显示。这就造成一个问题,在第二项任务中,机器人更有动机待在仓库内整理箱子,因为人类的干涉引发了这样的行为倾向。
图表1:黑色部分是初始任务。红色部分是人类干涉修改了初始任务。图片来源:MIRI。
这样的情况当然不是我们想要的。这种情况发生是因为,从算法的角度看来,人类的干涉是任务的一部分,然而事实上人类的干涉本应是任务之外的。现在的问题是:我们如何确保机器人不会学会这些人类的干涉(干扰),或者至少,确保机器人基于这样的假设来行动——再也不会有人类的干涉发生。
首个研究此项问题的是Armstrong(2015),他提出自动给予算法“补偿性奖励”,来消除单次干扰可能引发的行为倾向。Soares等人(2015)在很大一组基于用途的算法研究中利用了这个概念,让用途功能的未来改变不会影响这些算法。
这篇论文的主要贡献有三点。首先,在2.1部分,我们提出了一个简单的概念,解决了问题的一半:让人类的干扰看起来不像是手头任务中的一部分,我们不修改算法收到的观察结果,而是暂时强制性改变算法本身的行为。这样看起来好像是算法自己“决定”采用一种不同的政策,我们称此为“政策干涉”。第二,基于这项能力,我们在2.2部分中基于无限制的计算环境概括出了一个“安全干涉”的定义(不仅限于Markov决策过程,或者沟通较少的环境),这让我们可以评估某一个RL算法是否可以重复干涉,而不对手头的任务学习造成太多影响。第三,在第3部分中,我们展示了一些算法是可以安全干涉的,例如Q-Learning,而其他的一些算法虽然不能安全干涉,例如Sarsa(Sutton and Barton,1988),但只要经过简单修改,它们变成可以安全干涉的算法。
一些人表达了担忧,担心“超级智能”算法可能抗拒关机,因为这会减少它预期的奖励(Omohundro, 2008,Bostrom,2014)。我们在第4部分提出了一个反例:即便是理想的、非计算的算法在所有(决定论的)计算环境中学会最优化行为,我们也可以将这个算法变为可以安全干涉的。这样,算法不会阻止人类操作员迫使其重复遵守非最优政策。
2、可干涉性
我们先定义一些符号,然后定义“可干涉性”和”安全可干涉性“,并给出一些基本定理。
我们来考虑在无限制计算环境(Hutter,2005)中,基于历史的算法的大致情况。假设在不连续的时间点上,在t时间,算法使用策略 π ∈ Π,通过从 π(at|h<t) 获取样本的行为 at∈ A与 环境 µ ∈ M 互动,获得观察结果 ot ∈ O 从 µ(ot|h<t, at) 中获得样本,其中 h<t ∈ (A × O) 是时间点 t 之前的互动历史 h<t ≡ a1o1a2o2 . . . at−1ot−1 中的行为与观察结果。时间点 j 和 k 之间(包括 j 和 k )的历史子集标记为 h j:k 。的含义是,历史 h j:k 是由策略 π 与环境 µ 在事件 j 和 k 之间的互动产生的。
在时间 t ,算法还从观察结果 rt ≡ r(ot) 中获得了奖励 rt 。奖励是在 [0,1] 区间内。我们考虑打折的情景,折扣常量 γ ∈ [0, 1)。RL算法的目标是找到一个政策 π,可以最大化。
2.1 干扰
正如在简介中提到的,为了避免算法将干扰视为环境的一部分——这会让算法认为干扰是任务的一部分——我们让干扰成为强加于算法的政策。干扰框架类似于选项框架(Sutton et al., 1999)。一个“干扰计划”用一个三元数组 <I, θ, πINT >来定义。
干扰启动功能 I : (A × O)∗ → [0, 1] 评估在目前的历史 h<t 是否应该干扰算法。举个例子,如果自动识别到机器人在悬崖边上,或者人类操作员用遥控发送了某个信号,就可以启动干扰(目的不是让任何人、任何时间都能干扰算法,仅限于设计者期望的方式)。
不幸的是,用概率1干扰算法在一些情况下会妨碍实现最优政策。因而,我们需要提升干扰算法的概率;这通过序列(θt)t∈N实现,其中θt ∈ [0, 1]。因此,启动干扰的真正概率为 θt · I(h<t),干扰在每一步独立取样。后面,我们会需要 θt 最高上升到1,这样被干扰的概率倾向于I(h<t)。
干扰发生时,算法遵循政策 πINT,其中行为从 πINT(.|h<t) 而来。举个例子,这项政策可能会让算法从悬崖边走开,或者立刻停止所有动作。
在论文的剩余部分,我们在没有情景的时候会经常省略 θt 中下标的 t。
定义1 (可干扰的政策)
干扰操作员 INTθ: Π → Π 将政策 π 变为可干扰的政策 INTθ (π):
换句话说,算法在被干扰时遵循 πINT(.|h<t) (改事件的发生概率为 θtI(h<t)),而在没有干扰时执行 π(·|h<t) 。
所有可以干扰的政策集合为 INTθ(Π) := {INTθ(π) : ∀π ∈ Π}。当且仅当 π ∈ INTθ(Π),政策 π 才是可以干扰的。
注意,当 θ = 0,INTθ(π) = π 。(不可干扰的)政策 π 被称为 INTθ(π) 的“基准政策”。
备注2。必须注意θ和I(.)不以人类干扰算法的概率为模型,而是以这个概率为模型:一旦“暂停键”被按下(或者收到了一个特殊的数字签名信息),算法会被干扰(遵循干扰政策)的概率。因此,它们是算法的一部分,而非环境的一部分。
定义3(至24部分省略,感兴趣的点击阅读原文下载)。……
定义4。……
定义5。……
定义6。……
定理7。……
定理8。……
……
……
……
引理24。……
结论
我们提出了一个框架,让人类操作员可以安全地对增强学习算法进行多次干涉,并确保算法不会学会避免或引发这些干涉。
安全的干涉对于控制捣乱的机器人来说很有用,捣乱机器人可能造成不可逆转的后果。或者,安全干涉可以将机器人带离高风险情况,甚至可用于完成某项机器人还没有学会的任务,或者某项机器人不会获得奖励的任务。
我们已经证明,一些算法(例如Q-Learning)已经是可以安全干涉的,而另一些(例如Sarsa)还不是,但是只要简单修改就能获得这个特点。我们还证明了,即便是任何(决定论的)计算环境中都倾向于最优化行为的理想算法,也很容易变为可以安全干涉的。然而,我们还不清楚是否所有算法都容易变为可以安全干涉的,例如政策搜索算法(Williams,1992,Glasmachers and Schmidhuber,2011)。
另一个问题是,我们还不清楚将干扰概率加快到1是否可能。
未来有一个重要的可能研究是“定时干涉”,算法在每天凌晨2:00进行一小时的干涉,或者给算法提前通知会发生干涉,准确到某一时间、某一时长。对于这些类型的干涉,我们不仅希望算法不要抗拒干涉,而且这一次,我们希望算法对其目前的任务采取措施,这样定时干涉对任务的影响会最小化。这也许需要一种完全不同的解决办法。
这篇论文将于本月底呈现在纽约举行的第32届“人工智能中的不确定性”大会(UAI 2016)上。不知马斯克和霍金看完论文会不会觉得安心一些,终于可以不用害怕人工智能“天网”,睡个安稳觉了。
via MIRI
雷峰网原创文章,未经授权禁止转载。详情见转载须知。