怎么使未来机器人“乖乖听主人的话”，不“闯祸”？

本文作者：高婓

2016-08-16 09:45

导语：摘要我们围绕一个问题来研究机器学习的八个领域：随着机器学习系统日益变得智能化与自动化，应当制定什么样的原则以确保机器学习的行为与操作者

摘要

我们围绕一个问题来研究机器学习的八个领域：随着机器学习系统日益变得智能化与自动化，应当制定什么样的原则以确保机器学习的行为与操作者的利益相一致？我们聚焦于实现AI一致性过程中遇到的两个技术瓶颈：确定一个合适的目标函数遇到的挑战；即使目标函数未能与设计者的意图达到完全匹配，设计出能够避免超出预料范围的结果与不可取的行为的AI系统所遇到的挑战。

在本研究中涉及到的开放性问题包括：我们如何通过强化手段训练学习者采取行动，以便他们能够经得起智能化监督器的有意义的评估？应当选用何种目标函数，以便系统“不会产生过大的影响”，“也不会产生太多负面影响”？在文章中，我们将讨论这些问题，相关的研究及对未来研究产生的潜在影响，旨在强调机器学习领域中目前可以驾驭研究的相关研究话题。

引言

近年来人工智能研究领域取得的进步再次激发了人们对Russell和Norvig(2010)所提出的问题兴趣，“倘若我们成功了？”如果AI研究者成功地设计出能与人类媲美的具有跨领域学习与决策能力的机器，这将会对科学，技术，人类的生活产生不可估量的影响。

比如，假设一个研究团队希望运用一种高级的ML系统制定相关方案，以发现治疗帕金森综合症的方法。如果这种高级ML系统能够制定计划，从而提供计算资源在治疗方法空间内开展广泛且有效的搜索，该团队将对这一高级ML系统持肯定支持的态度。如果该高级ML系统能够制定出计划，快速扩展机器人实验室，该种类型的机器人实验室能够实施快速而有效的实验，却会对生物圈产生大规模的负面影响，该团队将对这一系统持反对的态度。问题在于，我们应当如何设计系统（及选择目标函数），以使我们的ML系统能够可靠地实现第一个目标，而非第二个目标？

凭直觉来讲，倘若我们能够规范自己想要表达的意思---“找到一种治疗帕金森综合症的方法，而非使用任何极端的手段”，那么Bostrom(2014)在“超智能化”一书中描述的危险将会被减少。但是，为了实现这一目标而为正式确定令人满意的目标函数作出任何不成熟的尝试，这种行为通常将生成产生超出人们预期的行为的函数。

主要的技术难题表现在哪些方面？Russell（2014）强调两点：由于很难对人类的价值观念进行清晰界定，如此便难以找到一种与人类价值体系完美匹配的系统目标函数；任何具有实力的智能系统均偏重于保证自身的存在性与获取物理和计算资源---不是为了其自身的利益，而是为了成功地完成既定的任务。换句话讲，至少存在两种明显的研究类型：这两种研究类型能够提高未来研究者设计出具有一致性AI系统的能力：我们能够可以做一些研究以便较容易确定目标函数；我们可以做一些研究以设计出能够避免大量负面影响和负面刺激的AI系统，即便有时目标函数不能与设计者的意图达到完全的一致。Soares与Fallenstein（2014）称前面一种方法为“价值规范”，后一种为“错误容忍”。

本研究基于这两种保持高级ML系统一致性的方法，探索8个研究领域，其中一些领域已经在更大的ML研究社区中激起研究兴趣。其中，一些研究领域聚焦于价值规范，一些聚焦于错误容忍，还有一些将两者结合在一起。由于减少容易犯错的人类程序员可能到来的错误风险本身就是人类共享的价值理念，这两种研究目标之间的界限可能并不是那么清晰。

为了使下文讨论的解决问题的方案在未来更为有用，这些方案必须能够适用于那些比现存的ML系统更为有效的系统。那些主要依靠于系统对于某个可发现的事实的不敏感，或依靠于系统无法提出一个特殊的策略的解决方案，从长远来看，这些方案都不甚令人满意。正如Christiano(2015c)所讨论的，如果用于保持ML系统与其设计者的意图相一致的技术不能与智能相匹配，那么在我们可以运用ML系统在保守条件下可以取得的成果与可以运用该系统有效取得的成果两者之间将出现差异。

我们将聚焦于安全保障，在目前运用ML的典型环境中，这些安全保障可能会显得极端，例如保障形式，“过一段时间后，该系统将会出现零显著错误”。这些保障形式在以安全为主的系统中是不可或缺的，因为一个小错误将在现实世界中产生灾难性的后果。（这种形式的保障之前是有先例的，例如，Li,Littman,与Walsh（2008）的KWIK学习框架中提及到的）。当我们在考虑小问题和简单的例子时，我们应当把这些强有力的保障方式记在心中。

我们考虑的八个研究主题如下：

1.归纳式歧义识别：我们如何训练ML系统来检测并告知我们通过训练数据并不能够确定测试数据的分类？

2.强健的仿真方法：我们如何设计并训练ML系统以有效地模仿复杂且困难任务中人类的行为活动？

3.知情式监督：我们如何训练一种强化学习系统，在精确评估系统性能方面能够帮助一个智能监督者，如人类？

4.可普及的环境目标：我们如何创建一些系统，使这类系统能够强健地追求环境状态下确定的目标，而非追求基于感官数据确定的目标？

5.保守性的概念：如何训练一个分类器，以提出一些有用的概念来排除那些极为非典型的例子和边缘化的案例？

6.影响措施：应当采取什么样的措施来刺激系统以最小的负面影响来追求目标？

7.温和型优化措施：我们如何设计出不会过分追求其目标的系统，即当所追求的目标已经得到很好的实现时便适可而止，而不是为了实现绝对优化的预期成果，投入过多的精力搜索资源？

8.避免工具性激励措施：我们应当如何设计并训练系统，使这些系统缺少默认的激励措施来操纵与欺骗操作人员，竞争稀缺资源等？

在第2部分，我们将轮流简要介绍每一个研究主题及每一个研究领域中相关的研究案例。接下来我们将讨论对于未来研究的启示，即鉴于大量的计算资源和自动化，我们期望能够衍生出有助于设计出强健且可靠的ML系统的工具来。

研究动机

近年来，机器学习领域已经取得突飞猛进的发展。Xu等(2015)运用一个基于注意的模型能够极为精确地评估并描述图像（通过字幕）。Mnih等(2016)运用深度神经网络和强化学习在多种Atari围棋比赛中取得了好的性能测试结果。Silver等(2016)运用经由监督式学习和强化学习训练，且与蒙特卡洛模型技术相匹配的深度神经网络战胜了人类围棋世界冠军。Lake,Salakhutdinov及Tenenbaum(2015)运用分级式Bayesian模型仅需要使用一个单一的例子便可以学习视觉概念。

从长远看来，运用机器学习和其他AI技术的计算机系统将会变得越来也智能，人类也将有可能相信那些系统可以作出更多的决策，变得更加自动化。随着这些系统的性能越来越高，使这些系统的行为与操作者的意图保持一致，不会对全社会造成危害，这一点变得尤为重要。

当AI系统在性能方面得到越来越快的提升，设计出能够可靠地把这些系统与预期的目标保持一致的训练程序和测试准则将变得越来越困难。例如，我们来看一下下面这个例子：依据得分实施奖励，训练一个强化学习者来玩视频游戏的任务（per Mnih等，2013）。倘若学习者在游戏过程中找到一些能够使其获得高分的漏洞，他将采取措施利用那些漏洞，忽视程序员感兴趣的游戏特征。与我们的直觉相反，提高系统的性能将减少这些学习者在游戏中取胜的机率，这在某种程度上与我们的感觉相反，由于系统越智能，越能够找出训练程序与测试准则中的漏洞（如若获取一个较弱强化学习者的这种行为的简单实例，请参照Murphy(2013)）。

智能系统能够以惊人的方式解决问题的能力称得上是一种特征，而非一种瑕疵。它们能够以一种连程序员都无法想出的聪明的方式来达到目标，这是这类学习系统具有吸引力的重要特征之一。但是，这一性质是一柄双刃剑：当这一系统变得更善于找到与人们直觉相反的解决方法，它也将更善于找到能够形式上实现操作者的直接目标，而不满足其预期的目标的方法。

由于这些智能系统追求现实生活中目标，这些漏洞也将变得更为微妙，更为冗余，且更为重要。就此，我们可以考虑一下为学习系统设计出强健的目标函数，以使得这些学习系统能够代表程序员观点与欲望，在此过程中会遇到的挑战与困难。当程序员了解到该系统的目标函数未得到正确规范，他们便想要修复这一缺陷。然而，当学习者意识到这样一点，他将视其为一个自然的刺激，便会想办法掩盖目标函数中存在的这些缺陷，因为如果该系统被用于追求不同的目标，其当前目标将不可能得到实现。（这一现象将在Bostrom,2014与Yudkowsky,2008一文中作详细讨论。Benson-Tilsen与Soares(2016)提供了一个简洁的阐释）。

上述讨论结果激励我们研究规范目标函数的工具与方法，使得这些目标函数能够避免那些默认的激励措施，及研发ML系统的工具与方法，使得这些机器学习系统在追求那些目标时不要过度优化。

下文是对提到的八个研究主题及相关研究成果作详细介绍，在此不做赘述。