解读欧盟 GDPR，这将是企业级数据科学不容忽视的合规风险

本文作者：这只萌萌

编辑：杨晓凡

2018-06-27 15:24

导语：随着严格的 GDPR 问世，在数据科学领域引起了广泛的讨论，这一数据条例，将对数据科学项目，尤其是机器学习领域产生巨大的影响

雷锋网 AI 科技评论按：欧盟于 2018 年 5 于 25 日出台数据保护条例 GDPR，随之在数据科学领域引起了广泛的讨论，这是因为严格的数据条例，将对数据科学项目，尤其是机器学习领域产生巨大的影响。

目前，随着技术的进步，机器学习也在飞速发展，全球对这一领域的投资也日益增加，机器学习正在迅速成为企业数据科学的趋势。而随着严格的 GDPR 问世，对机器学习究竟会产生哪些影响？如何在 GDPR 的限制下继续数据科学及其研发项目？

刚刚颁布的 GDPR 还没有全面生效，大家对于如何执行这一法规的认识还是模糊的，仍在不断摸索中，但GDPR 带来的关键问题和挑战已逐渐显现。数据管理平台 Immutable 的首席隐私官与法律工程师 Andrew Burt 撰写了一篇文章，一一解释了自己公司受到的关于对机器学习影响的三大问题。雷锋网 AI 科技评论把相关内容编译如下。

问题1：GDPR 是否会禁止机器学习？

当然不是。即使是 GDPR 生效后，在欧盟，机器学习也不会被禁止。但是，不可避免地，此后机器学习的应用都会涉及沉重的合规问题。

根据法规的要求，GDPR 将全面禁止没有人为干预、并会对数据主体产生重大影响的自动化决策。值得注意的是，GDPR 适用于所有使用了欧盟数据的情况，这些数据可能都能够辨识出一个数据主体，而对于使用了大量数据的数据科学计划，这意味着 GDPR 将适用于其所有的活动。

GDPR 对于「自动化决策」的定义是指，在没有人为直接参与的情况下自动作出决策的模型。这包括了对数据主体的自动「用户画像分析」，例如将用户分类为「潜在客户」或「40-50 岁男性」，以确定贷款申请人是否有资格获得贷款。

因此，鉴别机器学习模型是否是属于「自动化决策」，首先是看模型是否是在没有人为干预的情况下自动部署的，如果是，那么这样的模型默认为是被禁止的。而事实上，大量的机器学习模型都是这种情况。尽管许多律师和数据科学家反对过这一点，但参与起草和解释 GDPR 的欧盟官方——第 29 工作组对于这一条解释就是如此。

GDPR 禁止机器学习了吗？，「禁止」这一词很具误导性。禁止自动化决策是可以存在特例的，使用「禁止」这一词太过强硬了。一旦 GDPR 生效，数据科学家应该期望的是，机器学习的大部分应用仍还可以实现，只是增加了他们不能忽视的合规负担。

下面会详述「禁止」以外的特例。

GDPR 法规明确了使用自主决策合法的三个领域：

在签订了合同的情况下，数据处理是必要的；
其他法律另行授权的情况；
数据主体明确同意的情况。

事实上，最后一条是较为符合实际的，解决这一禁令的常用方法，就是数据主体明确允许他们的数据可以被模型使用。但是，让数据主体同意并不容易。数据主体可以同意许多不同类型的数据处理，并且他们也可以在任何时候撤销同意，这意味着在数据的使用上，需要精细化地管理数据主体对于数据使用的同意，允许数据主体选择不同类型的同意，动态（允许数据主体撤销同意）以及要提供足够的用户友好性，即让数据主体有能力理解他们的数据如何被使用的，并且给予用户控制数据使用的权力。

GDPR 并没有完全禁止使用机器学习模型，但它会使得很多机器学习的模型及其输入数据的部署和管理变得越来越困难。

问题2：机器学习是否需要「可解释性」？

关于 GDPR 对机器学习的影响，我最常听到的问题之一，就是机器学习是否需要「可解释性」。去年作者特意写了一篇文章讨论这个问题。

这个问题源于 GDPR 本身的条例有些模糊不清。

「可解释性」这一点带来的风险是非常高的，可能会对企业数据科学产生巨大的影响。机器学习模型的复杂结构赋予了其神奇的预测能力，想要把其内在构成解释清楚是很困难的。

我们从 GDPR 条例的文本开始说。

在条例的第 13-15 条中，GDPR 一再声明数据主体有权了解关于数据使用的「有意义的信息」和自动化决策带来的「重要和可预见的后果」。然后，第 22 条中，GDPR 规定，只有在具备了上述影响类型的情况下，用户才可以对决策提出反对。最后，第 71 条序言是该条例中包含的不具约束力一部分，它指出数据主体可以要求自动化决策给出合理的解释，并且数据主体能够质疑这些决策。总而言之，这三项规定给数据的使用带来了更复杂的场景。

由于文本的模糊不清，欧盟监管机构可能以最严格的方式去解释这些规定，例如要求机器学习的模型对内部结构做出完整解释，但这样的做法似乎是不合理的。

这些文本更恰当的解释可能是，当机器学习用于没有人为干预下做决策时，以及当这些决策对数据主体产生重大影响时，数据主体有权对正在发生的事情有基本的了解。 GDPR 中的“有意义的信息”和“可预见的后果”或许可以这样解读。欧盟监管机构可能会将重点放在数据主体有权就数据使用情况作出决策上，而对于数据使用的透明度，则可能会依据于模型及对应的情况而定。

问题3：数据主体是否有权要求删除他们的信息后重新训练模型？

这也许是 GDPR 条例下最难回答的问题之一。换句话说，如果一个数据科学家使用某个数据主体的数据来训练模型，然后在这个模型中融入了新数据，那么此前的数据主体对于之前用他们的数据训练出来的模型是否还有一定的权力？

据我所知，答案将是否定的，至少在实践中是这样的，只有非常少的特例。为了解释更清楚，我先从这些特例说起。

在 GDPR 下，所有数据的使用都需要在法律的允许下进行，GDPR 第 6 条规定了六项对应的法律依据。其中有两个最重要的「合法权益」的依据，并且数据主体明确同意使用该数据。这种情况下，当处理数据是依据于数据主体的同意时，数据主体将仍保留对该数据的重要控制权，这意味着他们可以随时撤回同意，处理该数据的合法性将不再存在。

因此，如果组织从数据主体收集数据，数据主体同意将他们的数据用于训练特定的模型，但随后又撤回同意，何时数据主体可以强制模型重新训练新数据？

答案是只有当该模型继续使用该数据主体的数据时才可以。

正如 29 工作组所指出的那样，即使数据主体撤销了同意，撤销前所发生的所有的处理仍然是合法的。因此，如果数据被合法地用于创建模型或预测，那么无论这些数据的产出是什么，都是可以被保留的。事实上，一旦用一组训练数据创建了模型，那么训练数据的删除和修改都不会影响到之前的模型。

但是，一些研究表明，模型可能会保留关于训练数据的信息，即使在训练数据被删除之后，仍然可以通过模型找到原始数据，正如研究人员 Nicolas Papernot 等人写的一样（模型的隐私性问题，参见这篇文章）。这意味着在某些情况下，保留训练模型而删除原有数据，不能保证在以后原有数据不会被重现，或者说在某些情况下，原有数据还是仍可能在使用的。

但是从模型中复原原有的训练数据有多大可能呢？几乎是不可能的。

目前所知，这种研究只在学术环境中进行，企业的数据科学与学术环境相差甚远。正是由于这个原因，作者不认为模型会因为受到数据主体的要求而重新训练。虽然这在理论上是可能的，但已经是非常边缘的特例了，只有在特定情况下特例发生之后，监管机构和数据科学家才需要去处理。

尽管如此，所有这些问题都存在大量的细微差别，未来这些细微差别一定会出现。GDPR 有 99 条正文和173 条引言，注定是非常长且复杂的法规，并且随着时间的推移变得更加复杂。

但是，至少有一点是明确的：要感谢 GDPR，在未来的大规模数据科学计划中，律师和专门负责处理隐私的工程师将会成为数据科学计划的核心成员。

via www.oreilly.com，雷锋网 AI 科技评论编译

意想不到的盟友：改善隐私问题可以带来表现更好的机器学习模型

雷峰网原创文章，未经授权禁止转载。详情见转载须知。