Yann LeCun 大战“键盘侠”，除了数据，“AI偏见”到底来自哪里？

本文作者：青暮

编辑：刘晓坤

2020-06-28 17:08

导语：争论的焦点在于：AI产生偏见的原因是否只是数据集导致？算法本身的缺陷能不能成为原因？

作者 | 青暮

编辑 | 丛末

近期一篇关于图像超分辨率的论文引起了不小的争论，一切都起源于以下这张图片：

Yann LeCun 大战“键盘侠”，除了数据，“AI偏见”到底来自哪里？

针对这张图，Yann LeCun在推特上发表了这么一句话：“当数据有偏见时，机器学习系统就变得有偏见。这个人脸上采样系统让每个人看起来都像白人，因为网络是在FlickFaceHQ数据集上预训练的，而这个数据集主要包含白人图像。”

Yann LeCun 大战“键盘侠”，除了数据，“AI偏见”到底来自哪里？

这为LeCun招来了不少的批评，很多网友认为LeCun在提出狭隘甚至错误的观点误导人们，并纷纷提出了自己的质疑。LeCun对这些质疑一一回应，但仍得不到理解。最后LeCun不得不一条一条地解释自己的观点，才缓和了这场争论的气氛。

争论的焦点在于：AI产生偏见的原因是否只是数据集导致？算法本身的缺陷能不能成为原因？

网友们的论点主要包括以下几点：

1、只要是在有偏见数据上进行基准测试，那么这样的偏见也会反映在机器学习系统的归纳偏置上。

用有偏见的基准推进机器学习并要求工程师简单地“使用无偏见的数据重新训练模型”是没有用的。

2、我们不都知道机器学习算法带有数据偏见以外的归纳偏置吗？

3、当数据带有偏见时，机器学习系统就是有偏见的。但某些机器学习系统的偏见不是由于数据，并且构建100%无偏见的数据集在实际上是不可能的。并且我们发现很多时候，假如数据带有少量的偏见，系统会将其放大，并变得更加有偏见。

4、在完整的美国人数据集上训练：当你使用L2损失，大多数人都像白人；当你使用L1损失，大多数人都像黑人。别再觉得偏见和算法无关了。

5、承认这个结论要求极大地缩小算法的定义范围。你忽略了表征的选择、损失函数的选择、训练方法的选择以及超参数等等。

6、确实，这是个需要证明的大胆断言。AI学习过程应该是架构、数据、训练算法、损失函数等等的相互作用。

对于这些评论，LeCun澄清道，他只是认为，在大多数现代机器学习系统中，数据是主要的偏见来源。

Yann LeCun 大战“键盘侠”，除了数据，“AI偏见”到底来自哪里？

LeCun 表示：

在7年前，大多数机器学习系统使用手工特征，这是偏见的主要来源。但是现在，人们开始使用深度学习架构，很大程度上减少了源于特征选择和架构设计的偏见。所以我才认为现在数据是主要的偏见来源。我不是在讨论机器学习理论性质上的归纳偏置（这是独立于数据的）。我所讨论的是现在在机器学习系统中经常见到的偏见，这些偏见可能源于特征或数据。但如果特征是用深度学习学到的，那么偏见不应该主要存在于数据吗？”

另外，相比损失函数的选择，通过在训练过程中均衡样本的类别频率来修正这种偏见会远远更加高效。

但是也有学者认为算法和数据之间并没有清晰的分界线，均衡样本的类别频率也是一种算法的选择。偏见并非单纯来源于数据，也可能取决于研究人员本身。

对于也可能取决于“研究人员”本身这一观点，LeCun回应道：

当然。但是在logistic 回归、全连接网络或卷积网络之间进行选择，并不会导致系统固有地偏向某些类型的人。当手动设计特征时，就会引入偏见。而且，数据显然是可以有偏见的。

Yann LeCun 大战“键盘侠”，除了数据，“AI偏见”到底来自哪里？

到了这一步，争论各方似乎都不太清楚对方在表达什么了。于是最后，LeCun在一系列的推文中清楚地表达了自己的观点：

我没有说“仅当数据有偏见时机器学习系统才有偏见”。

我只是表达了对PULSE这篇论文的看法。

机器学习系统中导致社会偏见的原因很多（这里不谈论更一般的归纳偏置）：

1.如何收集数据和格式化
2.特征设计
3.模型的架构
4.目标函数
5.部署方式

当使用没有手工特征的原始输入时（如现代深度学习系统中常见的那样），特征设计引起的偏差的重要性要小得多。

如果使用别人的预训练模型作为特征提取器，特征将包含该系统的偏见。

也就是说，LeCun并非不同意质疑他的专家们的观点，只是他当时发表的观点建立在特定的条件下，而没有表述清楚。