数据集拥有自己的世界观？不，其实还是人的世界观

本文作者：我在思考中

2022-03-01 10:04

导语：如果对你的数据有很多问题，你就已经有很好的开端了。

编译 | Antonio

编辑 | 陈彩娴

伴随深度学习的不断日常化，数据集中的偏见（bias）和公正性（fairness）已经成为一个热门研究方向。

偏见在AI领域是一个很棘手的话题：有些偏见是有益的，例如噪声数据可以增加模型的鲁棒性，有些偏见是有害的，例如倾向对有色人种识别错误。

而且，当我们得到一个不完美的模型的时候，其中的数据集到底存在什么偏见？这些偏见是如何产生的？

谷歌的PAIR （People + AI Research）团队最近发表了一篇博文，用一个很简单有趣的例子讨论了这些问题。

数据集拥有自己的世界观？不，其实还是人的世界观

原文链接：https://pair.withgoogle. com/explorables/dataset-worldviews/

有偏见的分类

假设我们拥有如下所示的不同形状的数据集，它们对应的标签是有无阴影，如下图。

数据集拥有自己的世界观？不，其实还是人的世界观

利用页面上的交互式分类器，可以分类出如下的结果，并得出相应的准确性。

数据集拥有自己的世界观？不，其实还是人的世界观

模型并不完美，为了对结果进行纠正，你可能想知道模型正在犯什么错误，或者，数据存在哪种类型的偏见？

公正性分析

由于各个图形的主要区别在于形状，一个可能的偏见存在于形状的差别。通过观察你可能认为三个最主要的形状主要是圆、三角形和矩形。为了证实这个假设，你要确信你的模型在面对圆、三角形和矩形的时候模型的表现能力的一样的。接下来我们来做公正性分析（fairness analysis）。

首先我们需要对每个的形状进行标注，但是一个问题是，有些形状并不能很肯定地确定是什么形状，这时候有两种策略，一是把这种形状判断为最有可能是圆、三角形和矩形（with their best guess)；一种是给出一个选项：上述三种形状都不是(as "other")。之后我们分析模型对于每一类形状的分类准确率。该交互式页面给了两种策略的结果：

策略一：寻找最有可能的形状：

数据集拥有自己的世界观？不，其实还是人的世界观

第一种策略表明分类器对于矩形分类的结果最好，圆次之，三角形最差。不过这可以表明模型对三角形存在偏见吗？我们在页面上切换第二种策略。

策略二：上述都不是：

数据集拥有自己的世界观？不，其实还是人的世界观

结果发生了变化！第二种策略则表明分类器对于三角形和矩形分类结果都最好，圆却最差。我们对于偏见的理解因为我们制定分类的策略不同而不同，换言之，每一种分类方式代表着采取不同的角度看待哪些是重要的分类特征。而决定数据集和最终模型决策的是你——制定策略的人。也就是每个数据集都代表一种“世界观”，其收集背后莫不代表着人的意志。

所以，再回过头来想想，还有哪些策略或者规则的指定可能会影响我们的对于公正性的判断？

对，我们当初对于分类的标准是依照形状，比如圆、三角形或者矩形，这也是我们人为定的标准，如果换成”尖的“或者”圆的“呢？或者“小的”或者“大的”呢？下图给出了不同评价标准下，正确和错误分类的个体：

图注：当类别标准是“尖的”或者“圆的”，以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

图注：当类别标准是“小”或者“大的”，以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

可以看到，每当选择一种标准的时候，所得到的错误分类的数据分布也都不同，因而每种情况下对于实例的偏见程度或者公正性分析也都会出现偏差——偏见似乎也有了偏见。

标签在讲述故事

回顾一下，假设你是收集该数据集的负责成员，刚开始你做出关于与偏见相关的分类类别的决策，所有的形状实例到底怎么分？你按照“尖的”和“圆的”，也就是下图：

数据集拥有自己的世界观？不，其实还是人的世界观

其它标注者试图回答下述问题：这个图形是“尖的”还是“圆的”？

数据集拥有自己的世界观？不，其实还是人的世界观

之后，收集完毕，你根据上述错误类别分析，你可以得到分类器在尖的形状表现的好，圆的则表现的差，之后便有了如下的报告：

数据集拥有自己的世界观？不，其实还是人的世界观

然后，如果一开始的评价标准是“大的”还是“小的”，重复上述步骤，你却可以得到分类器在小的形状上分类效果好，于是便有了这样的故事...

数据集拥有自己的世界观？不，其实还是人的世界观

想要避免这个问题的一个自然的解决方式是，收集更多的数据和更多的特征：如果我们有足够多的数据，知道它们足够多的细节，我们将可以避免做出不同的分类决策，从而产生唯一的偏见的影响因子。

不过，似乎并非这样。想象一下，当我们描述我们周围的一件事情的时候，不管是向一个朋友讲述一件事情的时候，还是告知计算机关于形状的事情的时候，我们都会自觉不自觉地选择自己认为的最重要的部分，或者选择用什么工具去传递它。

不管我们是否这么想，我们无时无刻不在做分类——

数据集拥有自己的世界观？不，其实还是人的世界观

正如我们在形状的例子中所看到的那样，所有的选择都使得某些特征比其它的特征更加重要，使得一些特征的差别是可见的一些却可被忽略，都使得某些事物变得容易分类有些成为噪声点。

是分类的标准在讲述整个故事。

真实的场景

如果我们再回顾真实的机器学习应用，比如监督学习任务中的目标检测任务。我们想象有下面一幅图片：

数据集拥有自己的世界观？不，其实还是人的世界观

我们想在这样的数据集上打标注，因而我们想先对其中的目标物体进行标注。其中的一种标注如下：

数据集拥有自己的世界观？不，其实还是人的世界观

这样已经看起来很客观了，对吗？毕竟山就是山、树就是树。可是即使这样，同一张图的同一个区域的标签也可能不一样，比如这样：

数据集拥有自己的世界观？不，其实还是人的世界观

山可以具体化名称，树也可以具体化“没有医用的植物”。

是的，并没有一个普遍的方法去对待每一个物体、每一个单词或者每一张图片。数据集总是特定时间空间和条件的结果。它们是社会的产物，它们有历史观，它们有政治色彩。而忽略这些会带来非常现实的后果。

那我们应该怎么对待这些信息呢？

一个很好的起点是反思数据所在的上下文，并且始终对数据保持好奇。

很难去判断一个数据集本身的价值——它们是客观的，普遍的，中立的吗——它可能只是反映一种你自己习惯的世界观。所以理解你自己的世界观可以告诉你所谓客观数据的局限性。时刻问自己：你对这个世界做出了什么假设？什么是感觉像是常识？什么有些违背常理？重要的是，对于数据集不应该忘记考虑：谁收集的它？为什么会收集它？谁付钱收集了它？所谓的”真值“标签来自哪里？

之后，你甚至可能会发现自己在质疑收集数据过程中的某些假设，从而对你的分类任务有更加整体地理解。

如果对你的数据有很多问题，你就已经有很好的开端了。

研究团队介绍

People + AI Research (PAIR) 是 Google 的一个跨学科团队，通过基础研究、构建工具、创建设计框架以及与不同社区合作来探索人工智能的人性方面。

团队的宗旨让机器学习发挥其积极潜力，因为它需要具有广泛的参与性，涉及到它影响的社区，并由不同的公民、政策制定者、活动家、艺术家等群体指导。

数据集拥有自己的世界观？不，其实还是人的世界观