「用 AI 识别 xxx」，真的靠谱么？

本文作者： AI研习社

编辑：贾智龙

2017-09-14 16:11

导语：上周，斯坦福大学发布了一项研究结果，为人类长久的、关于性取向问题的争论，提供了有意义的洞见。

雷锋网按：本文原作者华沙，原文载于作者的知乎专栏——看脸的世界，雷锋网经授权发布。

最近不少人工智能和计算机视觉的学者，带着自己的机器学习技术投身于心理学研究。出发点很好：用更新的技术探究问题。但是他们的成果让人担心。前有用人工智能分析潜在罪犯，后有用人工智能分辨性取向。这些论文都引发了轩然大波。不少人抨击之点就是伦理问题。其这些文章的科研问题也存在。相比于安防领域的面孔身份识别广受赞誉，那一类分析潜在罪犯潜在性格的机器学习研究其实都有值得推敲指出。

简单粗暴一句话：目前「用 AI 识别 xxx」一类研究，没想象中靠谱，不要轻信。

就让我们从斯坦福大学学者训练人工智能识别性取向说起吧。这篇文章无论从伦理角度，还是科研本身的角度都有问题，可能唯一没有问题的就是作者的专长机器学习了吧。让我们先说伦理部分，再说统计部分，最后就是致命的研究基础的缺陷。

之前我已经在华沙：斯坦福大学「识别同性恋 AI」是怎么办到的？可能引起哪些伦理争议？下吐槽过，这一次详细谈一谈。

回顾下这篇研究（论文：Deep neural networks are more accurate than humans at detecting sexual orientation from facial images.）两位作者收集到大量社交网络上的图片，以及图片所有者的性取向，训练出一个识别性取向的‘机器’。尽管动用了 DNN 神经网络等计算机技术，但是整套系统的基础却是基于认知心理学与生物学的。作者也承认，他们训练出来的分类器的原理是区分一下两个与性取向相关的特征点，我们可以总结为：

1. 荷尔蒙（雄、雌性激素）影响下面孔特征（面孔比例，比如宽高比，下巴长度等）；

2. 不同性取向者喜欢的发型、胡型、以及妆容、甚至眼镜等配饰。

尽管在机器学习方面，这篇文章做得很好，但是其余领域暴露出不少遗憾。这我可以归结为认知心理学与计算机科学的差异，至少在认知心理学方面伦理是极其需要看重的，所以我们先从伦理出发。

首先让人担心的就是选择图片的伦理问题。文章说近三十万张图片来自于一个美国婚恋网站。很难让人相信这三十万张面孔，以及性取向信息都获得了主人的允许。这些头像虽然出现在婚恋网站上，被允许以约会目的来互相看，但并不等于被允许基于试验用途。认知心理学的实验，既需要学校伦理委员会的认可，也需要被实验者（或者图片提供者）的许可；不当使用他人图片难免有泄漏和其他的风险。科研伦理可能不是所有专业的必修课，但是至少在心理学科研领域是重中之重。图片选择过程让人觉得遗憾。

诚然人工智能对于生活与科研都有极大帮助。但是如此的结果不由得让人不安：我们的大量数据都在科技大鳄手中，通过分析，是不是他们能掌握我们所有的特点，然后精确的投放广告，或者用二级价格歧视榨取我们身上钱财。你看，这个能分辨性取向，明儿也能分辨爱不爱花钱（从面孔的化妆程度：科学家怎么研究化妆品呢？），分辨你爱不爱买特定品牌，甚至分析你什么时候最捂不住钱包，什么时候耳根子最软，滥用起来就是能榨干消费者。

其实，技术本身应该是中性的，但是解读和利用是我们需要认真讨论的。没准在未来，到处都是针对每个人（从面孔，消费记录，个人经历分析而来）的量身打造消费陷阱了。所以说这项研究，在没有扎实的理论支持下（我们之后谈理论问题），很有可能被误解被误读。

不容小觑的误读，正是基于统计层面的。有时候单纯的统计数据并不能直接反应效用。作者声称，他们的分类器相比真人更准确分辨性取向：对男性正确率为 81%（真人只能达到 61%），对于女性能达到 61% 正确率（真人准确率仅为 54%）。看似此项分类器效果显著。但是由于在实际生活中，异性恋的比例超过 95%。；考虑到很有可能的基本比率谬误，所以把此项分类器用在真实生活中，正确率并不会有那么高。作者也承认，这么高准确性仅会出现在：明确知道有两张性取向不同者照片时。但是真实生活中哪有这么良好的判断环境。

其次此项研究还有一个要命的问题，既是实验的不足，也是许多人误读的来源。让我们用统计角度。如果简化整篇文章，作者做了三步：1. 寻找训练集中不同性取向者的面部特征；2. 训练机器识别这些特征；3. 在测试集面孔上此类特征，并预测性取向。不过，男异性恋者有 x 类胡型的概率，并不等于有 x 类胡型为男异性恋者的概率。所以说，不少人看到论文给出的图片，就用图上特征推断性取向会是极大地误读。

最大的遗憾来自于理论基础和实验。

文章作者也承认，训练集是来自于网上图片。特点是多样，生活化。但是缺点就是控制性。相比计算机视觉学者更喜欢这样自然、通用的数据。我们认知心理学、神经科学工作者更倾向于控制的数据。看似前者更有用，但是别忘了，大千世界中，互相影响的因素众多。倘若不加以控制就难以得出清晰的结论。

虽然有人说不能按照心理学严格标准去要求此类基于大数据的研究。但是我得说一句，不仔细要求就会错误百出！

此项研究中使用了大量自己上传的图片。所以图片的光源，面孔朝向均无控制。然后作者用我们国家自主研发的 Face++（给国产点个赞！）对五官进行了标记。就这简单两步可能错误百出。因为图片是二维的，所以光源朝向都可能会 ‘扭曲’ 五官相对位置，从而干扰结果。Kramer（2014）的论文中就提到，同一个摆出不同的表情以及转动脑袋都会影响二维图形上的面孔比例。所以此项研究没有控制面孔图片，会给分析带来不少的未知干扰因素，削弱结论的强度。

我们再举几个例子。英国的科学家 Burton 和 Jenkins 曾经长期研究过一个人面孔在不同环境下差异（可以读读我这篇专栏文章：神秘博士圣诞特辑的一次脑洞展开）。

「用 AI 识别 xxx」，真的靠谱么？

这是 Bruce 与同事们在 1999 年的论文中的一个例子，这一堆面孔披头盖脸的忽闪上来，真心不太好判断左边那张面孔属于右边十个人里面的谁。原因之一就是不同环境。光源，甚至拍摄角度都会影响面孔的形态。别忘记了：头像照是你的三维面孔向二维图像的投影。你面孔上的宽高信息会随着光线和面孔朝向变化。

不同的镜头有不同的光学特性，同样的面孔在不同焦距下也不一样。面孔的“两性异性”也会变化。难道镜头变化，所以你的性取向就变了么？

「用 AI 识别 xxx」，真的靠谱么？

其次，不同角度会有透视问题。低头抬头都会让面孔宽高比变化，也会让下巴宽度变化。难道这也会改变性取向？

「用 AI 识别 xxx」，真的靠谱么？

再比如小李子。随着年纪增长，他的脸颊见宽，胡子见多，下巴见方。倘若按照本文的理论基础去分析，难道奥斯卡影帝的性取向随着年纪在那变化么？

作者也承认，他们分类器对于男性面孔结果更清晰。一个原因就是胡须在男性面孔上的鲜明（关于鲜明性，可以看这个回答：华沙：大脑是如何做到自动过滤出颜值高的女孩子的？）：材质特殊，高对比度，占据面积大。因此不同性取向者不一样的蓄胡须方式，会在此项判断上占据主导地位。所以说，此项分类器，倘若训练时依靠发型、胡型、以及妆容、配饰，而面孔特征；那么照片本身会极大影响此分类器的效用。

「用 AI 识别 xxx」，真的靠谱么？

左边两个为异性恋，右边两个为同性恋。男性的两张明显可见胡须的差异。明显可以看到男性的面孔有眼镜。所以说，只针对白人的研究可能没有控制教育水平这个因素。

仔细看一看，是不是左边的男性更仰头，右边的男性更低头。仰头和低头本身就会在拍摄过程中改变图像上面孔比例，因此结果需要打一个问号。

再说荷尔蒙。虽然说有不少学者认为在胎儿期的荷尔蒙水平会影响性取向。的确有很多学者承认荷尔蒙水平会影响面孔的特征，所谓两性异性（如 Rhodes 在 2006 综述文章，也可以翻一下我的文章：看脸这事儿上，男女有别。）。比如雄激素更多的男性，胡须旺盛，下巴坚毅宽阔；和此研究的数据结果吻合。但是，此项研究应该说用机器：1. 发现了荷尔蒙对于面孔形状的改变，2. 然后借用一个理论‘荷尔蒙和性取向相关’，3. 最后推论说能够发现性取向。仔细想想看，第 2 步是整个实验的逻辑核心；但也是解读时容易犯错之处。

另一个角度看，别忘记这个荷尔蒙水平还会影响食指和无名指长度比较。也就是说，这个实验的原理，在某种程度上可以说是与 ‘通过看手指长度判断性取向’ 类似。更要命的是，之前有不少论文抨击过「荷尔蒙与面孔比例」的关系。比如 Bird 和同事们（2016）发现，分析大样本数据后，面孔宽高比与荷尔蒙没啥关系。因此，假如面孔比例不能预测荷尔蒙分泌，难么此研究基于的荷尔蒙 - 性取向假说不可能在面孔上被反映出来。总之，这篇文章的基础值得怀疑。

倘若这些研究是利用在分析面孔探究皮肤病我会双手赞成。但是如果分析人的特征，性格，我觉得计算机视觉的学者还是要找一个心理学工作者一起研究。机器学习用途广大，但是不加以分辨的使用会带来误解和谬误。只有理论基础扎实的研究，只有伦理方面无忧的研究，才能给我们的生活给以帮助！

参考文献

Bird, B. M., Jofré, V. S. C., Geniole, S. N., Welker, K. M., Zilioli, S., Maestripieri, D., ... & Carré, J. M. (2016). Does the facial width-to-height ratio map onto variability in men's testosterone concentrations?. Evolution and Human Behavior, 37(5), 392-398.

Bruce, V., Henderson, Z., Greenwood, K., Hancock, P., Burton, A.M. & Miller, P. (1999). Verification of face identities from images captured on video. Journal of Experimental Psychology: Applied, 5, 339-360.

Kramer, R. S. (2016). Within-person variability in men’s facial width-to-height ratio. PeerJ, 4, e1801.

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

1人收藏

AI研习社

编辑

聚焦数据科学，连接 AI 开发者。更多精彩内容，请访问：yanxishe.com

发私信

当月热门文章