被解雇半年后，前谷歌高管米切尔加入初创公司Hugging Face

本文作者：我在思考中

2021-08-26 10:17

导语：谷歌Ethical AI人工智能伦理研究小组前负责人玛格丽特·米切尔将加入Hugging Face，开发让AI 公平的工具。

作者 | 李扬霞

编辑 | 青暮

谷歌Ethical AI人工智能伦理研究小组前负责人玛格丽特·米切尔（Margaret Mitchell）将加入Hugging Face，开发让AI 公平的工具。

8月25日，谷歌Ethical AI人工智能伦理研究小组前负责人玛格丽特·米切尔(Margaret Mitchell)将加入人工智能创业公司Hugging Face，帮助企业开发确保其算法公平的工具。她因与他人合著的一篇重要论文引起争议而在今年2月被谷歌解雇。

Hugging Face有何吸引力？

Hugging Face 是一家总部位于纽约的聊天机器人初创服务商，专注于NLP技术，拥有大型的开源社区。尤其是在github上开源的自然语言处理，预训练模型库 Transformers，已被下载超过一百万次，github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的预训练语言模型结构的模型和调用框架。

Transformers最早的名字叫做pytorch-pretrained-bert，推出于google BERT之后。顾名思义，它是基于pytorch对BERT的一种实现。pytorch框架上手简单，BERT模型性能卓越，集合了两者优点的pytorch-pretrained-bert吸引了大批的追随者和贡献者。

其后，在社区的努力下，GPT、GPT-2、Transformer-XL、XLNET、XLM等一批模型也被相继引入，整个家族愈发壮大，这个库更名为pytorch-transformers。

2019年6月Tensorflow2的beta版发布，Huggingface实现了TensorFlow 2.0和PyTorch模型之间的深层互操作性，可以在TF2.0/PyTorch框架之间随意迁移模型。之后也发布2.0版本,并更名为 transformers 。到目前为止，transformers 提供了超过100+种语言的，32种预训练语言模型。

Hugging Face维护着一个存储库，人们可以在储存库中共享AI模型并进行合作。这是一个开放源代码平台，目前已经有5000多家机构使用，其中包括谷歌、Facebook、和微软。米切尔计划在10月份启动，并将首先开发一套工具，以确保用于训练人工智能算法的数据集不存在偏见。目前用于“教导”模型如何进行预测或确定的数据集，通常因为原始数据的不完整会导致AI软件在女性、少数群体成员还有老年人中表现不佳。

米切尔和Hugging Face已经建立了关系，因为为了确保模型的公平性，Hugging Face建议工程师和科学家在发布项目时使用米切尔在谷歌开发的名为“Model Cards”的工具来评估人工智能系统，以揭示优缺点。Hugging Face首席执行官兼联合创始人克莱门特·德兰吉（Clement Delangue）表示，放在Hugging Face上的20000个项目中，约有四分之一使用了Model Cards工具。

Hugging Face 在其 50 人的员工中还有几位人工智能伦理专家，但 CEO 德兰格（Delangue ）计划让所有员工对这项工作负责并努力。

德兰格表示：“我们不想建立一个辅助的人工智能伦理团队，而是真正让它成为公司的核心，并确保它真正融入每个人的工作。米切尔不会建立一个由少数人组成，只是偶尔提供咨询的团队。”

米切尔在一次采访中表示，在用软件评估人工智能系统方面，"要用非常严肃和积极的态度去工作。“这对我来说是一个非常好的机会，可以帮助模型构建者更好地理解他们正在构建的模型的危害和风险。”

米切尔在从谷歌离职后表示，她希望在一家规模较小的公司工作，这样可以从一开始就将人工智能伦理纳入在考虑内。她说，在Hugging Face中，“已经有很多基本的道德价值观。很明显，我不必强行插手或改进伦理流程。”

米切尔究竟为何被解雇？

米切尔的解雇源于谷歌人工智能伦理研究团队的动荡。去年，谷歌公司就解雇了该团队的另一位联合负责人蒂姆尼特·格布鲁(Timnit Gebru)，原因是她拒绝撤回与米切尔等人共同撰写的一篇论文，这篇文章涉及到对谷歌技术的批评。Gebru离职后，作为团队剩余负责人的米切尔公开强烈批评谷歌及其管理层，指责谷歌未能认真对待对其人工智能产品的问题，以及解雇Gebru的做法，因为Gebru是人工智能研究领域为数不多的杰出黑人女性之一。谷歌则表示， Gebru 已辞职，Mitchell 违反了谷歌的行为准则和安全政策。

谷歌的员工对其处理此事的方式表示愤慨，今年早些时候，对十多名现任和前任员工以及人工智能学术研究人员的采访表明，在两年多的时间里谷歌的人工智能的工作，在处理骚扰、种族主义和性别歧视指控方式上一直陷于争议之中。

提到这篇论文，大致集中攻击了大规模语言模型（如BERT）的消极影响，而BERT模型是谷歌的王牌AI产品之一。

这篇论文名为《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。

据了解，这篇论文基于其他研究人员的工作，参考了128篇学术文献，展示了自然语言处理的发展历史与大型语言模型的四大危害，呼吁对语言模型进行更深入的研究。

这四大危害包括：

1、训练大型AI模型会消耗大量能源；（训练一个BERT模型大约会产生1,438磅二氧化碳，相当于在纽约与旧金山之间的一次往返航班所产生的碳排放量。）

2、大型语言模型是基于大量文本进行训练，无法避免偏见的存在，包括那些涉及种族歧视的、具有性别歧视色彩的与其他虐待性的语言；

3、大型语言模型无法理解语言，但公司由于利益关系会加大这方面的投入，从而带来机会成本；

4、由于大型语言模型非常擅长模仿真实的人类语言，所以很容易被用来欺骗人类。

谷歌在许多基础研究上遥遥领先，这带来了大型语言模型的最新爆炸式增长。如果真的如论文所说大规模语言模型“危害大于利益”，而谷歌解雇一系列人员，那对这件事的态度也就不言而喻了。或许从这个角度就能理解米切尔加入Hugging Face的原因了。

参考资料

https://www.bloomberg.com/news/articles/2021-08-24/fired-at-google-after-critical-work-ai-researcher-mitchell-to-join-hugging-face