李飞飞北京演讲：AI会改变世界，改变AI的又会是谁？

本文作者：亚萌

2017-01-17 22:06

导语：1月15日，李飞飞出席未来论坛2017年会，发表名为《视觉智能的探索》（The Quest for Visual Intelligent）的演讲。

雷锋网按：2017年1月15日，李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼，发表名为《视觉智能的探索》（The Quest for Visual Intelligent）演讲。李飞飞教授分别从四个视角讲述了她眼里的AI，提到她加入谷歌后从事的几项工作，并致力于推动AI的多样性发展。雷锋网根据其现场演讲整理成本文，由宗仁和亚萌共同编辑。

大家下午好！我非常荣幸看到在这个历史性时刻，中国正在庆祝它在科学和创新领域的进步。今天我来到这边是作为人工智能的学术圈一员，我想跟大家分享一下视觉技术方面最新的进展。

作为社会整体，我们依然是盲人

大概5亿年前，有一些非常简单的生物生活在一片非常大的海洋当中，它们等待着食物的到来，或有时也成为别人的食物。那时的动物王国非常简单，后来可能是出于偶然，最早期的一些动物出现了眼睛这种器官，这些动物的眼睛其实还是非常简单，它们就像古代中国“小孔成像匣”一样初级。在视觉发展之后，动物才变得更加积极，尤其是在猎取食物时，它们可以自发进攻，它们也会寻找更隐蔽的地方躲藏起来，避免自己成为它人的食物。

之后，在一段相对较短的时间内，地球上的物种得到了非常丰富的发展，这也是视觉进化引发的“寒武纪大爆发”。寒武纪大爆发之后，视觉就在动物中发挥着非常重要的作用，帮助它们行动、寻找食物、躲避敌人等等。作为人，我们也是一样的，我们也用视觉支持我们的生活、我们的工作、我们的交流，让我们更好地了解世界。

事实上，在5亿年的进化当中，视觉已经成了我们人最重要的感知系统，我们的大脑中有超过一半都是和视觉处理联系在一起的。虽然，动物在5.4亿年前就看到了世界的光明，但是直到如今我们的机器和计算机所面对的还是“黑暗时代”。我们如今到处都有监控器，但是如果监控器拍到一个小孩落水了，它也并不知道发生了什么事情。

每一分钟，都有成百上千个小时的视频上传到Youtube和Facebook的服务器里，但是我们还不能根据视频的内容来进行搜索；无人机也可以飞翔在广袤的土地上，但我们还不能根据无人机镜头捕捉到的绘制出地貌。

总的来说，我们作为一个社会整体，是个盲人，这是因为我们的最智能的机器还是盲人。

作为一名计算机视觉科学家，我们致力于开发出能从视觉世界中学习AI算法，识别出图片、视频里的内容，最终为数字世界带来“光明”。

ImageNet的诞生：从孩子获得灵感

为了实现这样一个目标，首先我们要教计算机识别物体，物体是视觉世界的基础物件。我们给计算机一些特定物体的训练图像，比如猫的图片样本，然后设计数学模型，让机器从这些训练图像中学习。

在早期物体建模中，我们用数学语言，告诉计算机这只猫由不同形状组成（例如圆形的脸、三角型的耳朵等），但是还有很多的图片里的猫，它们摆出各种奇怪扭曲的姿势，这时猫身体的各个部位已经不是规则的形状了，这时要怎么办呢？

所以，为了让不同的猫都能被计算机识别出来，我们需要设计不同的模型，但这样大量的工作真得会把人逼疯，所以研究就陷入了困境。很多年来机器视觉领域的很多科学家，都想找到一个神奇的算法，可以对同一个物体的不同“变种”进行建模。

大概8年前，一个简单但深刻的发现，改变了我的思考方式，那就是从小孩学习的过程中得到灵感。孩子在学认猫的过程中，并没有被告知猫是各种形状的组合，他们只是根据过去的经历习得。如果把小孩的眼睛当做一对生物摄像机，它每秒钟都要看至少5张猫的图片，到了3岁时，一个孩子已经见过数以亿计来自真实世界的图像。

所以在我们专注于找出最佳的算法之前，我们应该为计算机提供跟孩子一样多的训练图片。所以，这时，我们需要采集数据，采集比以往多得多的图像，这个数量将是以前的几千倍。

所以，我和普林斯顿大学的李凯教授、当时的学生Jia Deng一起，启动了ImageNet项目。

李飞飞北京演讲：AI会改变世界，改变AI的又会是谁？

我们在网络上找到了很多图片、很多数据，网络是汇集人类所拍照片的最大宝库。经过3年的辛勤工作后，2009年ImageNet正式交付，其中包括1500万张图片和22000类物体，并用日常英语单词组织起来，这在机器学习和视觉领域，从数量和质量来说都是史无前例的。我们比以往，更加准备好了去解决计算机视觉领域的问题。

而这，就是从一个孩子的视角出发得来的。

ImageNet完美匹配的算法：CNN

事实证明，ImageNet提供的充足信息，能够完美匹配某类机器学习算法，就是“卷积神经网络”（CNN），由1970年代和80年代的计算机科学家提出。

卷积神经网络受人脑启发，其中的基本运算单元，是类似神经元的节点，节点能从其它节点接受输入，并输出到其它节点，而且，这成百上千的节点，会分层有序地组织连接在一起。

这是一个非常经典的用来训练物体识别的卷积神经网络模型，它大概有2400万个节点，1.4亿个参数和150亿个连接。ImageNet提供的海量信息，加上现代CPU和GPU来训练如此庞大的模型，卷积神经网络的快速发展超出人们的想象，它成为了非常成功的算法，在物体识别方面取得了令人欣喜的成果。

李飞飞北京演讲：AI会改变世界，改变AI的又会是谁？

在一张图里，计算机告诉我们这张照片里有一只猫以及这只猫在哪里；这另一张图里，计算机告诉我们，一个小孩拿着他的泰迪熊。

如今，计算机取得了巨大的进步，然而这还仅仅是第一步。很快，另一个发展里程碑就会达到。孩子会开始用句子来交流，比如看到这张图片，一个小孩会说“一只猫躺在床上”。而计算机也一样，所以要教电脑看懂图片，并且用一句话来描述它。我们需要用到神经系统，并且把神经系统推向一个高度，我们需要把视觉信息和文本信息结合起来，并且让它生成出一个具有意义的句子。

大概是一年半之前，我们与世界上其它几个实验室进行了合作，创造出了第一个根据图片讲故事的计算机视觉算法。

计算机在看到图片时说出了一句描述：“一架大型飞机停在机场跑道上”。

当然，相比三岁的孩子，计算机的发音没有那么可爱。这种看到一张图，产生一句描述语的叫做“Image Capturing”，而且我们将这种能力扩展，使得计算机可以根据一张图片，产生很多句描述。最近，我们提交了一篇论文，计算机通过算法，针对第一次看到的图片，而自动生成出完整的一大段的自然语句。

总之，得到大脑的启发之后，我们发现深度学习的算法和公式能够帮助我们做一些视觉方面的检测，而这就是从大脑的视角得来的。

我在谷歌的一些工作

在卷积神经网络和深度学习技术得到如此大的发展之后，我们也开始把焦点转向其它一些领域，尤其是视频。我们要看看，图片中学习到的东西能否复制到视频领域中去，让真实世界从中获益。我们的实验室和谷歌YouTube团队合作，把YouTube上100万个运动相关的视频样本抓取出来，它们分别属于450种运动类别。我们希望有一天这样的技术能够帮助我们去管理、索引和搜索大量的视频和图片。计算机能自动对屏幕上的体育项目进行分类，这里包括各种各样的体育项目，武术、篮球、帆船运动等等。

最近我们的实验室，联合谷歌和Facebook一起进一步扩展了我们工作的范围，不仅仅能够让机器识别出运动的类型，而且可以看看单个队员做了哪些事情。我们来看NBA的篮球，机器可以追踪每个队员在重要事件中的表现，譬如三分球投篮成功等。

李飞飞北京演讲：AI会改变世界，改变AI的又会是谁？

我们拿了一些安全监控视频（比如医院里的），通过深度传感器的视频来进行分析应用，识别出当中人的姿势和动作，这个是非常有价值的。

我们和欧洲一个火车站进行了合作，将成百上千个视觉传感器安装在公共空间，利用这些计算机的传感器来追踪乘客的行动，火车站有数百万的人流穿梭，通过这样一种监测可以帮助优化火车站的空间，调整火车发车时间表。

最近我们利用了深度学习、CNN和RNN，让机器学习如何预测人类行为的轨迹，这样一个工作能够把我们前边所讨论的结合在一起。算法不仅有IQ，可以识别出人，而且它也有EQ，来做出被人类社会接受的行为。比如当它用来规划一个机器人的行为轨迹时，就该知道机器人不应该干扰人，或者机器人在一个空间行走时，不能冲进人群里。

我们利用所有这些技术和现实中的情况结合，现在我们和斯坦福医院合作，部署相关技术，可以提高他们手卫生和工作流程，不仅是在工作场所，在家也是。

总而言之，作为一个技术人员，看到计算机视觉算法正在帮助解决现实生活中的问题，真的让我感特别兴奋，这是一个技术人士的视角。

保证AI多样性的三个理由

大概是5亿年前，动物视觉和智力面临的挑战就是让个体存活，而如今，机器视觉和AI所面临的挑战就是让人类能够繁荣。作为技术人员我们要问，AI将会成为一种摧毁力，还是能给我们带来更好的世界？我思考这个问题很久了，最近我突然顿悟，AI的未来掌握在那些创造、开发和使用者的手中。无疑的，AI会改变世界，但这里真正的问题是，改变AI又是谁呢？

大家都知道，世界各地都是缺乏多样性的，包括美国的硅谷、中国、欧洲等，还有很多其它区域都缺乏多样性，在美国学术界只有25%的计算机专业人士是女性，不到15%的美国顶尖工程学校的教职员工是女性，对于少数族裔来说，女性的代表就更少了，这一不平衡的现象在工业界也同样存在。这并不是工作文化问题，这实际上是经济和集体财产的问题。

几个月前我受邀到美国白宫讨论了AI中多样性的必要性，我提出必须提高AI多样性的三个理由。第一个理由关乎经济和劳动力，AI人工智能是一个日益增长的技术，会影响到每个人，我们需要更多人力开发出更好的技术；第二个理由关乎创造力和创新，很多研究都显示出，当拥有多种多样背景的人共同合作时，会产生更好的结果和更具有创意的解决方案；最后一个理由，关乎社会正义和道德价值，当各种各样背景的人聚集到一起时，他们有着各种各样不同的价值观，代表着人类的技术也会有更加多样性的思考。

李飞飞北京演讲：AI会改变世界，改变AI的又会是谁？