谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

本文作者：奕欣

2016-06-28 16:13

导语：英雄也得过美人关。

今年8月，雷锋网将在深圳举办盛况空前的“全球人工智能与机器人峰会”，届时雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前，我们正在逐一拜访人工智能、机器人领域的相关公司，从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中，请联系：2020@leiphone.com。

每年，斯坦福都会举办一个比赛，叫作ImageNet视觉识别挑战……

这个比赛的参与者不是学生团队，而是全球的科技巨头，比如谷歌呀、微软呀、百度啊啥的。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

怎么比呢，简单说来，ImageNet相当于一个算法考场，而大公司就可以利用它家的庞大题库进行考试，正确率越高，当然就是本场比赛的冠军了。

顺嘴一说，去年六月的时候，百度因涉嫌在测试过程中作弊，而被ImageNet组织方禁赛一年了。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

而很多人打死都不会想到，这个“引无数英雄竞折腰”的ImageNet，背后的“终极考官”竟然是个大美女！还是个华人美女！

她就是李飞飞，一个集才华与美貌于一身的女子。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

明明可以靠脸吃饭，却偏要拼才华

出生在北京的李飞飞，16岁随父母移居美国。或许对科学的爱就是这样不分性别，李飞飞在1999年以最高荣誉获普林斯顿大学物理学学士学位，辅修工程物理专业。

随后，她在加州理工攻读电子工程的硕博学位，并在2005年顺利毕业。她的研究兴趣主要集中在视觉研究领域，包括计算机视觉和视觉心理学，例如物体识别、场景分类和事件分类等。

2009年，李飞飞来到了斯坦福，仅仅三年，李飞飞就晋升为终身教授，并成为斯坦福大学人工智能实验室（SAIL）及斯坦福大学视觉实验室的主管。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

在李飞飞2014年的简历上，有95篇在Nature、PNAS、Journal of Neuroscience、CVPR、ICCV、NIPS等顶级期刊与会议上发表的文章；联合发表文章32篇。

怀疑论文太水？Naïve。随便列举几个李飞飞获得的奖项吧：

2006年微软学者新星奖以及谷歌研究奖
2009年NSF杰出青年奖
2011年美国斯隆学者奖
2012年雅虎实验室学者奖
2014年IBM学者奖

不过比起那些只埋头工作的学者，李飞飞靠着自己的颜值才华参加了不少演讲，在她19页的简历里，有四页是关于参加过的各种演讲。她和媒体的关系也一直不错，上过New York Times和TED。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

“明明可以靠脸吃饭，却偏要拼才华”，李飞飞就是这句话的最佳代言人……而现在，她又摇身一变，成为了谷歌微软等一众科技公司在图像识别的终极考官。

ImageNet，图像识别的考场

作为全球计算机视觉领域的知名专家，李飞飞的主要贡献在于参与建立了两个被AI研究者广泛使用来教机器分类物体的数据库：Caltech 101和ImageNet，而后者，目前已经成为了全球最大的图像识别数据库。

如果说李飞飞是图像识别的大考官，那么她一手创建的ImageNet就是科技公司在图像识别的考场。

为什么不从算法上优化机器的“眼睛”，而是从“大脑”入手？

以往，计算机识别的逻辑是：

教计算机看到“对象”。研究者将训练图片抽象成一些模型，并借算法告诉计算机：

“有着圆脸、胖身子、两个尖尖的耳朵，还有一条长尾巴的东西，就是猫。”

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

然而，如果小猫是以这种形态存在的呢？（笑）

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

虽然一个3岁小孩都可以轻易地判断，这也是一只猫，但计算机就已经蒙圈了：它并不符合“猫”所代表的模型特征。

这就陷入了一个难题：即使是再常见的宠物，都可能呈现出多变的形态，只通过归纳模型来做机器识别，是不科学也不现实的。

所以，以ImageNet为代表的图像识别数据库提供了一种更接近人类识别物体过程的方式：

没有人教婴儿怎么看，但他们在3岁的时候就能认得很多东西，这是因为人是从真实世界中汲取经验的。

“如果你把孩子的眼睛都看作是生物照相机，那他们每200毫秒就拍一张照。 ——这是眼球转动一次的平均时间。所以到3岁大的时候，一个孩子已经看过了上亿张的真实世界照片。这种‘训练照片’的数量是非常大的。”

利用互联网，ImageNet提供了一个庞大的图片数据库，让计算机系统能够在1500万张照片里认识22000种物品。

而教会了计算机看东西还只是第一步，我们还需要算法的力量！

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

作为和大脑神经原理类似的卷积神经网络，用ImageNet来训练实在是再合适不过了。卷积神经网络，最早由Kunihiko Fukushima，Geoff Hinton，和Yann LeCun三人在上世纪七八十年代开创。

就像神经的最小运算单元是神经元一样，神经网络的最小单位也是一个小节点。节点通过连结不同的结点，能够输入输出信息，实现“思考”。如果将一张图片以不同维度分为各种层次，每个层次用来识别不同的内容，比如花色、颜色、形状等等。

想象一下，如果有30种不同的维度进行过滤和筛选……准确度是不是有着令人惊讶的提高？

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

在一个用来训练对象识别模型的典型神经网络中，有着2400万个节点，1.4亿个参数，及150亿个联结。借助ImageNet提供的巨大规模数据支持，研究者可以通过大量最先进的CPU和GPU，来训练这些模型。这两者相辅相成，在对象识别领域发展成为一个成功的体系。

通过让计算机读出谷歌街景，实际上能得到很多有意思的结果。比如道路上的汽车价格与家庭收入，甚至是和犯罪率的关系。

然而计算机能读懂了图片，这一切就到此为止了吗？

当然不。在大数据和机器学习算法的合力协作下，我们可以让计算机这个刚刚认识一些事物的baby慢慢组织语言，并用完整的句子表达出来——就像一个真正的小孩一样。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

虽然有时候会闹一些笑话……

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

虽然计算机目前还不能像人一样，在看到图片的一瞬就能理解它想要表达的情绪，还有各种事物背后所隐含和传递的讯息……

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算

但，它已经在努力了不是吗。

更何况，还有那么多以“考官”李飞飞为代表的，一直在为图像识别而努力的研究者们。他们或作为出卷人殚精竭虑，收集不同的图片而完善算法的精度；或作为应试者，忐忑不安地让计算机接受系统的“考验“；但不论作为哪一方，他们都朝着同样的方向，都在努力让计算机能获得更好的“成绩”。

或许，终极考官李飞飞面临的是这样的境地：一方面，她希望ImageNet考场里的“试题”能难倒前来应试的计算机们，因为这说明算法的突破口就在这里；而另一方面，如果计算机成功答出了试题，说明图像识别的技术又进步了一分。哪怕是攻克了一道“难题”，正确描述出了某张图片上的内容，都值得双方欢呼雀跃；而这样甜蜜的烦恼，也是考官李飞飞所享受的。

而最最重要的是，ImageNet——这个集合了全球智慧和力量的数据库——是免费的。这也就意味着，全球所有致力于图像识别的公司，都可以免费对自己的算法进行反复测试。这就好像一个庞大的试题库，只要愿意，任何公司都可以一直接受考官的检验。

谷歌微软的图像识别行不行，还得斯坦福的李飞飞说了算