4
本文作者: 大壮旅 | 2015-06-10 19:26 |
谷歌和微软在微软“语境下的普通物体(COCO)”图像说明竞赛中争得难解难分。这一比赛旨在利用人工智能自动生成图像说明。比赛结果将在周五于波士顿举行的电脑视觉及图形辨识计算机视觉大会上正式宣布。
这种在最近的一项报告中被定义为“表演秀:一个神经系统图片信息说明生成器”的技术来自谷歌,在竞赛中和微软的两种相独立的系统表现一样出色。这两种系统分别被称为“从图像说明到视觉概念的轮回(From Captions to Visual Concepts and Back)”和“图像说明的语言模型(Language Models for Image Captioning: The Quirks and What Works)”。来自蒙特利尔大学和多伦多大学科研人员研发的两项技术也争得难解难分。这些技术包括在成百上千张图像中对几个对象进行分类并对单张图像进行多重的说明。
与洛杉矶加利福利亚大学的相关研究者展开合作的百度研究院在竞赛中排名靠后。
竞赛评委是基于系统说明与人类描述的相似度,以及通过图灵测试的系统说明的比例进行评判的。
这一比赛是许许多多为图形识别系统研发人员设立的比赛之一。但对于谷歌来说这却是最后的机会来证明自己的实力,那就是他们有能力对大规模的语言和文字进行分析。
能在比赛中表现如此出色,主要得益于谷歌和微软的研究人员都启用了一种叫做深度学习的人工智能。它包括一种基于大量数据(如图形数据)的名为人工神经网络的训练系统。运行时,给它一个新的数据,这一系统就会对新的数据进行推理并将信息反馈回来。深度学习在后台为许多面向消费者的网络应用提供支持,其中包括新的谷歌照片服务。
但谷歌和微软与脸书和百度等其他公司一样,一直在不断提升深度学习技术。
深度学习已经成为一种新风尚,此时,吸引眼球的技术才是王道。从这个角度来看,谷歌和微软看起来并没有落后于其他公司或者学术团队。
想要了解微软最前沿的图象说明技术,可以看下这个演示。它并不完美,微软的人脸识别系统同样如此,但它也没那么不堪。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。