0
本文作者: 汪思颖 | 编辑:郭奕欣 | 2018-02-27 11:18 | 专题:CVPR 2018 |
雷锋网 AI 研习社按,当地时间 6.18-22 日,CVPR 2018 将在美国盐湖城举办。目前距离大会开幕还有四个月,随着春节期间大会主办方公布接收论文名单,引来大家对 CVPR 的讨论狂潮(详情可参见 CVPR 2018 收录论文名单全公布,默默看各路大神公布喜讯)。除了对接收论文的讨论和学习,其实还有一个议程也不容大家错过,那就是 workshop 上各式各样的比赛了。
从大会官网上可以看到,今年的 workshop 涉及到多个议题,比如伪装人脸识别、低功耗图像识别、图像压缩、系统鲁棒性分析、自动驾驶、嵌入式视觉等等多个方面,而针对这些议题,也涌现出许多有意思的比赛。这些 workshop 上的比赛,或是有多个大公司赞助,或是极具新意,或是极具实用价值,雷锋网 AI 研习社在筛选之后,为大家介绍如下几个比赛。
以下是两个极有新意的比赛,在伪装人脸识别比赛和大规模地标识别竞赛上,主办方都提供全新的大规模公开数据集,大家可以利用系统识别伪装后的明星,识别景点。
伪装人脸识别比赛
在「First International Workshop on Disguised Faces in the Wild 」workshop上,来自马里兰大学、IBM 和印度国际信息学院(IIIT)的几位主办方推出伪装人脸检测比赛。
随着近年来深度学习的进步,自动人脸识别能力得到了显著提升。然而,在不受约束的环境中,面对不是很配合的用户,想要进行精准的人脸识别仍然极具挑战。
目前对姿势、表情、光照、老化程度和低分辨率等几个因素的研究颇多,但「伪装」仍然是人脸识别中一个很难解决的问题。
如下图所示,伪装包括有意和无意的改变面容来混淆自己的身份,或者模仿别人的身份。你能猜出下面谁是Lady Gaga,谁是 Neil Patrick Haris 吗?
伪装在什么样的环境下都有可能发生,因此对这种问题的识别会更加困难。此外,由于没有可用的数据集,人们并没有对真实场景下的伪装进行全面研究。
针对现状,在此次研讨会上,主办方举办了这场伪装人脸识别竞赛,参赛者将被要求展示他们在自然环境数据库中对伪装后的人脸的识别情况。优秀的算法组将被受邀提交论文,选中的论文会在 workshop 上进行演示。此外,没有参加比赛的相关研究人员也可以提交论文。
乔装人脸数据集(Disguised Face Dataset)
主办方准备了一个乔装人脸数据集(Disguised Face Dataset),包含了 1.1 万多张涵盖 1000 种主题的各种经过不同伪装的图片。主题文件夹由乔装过后的艺人的图片组成,此外主办方还提供从 Faster RCNN 中生成的脸部文件。
数据集地址:http://iab-rubric.org/databases/DFW_Data.zip
比赛主要包括如下几个方向:
在伪装的情况下识别人脸
通过伪装冒充其他身份
检测各种不同的伪装方法
检测化妆之后的人脸
识别遮掩之后的人脸
关于该比赛的详细信息,可以参见:
http://iab-rubric.org/DFW/dfw.html
大规模地标识别竞赛(Large-Scale Landmark Recognition: A Challenge)
当你在浏览旅游之后的照片时,有没有问过自己:我在中国访问过的这座寺庙叫什么名字? 我在法国看到的这个纪念碑是谁建造的? 想不起来没关系,地标识别系统能帮到你。地标识别技术可以直接通过图片像素预测地标标签,从而帮助人们更好地理解和分类自己的照片。
如今,地标识别研究面临一大障碍——缺乏大型的带标注的数据集。
在这次竞赛中,主办方公开了迄今为止最大的全球性数据集,以促进解决这个问题。此次比赛在 Kaggle 平台上举办,极具挑战性。
此次共分为两个赛事:
地标识别
Kagglers 需要建立模型,在测试集中识别出正确的地标 (如果图中有地标)。
许多 Kagglers 对诸如 ImageNet LSVRC 大规模视觉识别挑战赛很熟悉,ILSVRC 的目标是识别一千种常规的对象类别。地标识别与这有些许不同:它包含了更大的类 (这次比赛中有一万五千个类),并且每个类的训练样例的数量可能不是很大。地标识别本身也极具挑战。
这一挑战与地标检索挑战赛同时进行,两个比赛的测试集相同,以鼓励参赛者两个都参加。
地标检索
图像检索是计算机视觉中的一个基础问题:给定一个图像,你能否在大型数据库中找到类似的图像? 这个问题对于含有地标的图像来说非常重要,因为人们大都喜欢以特定的地标作为背景拍照。
在这场竞争中,主办方会为参赛者提供查询的图像,并且,对于每个给定的图像,都希望参赛者能检索出数据库中包含相同地标的所有图像 (如果存在的话)。
主办方也鼓励参赛者使用识别比赛中的训练数据来训练检索赛中的模型,这可能也会有用。但是请注意:这两个挑战赛的训练/检索集中没有共同的地标。
比赛提供的全新数据集是世界上最大的图像检索研究数据集,由一百多万张图片组成,包含一万五千个独特的地标。主办方表示,希望这一数据集将加速对这类研究的进展。
地标识别比赛地址:https://www.kaggle.com/c/landmark-recognition-challenge
地标检索比赛地址:https://www.kaggle.com/c/landmark-retrieval-challenge
除了以上两个代表性的极具新意的比赛,会上也有很多较为传统的比赛,例如 LPIRC。
低功耗图像识别挑战赛(Low-Power Image Recognition Challenge)
该比赛为 IEEE 主办,今年是第四届。比赛赞助方包括 IEEE Rebooting Computing、谷歌和 Facebook。
举办该比赛的背景如下:目前,许多移动系统 (智能手机、电子设备、自动机器人) 都具有拍照功能,这些系统都需要使用电池,因此降低能耗极其重要。
这一竞赛旨在发掘出兼顾图像识别和节约能耗的最佳技术。参赛选手的方案将会根据两个维度来评估:一是高识别率,二是低功耗。
图像识别涉及到许多任务。这一挑战集中于对象检测,这是许多识别方法的基本路径。
下面有两个例子,举例说明了此次任务。
在第一个例子中,有两个物体:一只鸟和一只青蛙。
在第二个例子中,有若干物体:汽车、人、摩托车和头盔。
LPIRC 的训练和验证数据来自于 ImageNet 大规模视觉识别挑战赛。测试数据是专门针对此次比赛准备的。
比赛分为三个不同挑战:
Track 1:参赛队伍在 CVPR 2018 之前,将他们的模型提交为 TfLite 格式,这里重点关注模型在确定计算平台上的准确率和执行时间。
Track 2:参赛队伍在 CVPR 2018 前提交程序,主办方将会在英伟达 TX2 上执行程序,衡量准确率和能耗。
Track 3:与 2017 年的一样,参赛者在现场用他们写好的程序比赛,这里对硬件和软件都没有限制。(注意:不能使用英伟达 TX2)
关于比赛的更多信息,接下来会陆续公布,大家可以关注:
https://rebootingcomputing.ieee.org/lpirc
除了这些或极具新意,或传统的比赛,也有比赛既涉及到由来已久的赛事,又专注于未来的实用性价值,例如下面要介绍的鲁棒性视觉挑战赛。
鲁棒性视觉挑战赛(Robust Vision Challenge)
过去十年间,带标注的大数据集日益增多,如 Middlebury、PASCAL VOC、ImageNet、MS COCO、KITTI、Cityscapes,这些数据集的出现使得计算机视觉和机器学习取得巨大进步。
有了公共排行榜,大家只需要比较多种方法的结果,就很容易追踪到这一领域的最先进技术。虽然目前在每个数据集上都取得了稳定的进展,但许多都只限于特定领域。例如,KITTI 专注于真实世界的城市驾驶场景,而 Middlebury 考虑的是室内场景。
因此,在一个数据集上顶尖的方法通常在另一个数据集上表现很差,或者需要对模型参数进行大量修改。
这个 workshop 的目标是促进视觉系统的发展,找到能在各种具有不同特征的数据集上均表现良好的稳健系统。
为了实现这一目标,主办方推出 Robust Vision Challenge 挑战赛,通过一系列具有不同特征的、极具挑战性的基准(例如室内 VS 室外,真实 VS 合成,晴朗 VS 恶劣天气,不同的传感器),测试系统在若干个任务 (如:重建、语义/实例分割、单一图像深度预测) 上的性能。此外,主办方也鼓励大家提交的系统中包括新的算法、目前正在审核的技术和已经发表的方法。
如上图所示,主办方为这 6 个挑战中的冠军和亚军提供奖项,并邀请他们在这次的 workshop 上展示其方法,参加 workshop 晚宴。此外,主办方还计划在 TPAMI 论文上发表优胜者方案。
而从大的方向上来看,也有诸多比赛关注城市现状,旨在利用计算机技术,找出针对于交通问题、城市发展问题的更好的应对方法,例如下面将要介绍的两项比赛:
英伟达 AI 城市挑战赛(NVIDIA AI CITY CHALLENGE)
英伟达在 CVPR 2018 上举办了一场英伟达 AI 城市挑战赛。他们表示,到 2020 年将有 10 亿台相机。交通运输是相机最大的细分市场之一,因为它可以从这些相机捕捉到的数据中受益。在交通、信号系统、运输系统、基础设施中,分析从这些摄像头中获得的信息,有助于交通系统更安全、更智能。
然而,目前因为一些原因,他们还没能利用到这些潜在的信息。首先是数据质量很糟糕,此外缺乏数据标签,最后缺乏能够将数据转化为有用信息的高质量模型,另外还需要支持从端到云分析的平台来加速模型的开发和部署。
而此次的 NVIDIA AI City Challenge workshop 将特别关注这些问题,例如分析交通流量特征(如车速),大力开展使用无人监督的方法来检测车辆相撞、停车引起的异常现象等等。
虽然目前计算机视觉,特别是深度学习已经在大规模的实际部署上有所贡献,这将有助于使城市变得更聪明、更安全,但英伟达希望征求大家更多的点子。
为了减少对监督式方法的依赖,而更多的关注于迁移学习、非监督和半监督的方法,他们在这次 workshop 上组织此次竞赛,优秀成果将在 workshop 上进行展示。
参赛者可以在以下三个挑战中选择参加一个或多个,想获得奖品的参赛队伍需要提交代码,以便于主办方验证。
Track 1: 交通流量分析(Traffic Flow Analysis)
参赛队伍需要提交预估车速。测试集是 27 个 1 分钟的视频。
Track 2:异常检测(Anomaly Detection)
参赛队伍将提交检测到的前一百个异常情况,这可能是由于汽车相撞或车辆停滞造成的。异常情况不包括正常的交通堵塞。
Track 3: 多场景车辆检测和鉴定(Multi-camera Vehicle Detection and Reidentification)
参赛队伍需要在 15 个视频中,识别出在 4 个不同地点中均至少出现过一次的车辆。
而他们为参赛选手提供的奖品也很英伟达:
Track 1 中,冠军和亚军奖品是 Jetson TX2;
Track 2 中,冠军奖励是 Titan Xp1,亚军奖励是 Jetson TX2;
Track 3 中,冠军奖励是 Tesla V100,亚军奖励是 Jetson TX2。
比赛详细信息:https://www.aicitychallenge.org/
DeepGlobe 卫星图像理解挑战
据主办方介绍,与传统图像相比,卫星图像非常强大,它包含更多的结构化、一致的数据。尽管计算机视觉社群目前已经在利用深度学习,基于日常图像数据集,完成了一些极具挑战的任务,但卫星图像最近才获得关注,基于卫星图像可以对地图和人口进行分析。
这个 workshop 旨在将不同研究人员聚集与此,以推进卫星图像分析顶尖技术的进展。
为了让更多人关注这些技术,主办方推出 DeepGlobe 卫星图像理解挑战(DeepGlobe Satellite Image Understanding Challenge),该挑战赛基于三种不同的卫星图像理解任务。
为这次竞赛准备的数据集可以作为未来分析研究卫星图像的参考基准。此外,由于挑战任务将涉及到实拍图片(in the wild)中的经典计算机视觉问题,这些数据集极具价值,有可能成为产生健壮视觉算法的温床,而不仅仅只是局限在遥感技术的范围。
DeepGlobe 包含如下三种挑战:
道路提取(road extraction)
在灾区,特别是发展中国家,地图和可获得的信息对于危机应对至关重要。这项挑战是从卫星图像中自动提取道路和街道网络。这是一个二元分割问题,需要检测每一区域所有道路的像素。对这项竞赛的评估将基于道路像素的准确度。
建筑物探测(building detection)
人口动态建模对灾害响应和恢复具有重要意义,而对建筑物和城市区域的检测是实现建模的关键。这项挑战的目的是从卫星图像中自动探测建筑物。这一问题也是二元分割问题,需要找出每个区域所有不同建筑的位置。评估是基于检测到的建筑边缘与地面实况的重叠情况。
土地分类(land cover classification)
对地表自动分类和切割对可持续发展、农耕和城市规划具有重要意义。这一挑战是个多类分割任务,需要探测城市、耕地、牧场、森林、水源、荒地和未知区域。评估是基于类别标签的准确性。
参赛者可提交一个或多个挑战的结果。主办方呼吁大家提交的结果包括新的技术、正在审查的方法和已经出版的方法。每项挑战的前三名都将获得奖励,获胜者将会在 DeepGlobe CVPR 2018 workshop 上进行口头陈述,每一挑战的前五名将受邀请进行海报展示。主办方还将在 workshop 上发表一些选定的论文。
当然了,上面介绍的那些比赛并不是全部,大家可以点击:http://cvpr2018.thecvf.com/program/workshops,查看更多 workshop 比赛信息,看看是否有你感兴趣的主题。
(完)雷锋网 AI 研习社编译整理
雷峰网版权文章,未经授权禁止转载。详情见转载须知。