第十三届图像图形技术与应用学术会议，张广军院士等学者报告其多年研究工作

本文作者： camel

2018-04-15 22:21

导语：张广军、Jeremy M. Wolfe、刘成林、刘烨斌、张艳宁、童欣、周昆、王亮

雷锋网 AI 科技评论：2018 年 4 月 8 日至 10 日由北京图象图形学学会主办，北京航空航天大学承办的「第十三届图像图形技术与应用学术会议」（IGTA 2018）在北京航空航天大学成功举办。

本次大会由北京理工大学王涌天教授、北京航空航天大学姜志国担任大会主席，北京航空航天大学赵沁平院士、中科院自动化研究所谭铁牛院士担任大会名誉主席。雷锋网了解到，会议共收到 138 篇投递论文，录用 87 篇，其中 64 篇英文论文。本次会议共有 200 多人与会。在三天的议程中，共包含

4 场特邀报告：

张广军：动态视觉测量与工程应用
Jeremy M. Wolfe：Why didn't I see that? The role of attention in visual search errors
刘成林：文档图像识别研究现状与趋势
刘烨斌：动态场景三维重建技术：便捷性与实时性

4 场高峰论坛报告：

张艳宁：高分辨率图像智能处理技术
童欣：从交互图形学到智能图形学
周昆：Computer Graphics 2.0：towards end-user-generated 3D contents
王亮：Analysis and Understanding of Big Visual Data

6 场 CVPR 顶会论文报告：

宋纯锋（自动化所）：Mask-guided Contrastive Attention Model for Person Re-Identification
黄鑫（北大）：Deep Cross-media Knowledge Transfer
段岳圻（清华）：Deep Adversarial Metric Learning
杨文瀚（北大）：Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos
王培松（自动化所）：Two-Step Quantization for Low-bit Neural Networks
黄永业（北邮）：SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval

此外还有一系列接收论文的交流报告。

下面为特邀报告和高峰论坛报告的详细内容。

特邀报告

1、动态视觉测量与工程应用

东南大学校长张广军院士作为本次会议的特邀讲者，做了首场特邀报告。在一个小时左右的报告中，张广军院士简要介绍他十多年的主要研究成果。

张广军院士在报告中提到随着我国航天、国防、铁路等领域快速发展，如何能够实时、精确、动态地测量物体（例如卫星、导弹、高铁等）的三维形貌、位置和姿态成为迫切急需的核心技术之一，这决定着高端装备的性能和安全。而动态视觉测量，即为采用计算机视觉和几何量测量学的方法来实现高速运动体的测量。

基于实际需求及对问题的分析，张广军院士及他所带领的团队在数十年中完成了大量相关的研究，概括来说则有三类：

1、发展了视觉测量模型与现场校准体系，提高了动态测量精度和现场适应性，并实现了星载设备小型轻量化。

2、发明了动态成像新模式和图像信息处理新方法，提高了动态视觉测量的实时性、动态性、准确性和可靠性。

3、研制成功三类动态测量系列设备，打破了国外的技术封锁，填补了国内空白，主要指标达到或超过了国外最好的水平。

在工程应用上，张广军院士列举了三类应用，包括航天器自主姿态测量星载产品、航空装备飞行性能动态测试站和列车运行状况正线动态测试站等。

2、Why didn't I see that? The role of attention in visual search errors

接着来自哈佛医学院 Jeremy M. Wolfe 教授做了关于人类注意力对视觉影像的报告。

据 Wolfe 教授介绍，我们人类无法同时识别出我们视野中的每一个物体，我们通过将注意力从一个对象转到另一个对象，从而来寻找我们需要的东西。因此注意力在我们的视觉搜索中占据着极为重要的地位。

在报告中，Wolfe 教授通过三个故事生动地介绍了关于人类注意力的研究结果。

首先，他通过在图中找物体或差异的游戏，陈述了一个事实：对于人类视觉，在任何时候都没有关注全部，而只是汇集到当前关注的对象上，其余的部分只是几个简单要点、抽象物体或者记忆产物。

其次，他介绍一个经典实验 The Incidental Gorilla，即当你关注视频中传递篮球的游戏时，却没有注意到从视频当中走过的黑猩猩。同样的情况也会在医生检查 CT 片子时发生，当他们把注意力放在寻找肺结节时，常常会忽略片子中其他的信息。这告诉我们人类的注意力搜寻引擎有时候会给我们带来很严重的错误。

最后，Wolfe 教授通过安检的案例介绍了 The Prevalence Problem。在安检中通过扫描图像能否正确地发现危险物品呢？Wolfe 通过具体的实验数据得出结论：在低流行率下漏掉危险物品的几率大大增加，而虚警率则稍稍降低。

通过以上这些研究，Wolfe 认为我们的「搜索引擎」并不能完美运行，有时我们无法找到我们要找的东西。当那些错过的目标是诸如肿瘤或炸弹之类的东西时，这些错误就具有重要的社会意义，这个问题值得关注，如果有可能的话则需要通过别的方式来纠正。

3、文档图像识别研究现状与趋势

刘成林研究员是中科院自动化所副所长，模式识别国家重点实验室主任。在他的报告中，刘成林研究员详细介绍了文档图像识别（简称文字识别）的研究现状和未来趋势。

在报告中刘成林首先介绍了文字识别的应用背景。所谓文字识别，即将字符图像转换为符号代码，这包括文本分割、识别、上下文处理、语义信息提取等。其意义在于能够压缩数据，以及内容理解和语义提取等。其应用需求包括手写字体识别、图像中文字信息提取等，例如交通牌信息的提取对于当前自动驾驶尤为重要。

其次刘成林介绍了文档种类和研究问题。文档种类大致分为物理文档（例如扫描书籍、交通牌等）和合成文档（在线手写字体等）。对于文档的研究，依据流程，主要有图像处理、版面分析、内容识别、语义分析和应用等。随后他详细介绍了这几个方面的技术研究现状。就像在 CV 的其他领域一样，深度学习的方法在文字识别中也逐渐发挥着越来越多的应用，并对文字识别的性能有极大的提升。

但是目前文字识别在应用中仍然存在许多问题有待解决。例如识别精度到底需要多高才可以用？识别错误主要发生在什么情况？应用中如何克服识别错误？文本分割/识别之处有哪些研究问题？如何更有效地构建（学习）识别系统？如何对应用场景进行扩展？……

此外，刘成林研究员还提出了几个尚未解决的传统问题，包括版面分析（印刷/手写混合、多种元素、多文种、多语言、逻辑结构等）、文字认证和拒识（置信度分析、结构分析等）

对于未来的研究方向，刘成林研究员也针对基础理论和方法论、字符识别、文本行识别、情景文字识别、应用导向等的问题。

整个报告可以说是对文字识别领域全方位的介绍。刘成林认为文字识别的研究已经有 50 多年的历史，在这个过程中产生了大量的研究成果，但是在实际应用中还存在很多技术的不足，需要从应用角度重新思考聚焦研究问题。

4、Real-time and Convenient Human Performance Capture

刘烨斌为清华大学自动化系副教授，其研究方向为视觉信息获取与重建，包括三维重建、运动捕捉、计算摄像等。他在报告中主要介绍了他十多年来所做的一件事情：对人体进行动态的三维重建。

人类表现捕捉，也即根据多角度视频输入或 RGBD 序列来捕捉人体的三维几何和一维运动。其应用场景包括电影生成、增强现实、电子会议、运动分析等领域，其目标则是能够高精度、可编辑、大范围、便捷且实时地捕捉人类的表现。

其讲解内容包括 Depth Map Merging Based MVS、Variational MVS Pipeline、多视角立体测光、骨架驱动的 HPC、Relightable/Animatable HPC、Multi-person HPC、Hand-object Motion Capture、手持相机的 HPC、非刚性表面追踪的 HPC、实时 4D 重建、实时 4D 融合和重建、用无人机实现重建、第四代 4D 重建等大量的工作。

刘烨斌副教授表示，基于视觉信息在空间、视角、光谱、时域、强度等的多维度，他们未来的工作将围绕全光成像、实时构建、智能计算等方面进行深入开展。

高峰论坛报告

1、高分辨率智能图像处理技术

西北工业大学张艳宁教授是国务院学科评议组成员，教育部「长江学者」特聘教授。在报告中张艳宁教授详细介绍了她所带领的研究团队在高分辨率观测中的研究成果。

随着人类对近地空间的探索，分布地球轨道上的卫星、空间站、空间碎片日益增多，对这些太空人造物体进行有效监视则极为重要。但是利用空间平台视觉图像进行空间探索，依然存在光学成像分辨率受制约、图像模糊、分辨率低等问题，现有的图像难以满足看得清、辨得明的应用需求。

针对这样的问题，张艳宁教授及其所带领的团队认为在硬件平台受限、同时由于运动、抖动等造成图像模糊等问题的情况下，应当通过计算方法实现高分辨率的图像智能处理。报告中张艳宁教授提出了他们在空间图像高分辨率计算成像、动态耦合降质图像的清晰化重建等方面的创新理论和方法，其成果在提高图像分辨率、图像清晰化方面有极好的表现。

最后张艳宁教授还介绍了他们在图像去噪、协同感知等方面的研究成果。

2、从交互图形到智能图形

童欣博士目前为微软亚洲研究院网络图形组首席研究员，研究主管，同时担任中科大兼职教授。

童欣博士介绍到，AR&VR 技术的发展可以应用到例如探索世界、训练和学习、工业设计、复杂任务等场景中。这其中最为关键的技术就是高质量的三维内容。但是传统的图像内容创作一般都依赖艺术家和工程师大量的交互和手工劳动，对于普通人来说则几乎不可能。

微软对此的解决方案是：使用便宜的设备、大量的数据以及机器学习的方法来实现从交互到智能。童欣博士在报告中介绍了三方面的内容。

第一是 shape modeling。其目标为根据稀疏的二维素描来自动生成三维模型。研究成果详见 ACM TG, 36(4), 2017

第二是 material modeling and rendering。其目标为从单一图像能够自动生成材料纹理。研究成果详见 SIGGRAPH, 36(4), 2017

第三是 animation。其目标为自动设计具有所需行为的软气动机器人。研究成果详见 SIGGRAPH,36(6), 2017

童欣博士认为依据几何知识、物理计算和优化、以及数据和机器学习模型，完全可以实现智能地高质量内容创作。当然这条路还很漫长，离终端用户能够创作高质量图像内容还有很长的路要走。

3、Computer Graphics 2.0: towards end-user-generated 3D content

浙江大学的周昆教授，是教育部长江学者特聘教授，IEEE Fellow。研究领域包括计算机图形学、人机交互、虚拟现实和并行计算。

周昆教授的与前面童欣博士的研究类似，他认为在海量互联网数据、传感器技术、以及 VR/AR 和 3D 打印等新兴应用的推动下，计算机图形学的研究正在进入一个新的时代：每一个人在日常生活中都能够创作属于自己的视觉内容。

在这个报告中周昆教授举了三个案例。

案例一：Digital Avatar。在电影《阿凡达》中，依靠 CG 技术，阿凡达可以拥有真实的面孔和头发；然而在一些交互应用（例如游戏）中，几乎没有这样的特效。周昆教授所带领的团队在 13-16 年间连续发表了多篇文章，探讨了如何自动生成真实面孔以及如何从单张图片中自动生成动态的头发模型。

案例二：基于模型的 RGBD 图像。根据单张 RGBD 图像自动生成相应场景的数字化模型。

案例三：Computational Fabrication。如何将数字模型变得更为真实呢？在已知数字化模型的基础上，可以通过 3D 打印的方法获得物理模型。周昆教授团队受到传统上色工艺的启发，采用仿真等方法将数字模型中的表面图像转化为二维纹理，随后可以使用相关的技术可以将图像贴到 3D 打印物体上，构建出生动的物理模型。

周昆教授认为，未来图像研究主要有三个大的研究方向。首先是输入，将沿着从点、网格、图像、视频、深度等方向发展；其次是输出，将沿着数字化到实体化的方向发展；另外一个是应用，将从电影走向游戏、APPs、VR/AR 以及 3D 打印等。这需要计算机图形学、计算机视觉和数字制造三个领域的相互结合。

4、Analysis and Understanding of Big Visual Data

自动化所王亮研究员是模式识别国家重点实验室副主任，主要研究领域是模式识别、计算机视觉、大数据分析等。

在报告中，王亮研究员针对视觉大数据整个领域的研究做了一个综述性的介绍。

视觉信息对人类至关重要，随着设备的改进，视觉数据出现爆发式增长，表现为数据总量巨大、类别跨度多样、性质异质性高以及质量不一。这也带来了一系列的挑战，例如如何获取、如何建模、如何计算以及如何使用等，此外还有模糊、多视角、多尺度、遮掩等多样的问题。

在整个视觉大数据的分析中，主要有三个大问题：大规模数据集、大规模视觉计算、平台和应用。

针对大规模数据集，目前有包括 ImageNet、Microsoft COCO、Google YouTube-8M、Kinetics、Visual Question Answering（VQA）、NLPR Object Tracking、CRIPAC Pedestrian Attribute、Gait Dataset 等数据集，各个数据集都有自己的针对方向和领域。

针对大规模视觉计算，则主要包括物体检测和分割、物体识别和检索、运动/行为分析、场景理解、视觉语言（Vision by Language）等。

针对平台和应用，王亮研究员介绍了视觉图灵测试、DIG（数据智能收集）、ISEE（智能场景演化和探索）、SIR（smart identity recognition）以及一些计算机视觉相关的公司现状。

他总结到，现在计算机视觉已经在许多领域取得了长足的进展，但是计算机视觉相比于人类视觉还有很大差距，未来的工作需要进行一下探索：