作者 | 陈翔宇
本文是对国际计算机视觉会议ICCV 2021的论文“A New Journey from SDRTV to HDRTV”的解读。
论文链接:https://arxiv.org/abs/2108.07978
GitHub链接:https://github.com/chxy95/HDRTVNet
该论文由中国科学院深圳先进技术研究院与商汤科技等单位合作,针对当下HDR标准下的SDR转HDR问题进行了分析,并在此基础上提出了由全局颜色映射,局部增强以及高亮细节生成三个部分组成的解决方案。更进一步的,文章提出了一种利用图像全局统计信息的轻量级网络来实现图像自适应的颜色映射。此外,该工作构建了一个基于HDR10标准的数据集并给定了用于评价HDR重建效果的评价指标。实验表明论文提出的方法在定量指标和定性分析上显著优于当前的其他算法。随着显示技术的快速发展,HDR已经成为最新一代显示设备的特点之一。相对于SDR内容,HDR内容具有更宽的色彩空间和更高的动态范围,基于HDR-TV标准的内容能够创造出更为接近真实世界的图像和视频。尽管HDR显示设备越来越普及,然而现实生活中大部分可以获取的资源仍然是基于SDR格式的。因此,当前急需能够将SDRTV的内容转换成HDRTV的算法。SDRTV-to-HDRTV这个任务具有巨大的实际意义,然而当前研究领域却少有关注,主要有以下两个原因:一是HDRTV的相关标准规范(如HDR10,HLG等)直到近几年才逐渐确立完善;二是当前缺少大规模的数据集用于训练和测试。为了推进这一领域的发展,本文对该问题进行了分析,并提出了基础的解决方案以及一个新的数据集和相应的评价指标。本文使用SDRTV/HDRTV来分别代表对应标准下的内容,两种标准对应的规范具体见[1, 2]和[3, 4]。HDR-TV标准的基本主要元素包括宽色域(Rec.2020),HDR的光电转换函数(PQ或HLG)以及10-16比特的色深。不同于以往的LDR-to-HDR目的在于预测线性域上的HDR场景照明,SDRTV-to-HDRTV的目标是实现SDR内容到HDRTV标准下的非线性域的转换。由于在两个任务中HDR的内涵有所不同,其对应的方法也在功能性上有较大的差别。为了帮助更好地理解SDRTV-to-HDRTV任务,本文根据相机的ISP流程和HDRTV内容的制作流程给出了一个经过简化的SDRTV/HDRTV形成流程示意,如图1所示。图1. SDRTV/HDRTV 形成流程
其核心的想法在于,同一个场景的SDRTV和HDRTV版本都源自于同一个Raw数据,其在产生过程中都会经过包括色调映射、色域映射、光电转换函数以及量化等操作。只是由于两种格式本身所使用的标准规范之间的差别,导致其在具体操作上了使用不同的函数以及保留的值域范围不同,最终造成了两个版本内容在色域范围,动态范围以及色深上的差异。因此,相较于将SDRTV-to-HDRTV定义为一个逆问题,这个任务更像是一个图像到图像的转换问题。在这个基础上,SDRTV到HDRTV需要解决的问题主要分为三个方面:一是由形成过程中两个版本使用的全局操作的不同导致的全局的颜色差异问题;二是由于形成过程中的一些局部操作以及量化等带来的局部细节的损失;三是由于SDRTV形成过程中动态范围压缩所带来的高亮区域大面积信息损失的问题。为了解决上述提到的SDRTV-to-HDRTV的三个主要问题,本文提出了一个包含全局颜色映射,局部增强以及高亮细节生成的解决方案,如图2所示。针对该解决方案,本文提出了一个包含三个深度网络的串联方法HDRTVNet如图3所示。图3. 提出的三阶段SDRTV-to-HDRTV方法HDRTVNet该方法的三个网络分别对应解决方案中的三个步骤。其中第一个网络AGCM包含两个部分,即一个用于实现颜色映射的主网络和一个用于实现图像自适应功能的条件网络。该网络仅使用了1×1卷积,其中主网络的1x1卷积结合ReLU激活函数用于实现颜色值从SDRTV域到HDRTV域的转换。对于条件网络,输入为经过下采样的SDR图像,输出一个条件向量表征输入图像的全局统计信息用于实现图像自适应地调节主网络的映射。在条件网络中,作者提出了一种由1×1卷积、全局池化、LeakyReLU和Instance Normalization组成的颜色条件模块用于高效地提取输入的全局统计信息。对于LE部分,本文使用了一个ResNet风格的网络,由一个浅层特征提取层,若干个残差块以及最后的上采样重建部分组成。对于HG部分,本文使用了一个生成对抗网络来实现高亮生成的目标,该网络的生成网络为一个带有高亮掩膜的UNet结构网络。由于当前缺少基于HDR标准的成对数据集,本文收集了一个由22个HDR10标准以及其对应SDR版本的视频所组成的数据集。其中所有的HDR视频都是基于PQ-OETF和rec.2020色域编码的。经过抽帧处理后的图像数据集包含1235张图像用于训练,117张用于测试。本文使用了PSNR、SSIM、SR-SIM、以及HDR-VDP3五个评价指标用于定量比较,实验的结果如下表1所示。与其他现有方法相比,本文的方法在参数量和图像质量评价指标上都展现出了优越性。 对于本文所提方法与其他现有方法的视觉效果比较及颜色过渡测试比较如下图4和图5所示。可以看出本文所提的方法在视觉效果上相较其他方法更接近ground truth,并且不会产生明显的artifacts,在颜色过渡测试中也表现优秀。同时本文也对提出的方法进行了消融实验,分别测试了每一阶段在定量指标和视觉效果上的作用,见表1和图4。可以看出,使用了条件网络的AGCM相比只能学习单一映射的主网络在定量指标和视觉效果上都有了明显提升。而经过LE和HG阶段的结果则能在定量指标上得到进一步提升。此外,本文还使用了一种通过可视化SDR到HDR颜色映射的方法来分析不同阶段所起到的作用,如下图6所示。图中的每一个3D LUT反应了输入图像的SDR颜色在经过对应映射后在HDR域上的分布情况。可以看出,经过AGCM的映射相比只有一个主网络而没有图像自适应能力的网络得到的映射在颜色分布上更加均匀,反映在图像的视觉效果上是颜色过渡更为自然,消除了artifacts。而相对于AGCM得到的映射,经过LE和HG阶段的映射颜色分布则更为均匀稠密,证明了这两步能够进一步加强细节的恢复和生成。 图6. SDRTV-to-HDRTV颜色映射可视化分析值得注意的是,本文在补充材料里提供了更多对于该任务的分析以及实验结果。其中,本文通过直接使用LE进行端到端学习与使用AGCM+LE的串联方式得到的结果进行了对比,如下表2和图7所示。即使使用简单的3层3×3卷积作为LE网络,AGCM部分的存在依然能够在定量指标和视觉质量上大幅超越直接使用一个端到端网络直接学习的方式,进一步地证明了在该任务中先处理全局颜色映射的有效性及必要性。
表2. LE和AGCM+LE的定量指标比较
图7. LE和AGCM+LE的视觉效果比较
本文对SDRTV-to-HDRTV这一任务进行了分析,提出了一个包括全局颜色映射、局部增强和高亮生成三个步骤的解决方案,并针对每一个步骤设计了相应的网络,提出的方法在定量指标和视觉效果上都大幅超出了现有的解决方法。此外,该工作提出了一个基于HDR10标准的数据集,我们相信它可以很好地促进该领域的发展。参考文献:
[1] ITU-R. Reference electro-optical transfer function for flat panel displays used in hdtv studio production. Technical report, ITU-R Rec, BT.1886, 2011.[2] ITU-R. Parameter values for the hdtv standards for production and international programme exchange. Technical report, ITU-R Rec, BT.709-6, 2015.[3] ITU-R. Parameter values for ultra-high definition television systems for production and international programme exchange. Technical report, ITU-R Rec, BT.2020-2, 2015.[4] ITU-R. Image parameter values for high dynamic range television for use in production and international programme exchange. Technical report, ITU-R Rec, BT.2100-2, 2018.雷锋网雷锋网雷锋网
雷峰网版权文章,未经授权禁止转载。详情见转载须知。