AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

本文作者：我在思考中

2022-10-10 09:29

导语：支持文本、图像、草图、给定模型等多种输入查询。

作者 | 李梅

编辑 | 陈彩娴

最近的生成式 AI 可谓十分火爆，新出的预训练图像生成模型多到让人目不暇接。无论是肖像、风景，还是卡通漫画、特定艺术家风格元素等等，每个模型都有它擅长生成的内容。

这么多模型里面，如何快速找到一个能满足自己创作欲的最佳模型呢？

近日，卡内基梅隆大学的助理教授朱俊彦等人首次提出了基于内容的模型搜索算法，让你能够一键搜索出最匹配的深度图像生成模型。

论文地址：https://arxiv.org/pdf/2210.03116.pdf

在团队基于这套模型搜索算开发的在线模型共享和搜索平台 Modelverse 上，你可以输入文本、图像、草图和给定模型，来搜索出最匹配或相似的相关模型。

Modelverse 平台地址：https://modelverse.cs.cmu.edu/

图注：输入文本（如“非洲动物”）、图像（如一张风景图）、草图（如一只站立的猫的草图）或者一个给定模型，输出排名靠前的相关模型（第二行、第三行）

比如，输入文本“face”，得到结果如下：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

输入一只猫咪图像：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

输入一匹马的草图：

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

基于内容的模型搜索

和传统的多媒体搜索一样，模型搜索能够帮助用户找到最适合其特定需求的模型。但基于内容的模型搜索任务有其特殊难点：

判断模型是否可以生成特定图像，这是一个比较难计算的问题，而且很多深度生成模型并没有提供有效方法来估计密度，其本身也不支持评估跨模态相似性。而蒙特卡洛这种基于抽样的方法又会使模型搜索过程变得非常缓慢。

为此，朱俊彦团队提出了一种新的模型搜索系统。

每个生成模型都会产生一个图像分布，所以作者将搜索问题处理为优化，以最大化在给定模型的情况下生成与查询匹配的概率。如下图所示，该系统由预缓存阶段（a，b）和推理阶段（c）组成。

图注：模型搜索方法概览

给定一组模型，（a）首先为每个模型生成 50K 样本；(b) 然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据缓存在系统中以提高效率；(c) 在推理阶段，支持不同模态的查询，包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入近似值，查询被编码为特征向量，通过评估查询特征与每个模型统计数据之间的相似性，来检索具有最佳相似性度量的模型。

模型搜索效果

作者对算法进行评估，对 133 个深度生成模型（包括 GAN、扩散模型和自回归模型）进行了消融实验分析。与蒙特卡洛基线相比，该方法可以实现更高效的搜索，速度在 0.08 毫秒内，提升 5 倍，同时还能保持高精度。

通过对比模型检索结果，我们也可以大致了解针对不同查询输入，哪些模型能生成质量更高的图像。比如下图展示了模型检索的结果对比。

图注：模型检索结果示例

最上面一行是图像查询，输入静物画，检索相关艺术风格的模型，得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中间行是草图查询，输入马和教堂的草图，得到 ADM、ProGAN 等模型。最下面一行是文本查询，输入“戴眼镜的人”和“说话的鸟”，分别检索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者还发现，不同网络特征空间的模型性能存在差异。如下图所示，在输入图像查询时，结果显示三个网络 CLIP、DINO 和 Inception 都具有相似的性能；而在输入草图查询时，CLIP 效果明显更好，而 DINO 和 Inception 则不太适合给定查询，它们在艺术风格的模型上表现更好。