Zero-Shot Text-to-Image Generation

PMLR 📆 2021-7-1

Abstract

文本到图像的生成历来侧重于寻找更好的建模假设,以便在固定数据集上进行训练。 这些假设可能涉及复杂的架构、辅助损失,或在训练过程中提供的对象部分标签或分割掩码等辅助信息。 我们介绍了一种简单的方法,该方法基于一个转换器,可将文本和图像标记作为单一数据流进行自回归建模。 在有足够数据和规模的情况下,我们的方法在以零镜头方式进行评估时,与以前的特定领域模型相比具有很强的竞争力。

Introduction

Methods

目标是训练一个能够将文本和图像 token 标记作为单一数据流进行自回归建模的 Transformer 。 然而,直接使用像素作为图像 token 将需要大量的内存来存储高分辨率图像。 似然目标倾向于优先考虑对像素之间的短程依赖性进行建模,因此大部分建模能力将用于捕获高频细节, 而不是视觉上可识别的低频结构。

训练过程分为两阶段:

  • 第一阶段:训练一个离散变分自编码器,将每个 256✖️256 的图像压缩为 32✖️32 的视觉 token 网格, 其中的每一个元素可以假设 8192 个可能的值。这将 Transformer 的上下文大小减少了 192 倍,而视觉质量没有大幅下降。

  • 第二阶段:将最多 256 个 BPE 编码的文本 token 与 32✖️32🟰1024 个图像 token 连接起来, 并训练自回归 Transformer 来对文本和图像 token 上的联合分布进行建模。