Zero-Shot Text-to-Image Generation

PMLR 📆 2021-7-1

Abstract

文本到图像的生成历来侧重于寻找更好的建模假设，以便在固定数据集上进行训练。这些假设可能涉及复杂的架构、辅助损失，或在训练过程中提供的对象部分标签或分割掩码等辅助信息。我们介绍了一种简单的方法，该方法基于一个转换器，可将文本和图像标记作为单一数据流进行自回归建模。在有足够数据和规模的情况下，我们的方法在以零镜头方式进行评估时，与以前的特定领域模型相比具有很强的竞争力。

Introduction

Methods

目标是训练一个能够将文本和图像 token 标记作为单一数据流进行自回归建模的 Transformer 。然而，直接使用像素作为图像 token 将需要大量的内存来存储高分辨率图像。似然目标倾向于优先考虑对像素之间的短程依赖性进行建模，因此大部分建模能力将用于捕获高频细节，而不是视觉上可识别的低频结构。

训练过程分为两阶段：

第一阶段：训练一个离散变分自编码器，将每个 256✖️256 的图像压缩为 32✖️32 的视觉 token 网格，其中的每一个元素可以假设 8192 个可能的值。这将 Transformer 的上下文大小减少了 192 倍，而视觉质量没有大幅下降。
第二阶段：将最多 256 个 BPE 编码的文本 token 与 32✖️32🟰1024 个图像 token 连接起来，并训练自回归 Transformer 来对文本和图像 token 上的联合分布进行建模。