Dilated Neighborhood Attention Transformer

Abstract

论文提出 空洞领域注意力 DiNA(Dilated Neighborhood Attention)

痛点:现有 Transformer 模型使用局部注意力机制,虽降低了自注意力的平方复杂度,但也削弱了自注意力的两个重要属性

  1. 远程相互依赖建模 long range inter-dependency modeling
  2. 全局感受野 global receptive field

NA 的局部注意力和 DiNA 的稀疏全局注意力相辅相成

捕获更多的全局上下文信息,指数级地扩展感受野

Introduction

自从 Transformer 在 nlp 领域取得显著成果后,图像领域受到启发,将基于注意力的模型应用于图像任务中。

Vision Transformer

Vision Transformer (ViT) 使用 Transformer 在视觉任务中替代卷积神经网络(CNN)。ViT 将图像视为一系列 patch ,使用普通的 Transformer 编码器对图像进行编码和分类。作为 CNN 的竞争对手, Transformer 在大规模图像分类方面展示出竞争力。

CNN 使用下采样逐渐将输入图像,构造出金字塔结构的特征图。这样的分层结构(特征图)至关重要,因为对象的尺度各不相同。

Transformer 则以规定的维度输出数据,因此,ViT 从一开始就积极地对输入进行下采样,以减轻 self attention 的平方成本。这便阻碍了将 ViTs 作为密集视觉任务的主干网络。

Swin Transformer

Neighborhood Attention Transformer

自注意力

Vaswani 将 点积注意力 定义为 查询 和一组 键值对 之间的操作。将点积进行缩放,再通过 softmax 激活函数得到 注意力权重

局部注意力

Stand-Alone Self Attention (SASA)

Shifted Window Self Attention (SWSA)

Neighborhood Attention (NA)

稀疏注意力

Method

代码

Reqirements

  • Python 3.8
  • Pytorch 1.11
  • timm
  • fvcore