Dilated Neighborhood Attention Transformer

Abstract

论文提出 空洞领域注意力 DiNA（Dilated Neighborhood Attention）

痛点：现有 Transformer 模型使用局部注意力机制，虽降低了自注意力的平方复杂度，但也削弱了自注意力的两个重要属性

远程相互依赖建模 long range inter-dependency modeling
全局感受野 global receptive field

NA 的局部注意力和 DiNA 的稀疏全局注意力相辅相成

捕获更多的全局上下文信息，指数级地扩展感受野

Introduction

自从 Transformer 在 nlp 领域取得显著成果后，图像领域受到启发，将基于注意力的模型应用于图像任务中。

Vision Transformer

Vision Transformer (ViT) 使用 Transformer 在视觉任务中替代卷积神经网络（CNN）。ViT 将图像视为一系列 patch ，使用普通的 Transformer 编码器对图像进行编码和分类。作为 CNN 的竞争对手， Transformer 在大规模图像分类方面展示出竞争力。

CNN 使用下采样逐渐将输入图像，构造出金字塔结构的特征图。这样的分层结构（特征图）至关重要，因为对象的尺度各不相同。

Transformer 则以规定的维度输出数据，因此，ViT 从一开始就积极地对输入进行下采样，以减轻 self attention 的平方成本。这便阻碍了将 ViTs 作为密集视觉任务的主干网络。

Swin Transformer

Neighborhood Attention Transformer

自注意力

Vaswani 将 点积注意力 定义为查询和一组 键值对 之间的操作。将点积进行缩放，再通过 softmax 激活函数得到 注意力权重。

$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

$\begin{equation} \label{eq21} A_{i}^{k}=\left[ \begin{matrix} Q_{i}K_{\rho_{1}(i)}^{T}+B_{({i,\rho_{1}(i)})}\\ Q_{i}K_{\rho_{2}(i)}^{T}+B_{({i,\rho_{2}(i)})}\\ \vdots\\ Q_{i}K_{\rho_{k}(i)}^{T}+B_{({i,\rho_{k}(i)})}\\ \end{matrix} \right] \end{equation}$

局部注意力

Stand-Alone Self Attention (SASA)

Shifted Window Self Attention (SWSA)

Neighborhood Attention (NA)

稀疏注意力

Method

代码

Reqirements

Python 3.8
Pytorch 1.11
timm
fvcore