Dilated Neighborhood Attention Transformer
Abstract
论文提出 空洞领域注意力 DiNA(Dilated Neighborhood Attention)
痛点:现有 Transformer 模型使用局部注意力机制,虽降低了自注意力的平方复杂度,但也削弱了自注意力的两个重要属性
- 远程相互依赖建模 long range inter-dependency modeling
- 全局感受野 global receptive field
NA 的局部注意力和 DiNA 的稀疏全局注意力相辅相成
捕获更多的全局上下文信息,指数级地扩展感受野
Introduction
自从 Transformer 在 nlp 领域取得显著成果后,图像领域受到启发,将基于注意力的模型应用于图像任务中。
Vision Transformer
Vision Transformer (ViT) 使用 Transformer 在视觉任务中替代卷积神经网络(CNN)。ViT 将图像视为一系列 patch ,使用普通的 Transformer 编码器对图像进行编码和分类。作为 CNN 的竞争对手, Transformer 在大规模图像分类方面展示出竞争力。
CNN 使用下采样逐渐将输入图像,构造出金字塔结构的特征图。这样的分层结构(特征图)至关重要,因为对象的尺度各不相同。
Transformer 则以规定的维度输出数据,因此,ViT 从一开始就积极地对输入进行下采样,以减轻 self attention 的平方成本。这便阻碍了将 ViTs 作为密集视觉任务的主干网络。
Swin Transformer
Neighborhood Attention Transformer
Related Work
自注意力
Vaswani 将 点积注意力 定义为 查询 和一组 键值对 之间的操作。将点积进行缩放,再通过 softmax 激活函数得到 注意力权重。
局部注意力
Stand-Alone Self Attention (SASA)
Shifted Window Self Attention (SWSA)
Neighborhood Attention (NA)
稀疏注意力
Method
代码
Reqirements
- Python 3.8
- Pytorch 1.11
- timm
- fvcore