Attention Is All You Need

NIPS 📆 2017

大多数有竞争力的神经序列转导模型具有编码器-解码器结构。

一个 attention 函数可以描述为将一个查询和一组键值对映射为输出。输出通过每个值的加权和计算得出，其中分配给每个值的权重由查询和对应键的一致性函数计算得出。

Transformer 是一个 sequence-to-sequence 模型，一个序列进来，一个序列出去。

The Transformer - model architecture.

学习远程依赖是许多序列建模任务中的一个关键挑战。

那为何加了位置编码就能获取数据间位置的特征呢？在self-attention的结构中，在对每维数据计算权重时，是采用点积的形式，本质上就是计算向量之间的相关性。而位置编码将临近的数据加上频率接近的位置编码，就是增加了相邻数据的相关性。

self-attention是BERT的重要思想，其与位置编码结合，解决了文本数据的时序相关性的问题，从而一举结束了依靠RNN、LSTM、GRU等之前一直用来解决时序问题的网络模型。

References