LETR

所提出的线段检测过程由四个阶段组成： (1) 图像特征提取：输入图像，从CNN主干网络获得图像降维后的特征图 x ∈ RH×W ×C。将图像特征与位置嵌入连接起来以获得空间关系。 (2) 图像特征编码：然后，按照标准 Transformer 编码架构，通过多头自注意力模块和前馈网络模块将展平后的特征图 x ∈ RHW ×C 编码为 x′ ∈ RHW ×C。 (3) 线段检测：在 Transformer 解码器网络中，N 个可学习的线实体 l ∈ RN×C 通过交叉注意模块与编码器输出交互。 (4) 线段预测：线实体通过构建在Transformer解码器之上的两个预测头进行线段预测。线坐标由多层感知器（MLP）预测，预测置信度由线性层评分。

自注意力和交叉注意力

```