所提出的线段检测过程由四个阶段组成: (1) 图像特征提取:输入图像,从CNN主干网络获得图像降维后的特征图 x ∈ RH×W ×C。将图像特征与位置嵌入连接起来以获得空间关系。 (2) 图像特征编码:然后,按照标准 Transformer 编码架构,通过多头自注意力模块和前馈网络模块将展平后的特征图 x ∈ RHW ×C 编码为 x′ ∈ RHW ×C。 (3) 线段检测:在 Transformer 解码器网络中,N 个可学习的线实体 l ∈ RN×C 通过交叉注意模块与编码器输出交互。 (4) 线段预测:线实体通过构建在Transformer解码器之上的两个预测头进行线段预测。线坐标由多层感知器(MLP)预测,预测置信度由线性层评分。
自注意力和交叉注意力
```