Deformable Transformer 详解
基本概念
Deformable Transformer(可变形Transformer)是标准Transformer架构的一种变体,主要用于处理计算机视觉任务中的几何变形问题。它在2020年由微软亚洲研究院提出,旨在解决传统Transformer在处理视觉数据时的一些局限性。
与标准Transformer的区别
-
标准Transformer的局限性:
- 标准Transformer使用全局注意力机制,计算复杂度高
- 对每个位置的特征都平等对待,缺乏对重要区域的关注
- 缺乏对几何变形的显式建模能力
-
Deformable Transformer的改进:
- 引入可变形注意力机制,只关注参考点周围的关键区域
- 能够自适应地学习目标的几何变形
- 大幅降低计算复杂度,提高处理效率
可变形注意力机制的核心思想
Deformable Transformer的核心是可变形注意力模块,它通过以下方式工作:
-
参考点(Reference Points)