当前位置：首页 > news >正文

【CVPR2024】计算机视觉|EGTR : Transformer中挖掘关系图，场景图生成SOTA！

news 2025/7/2 8:57:35

论文地址：http://arxiv.org/pdf/2404.02072v5
代码地址：https://github.com/naver-ai/egtr

关注UP CV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。
https://space.bilibili.com/473764881

摘要

本研究旨在解决场景图生成（SGG）这一具有挑战性的任务，即检测对象并预测对象之间的关系。在DETR开发之后，基于单阶段对象检测器的单阶段SGG模型得到了积极的研究。然而，现有方法使用复杂的建模来预测对象之间的关系，而忽略了对象检测器的多头自注意力中学习到的对象查询之间的内在关系。本研究提出了一种轻量级的单阶段SGG模型，该模型从DETR解码器的多头自注意力层中学习到的各种关系中提取关系图。通过充分利用自注意力副产品，可以使用浅层关系提取头有效地提取关系图。考虑到关系提取任务对对象检测任务的依赖性，本研究提出了一种新颖的关系平滑技术，该技术根据检测到的对象的质量自适应地调整关系标签。通过关系平滑，模型根据连续的课程进行训练，该课程在训练开始时侧重于对象检测任务，并随着对象检测性能的逐渐提高而执行多任务学习。此外，本研究提出了一种连接性预测任务，该任务预测对象对之间是否存在关系，作为关系提取的辅助任务。本研究在Visual Genome和Open Image V6数据集上证明了本方法的有效性和效率。

引言

本研究旨在解决场景图生成(SGG)中的对象关系预测问题。SGG旨在从图像中识别对象并预测它们之间的关系，构建图像的结构化表示，这对于图像理解和推理至关重要，并能支持图像描述、图像检索和视觉问答等多种视觉任务。

目前，SGG方法主要分为两阶段和一阶段模型。两阶段模型先检测对象，然后预测关系，但计算成本高，且对象检测的错误会传播。一阶段模型同时进行对象检测和关系预测，提高了效率。现有的一阶段模型常采用基于三元组的方法，即将关系表示为“主体-谓词-客体”三元组。然而，一些模型需要复杂的三元组检测器，另一些则忽略了没有关系的对象，导致无法生成完整的场景图。

为了克服现有模型的缺点，本研究关注对象检测器中对象之间固有的关系。研究观察到，对象之间存在关联性，例如，场景中出现马时，很可能也会出现人。受此启发，以及现有研究中建模对象间关系或上下文有利于对象检测的观点，最新的单阶段对象检测器已采用自注意力机制隐式地建模对象查询之间的关系。本研究假设，单阶段对象检测器中学习到的对象查询间的自注意力可能包含预测三元组输出的宝贵信息。初步研究表明，通过简单地连接预训练DETR中具有高注意力权重的两个对象查询，可以提取出合理的注意力图，这表明对象查询之间的注意力权重可以解释为它们之间的关系。

基于这些发现，本研究提出了一种轻量级的一阶段场景图生成器 EGTR（Extracting Graph from TRansformer）。该模型旨在充分利用对象检测器的副产品，无需单独的三元组检测器。从对象检测器的多头自注意力层中，将注意力查询和键分别视为主体实体和客体实体，它们的关系在注意力权重中学习。然后，使用一个浅层分类器来预测它们之间的关系。由于来自所有自注意力层的副产品中都存在关于对象之间关系的丰富信息，因此可以有效地提取场景图。

考虑到关系提取任务依赖于对象检测任务，本研究推测，在没有充分学习对象查询的表征的情况下执行关系提取可能是有害的。因此，本研究设计了一种新的自适应平滑技术，该技术基于对象检测性能平滑ground truth关系标签的值。通过自适应平滑，模型通过一个连续的课程进行训练，该课程最初侧重于对象检测，然后逐渐执行多任务学习。此外，本研究提出了一种连接性预测任务作为关系提取的辅助任务，旨在预测主体实体和客体实体之间是否存在任何关系。该辅助任务有助于获取关系提取的表征。

论文创新点

本研究提出了一种名为EGTR（Extracting Graph from TRansformer）的轻量级单阶段场景图生成模型，该模型通过有效利用DETR解码器中多头自注意力层的副产品来生成场景图，从而显著降低了模型复杂度。

💡 利用对象检测器中对象之间固有的关系： 💡
- 以往的研究通常需要复杂的建模来预测对象之间的关系，而忽略了对象检测器多头自注意力中学习到的对象查询之间的内在关系。
- 本研究假设，在单阶段对象检测器中学习到的对象查询之间的自注意力可能包含预测三元组输出的有价值信息，通过将注意力查询和键分别视为主体和客体，并使用浅层分类器预测它们之间的关系，有效提取场景图。
⚙️ 新颖的自适应平滑技术： ⚙️
- 鉴于关系提取任务对对象检测任务的依赖性，本研究设计了一种自适应平滑技术，根据对象检测的性能来调整ground truth关系标签的值。
- 通过自适应平滑，模型在训练初期侧重于对象检测，并随着对象检测性能的逐渐提高而执行多任务学习，从而实现了有效的多任务学习。
🔗 连接性预测任务的提出： 🔗
- 本研究提出了连接性预测任务，作为关系提取的辅助任务。该任务旨在预测主体和客体之间是否存在任何关系，从而促进了关系提取表示的获取。
- 通过预测对象对之间是否存在关系，本研究为关系提取提供了额外的线索，进一步提升了模型的性能。
📊 实验验证及结果： 📊
- 本研究通过在Visual Genome和Open Images V6两个代表性的SGG数据集上进行的大量实验验证了所提出方法的有效性和效率。
- 结果表明，EGTR在参数最少、推理速度最快的情况下，展现了最佳的对象检测性能和具有竞争力的三元组检测性能。这证明了本研究提出的模型框架和训练技术的优越性。