X. Zhong, W. Kuang, and Z. Li, “Adaptive graph reasoning network for object detection,” Image and Vision Computing, vol. 151, p. 105248, Nov. 2024, doi: 10.1016/j.imavis.2024.105248.
https://www.sciencedirect.com/science/article/abs/pii/S0262885624003536
【摘要】近年来,基于Transformer的目标检测取得了突破性的进展。然而,这些方法仍然面临着一些问题,例如难以检测重遮挡物体和微小物体。此外,主流的目标检测范式通常只处理区域建议,而没有考虑上下文信息和物体之间的关系,这导致改进有限。在本文中,我们提出了一种自适应图推理网络(AGRN),它探索图像中特定物体之间的关系,并通过图卷积网络(GCN)挖掘高级语义信息来丰富视觉特征。首先,为了增强物体之间的语义相关性,我们提出了一种跨尺度语义感知模块,以实现不同尺度特征图之间的语义交互,从而获得跨尺度语义特征。其次,我们激活图像中的实例特征,并将其与跨尺度语义特征结合起来创建动态图。最后,在特定语义的指导下,引入注意力机制来关注相应的关键区域。在MS-COCO 2017数据集上,与基线模型相比,我们的方法分别将目标检测和实例分割的性能提高了3.9% box AP和3.6% mask AP。
【关键字】目标检测;语义关系;关系挖掘;特征增强;关系图推理
1 引言
- 目标检测是计算机视觉中的基础任务,它要求识别图像中的物体并准确定位它们的位置。这项任务对于自动驾驶、视频监控和人机交互等领域至关重要。
- 深度学习方法在目标检测中取得了显著进展,例如基于CNN和Transformer的方法。然而,现有方法通常只关注单个区域建议,忽略了物体之间的上下文信息和关系,这限制了性能提升。例如,在检测重遮挡物体和微小物体时,现有方法可能存在困难。
- 本文提出了一种自适应图推理网络(AGRN),旨在解决上述问题。AGRN通过探索物体之间的关系和挖掘高级语义信息来丰富视觉特征,从而提高目标检测的性能。具体来说,AGRN利用跨尺度语义感知模块、动态关系图推理和语义注意力融合模块来实现这一目标。
2 相关工作
- 目标检测: 目标检测方法可以分为单阶段和两阶段两种。单阶段方法直接在图像上进行预测,例如YOLO系列;两阶段方法首先生成区域建议,然后对区域建议进行预测,例如R-CNN系列。本文选择两阶段的Cascade mask R-CNN作为基线模型,因为它在保持较高检测精度的同时,也具有较高的检测速度。
- 物体之间的关系: 现有关系建模方法通常基于区域建议或静态图进行,存在一些局限性。例如,基于区域建议的图构建可能无法准确反映物体之间的关系,而基于静态图的语义信息传播可能无法适应特定图像的特点。
- 全局上下文信息: 全局上下文信息对于目标检测至关重要,因为它可以帮助模型更好地理解场景。现有方法主要利用注意力机制和特征图多尺度融合来获取全局上下文信息。
3 方法
- 多尺度特征提取: 为了更好地处理不同尺度的物体,AGRN使用PVT v2网络提取图像的多尺度特征。PVT v2网络是一个基于Transformer的骨干网络,它可以有效地提取图像特征,并生成不同尺度的特征图。
- 跨尺度语义感知模块 (CSSAM): CSSAM通过可学习的卷积操作实现不同尺度特征图之间的语义交互。具体来说,CSSAM首先使用全局平均池化操作将特征图转换为向量表示,然后使用1x1卷积操作融合不同尺度的语义信息,最终得到跨尺度语义特征。
- 动态关系图推理 (DRGR): DRGR基于跨尺度语义特征和激活的类别信息构建动态关系图,并使用GCN进行关系推理,获得特定物体的语义表示。具体来说,DRGR首先使用可学习的卷积操作激活类别信息,然后使用1x1卷积操作生成关系矩阵,最后使用GCN进行关系推理,得到增强的语义表示。
- 语义注意力融合模块 (SAFM): SAFM利用注意力机制将语义信息与视觉特征进行融合,并增强关键区域的信息。具体来说,SAFM首先使用Hadamard积计算特征图和语义表示之间的注意力值,然后使用类映射计算特定图像的注意力因子,最后将注意力因子与特征图进行Hadamard积,并使用1x1卷积进行编码,得到增强的特征图。
4 实验
- 数据集和评估指标: 本文在MS-COCO 2017和PASCAL VOC数据集上进行实验,并使用COCO AP、AR和AP50作为评估指标。
- 实现细节: 介绍了实验环境、基线模型和训练参数。
- 实验结果: 在MS-COCO 2017数据集上,AGRN相对于基线模型在所有指标上均取得了显著的提升,并在PASCAL VOC数据集上也取得了较好的性能。此外,消融实验证明了AGRN各个模块的有效性。
- 定性分析: 通过可视化实验结果,展示了AGRN在检测模糊、微小和遮挡物体方面的优势。
- 错误分析: 分析了AGRN在不同类型错误上的改进,例如定位精度和背景错误。
5 结论
- 本文提出了一种自适应图推理网络(AGRN),通过挖掘物体之间的关系和语义信息来提高目标检测的性能。
- 实验结果表明,AGRN在MS-COCO 2017和PASCAL VOC数据集上均取得了显著的性能提升。
- 未来工作将探索跨域语义依赖关系,进一步提高模型的性能和泛化能力。