TOC
KINA

KINA-0

Start having fun with KINA right now!

显著目标检测:Scribble-based complementary graph reasoning network for weakly supervised salient object detection

CGRNet(弱监督)

S. Liang, Z. Yan, C. Xie, H. Zhu, and J. Wang, “Scribble-based complementary graph reasoning network for weakly supervised salient object detection,” Comput. Vis. Image Underst., vol. 243, p. 103977, 2024, doi: 10.1016/J.CVIU.2024.103977.

本文提出了一种名为 CGRNet 的新型网络,用于弱监督下的显著性目标检测。该网络通过构建图表示来全局推理显著性区域之间的关系,从而有效利用稀疏的涂鸦标注。CGRNet 包含三个主要模块:图推理网络 (GIN)、边缘导向模块 (EOM) 和多引导显著性预测模块。GIN 利用图推理捕获像素之间的长距离依赖关系,EOM 显式地提取显著性目标的边界特征,而多引导显著性预测模块则通过密集融合策略 (DFS) 聚合多源语义信息,以获得完整的全局信息。实验结果表明,CGRNet 在五个基准数据集上取得了优异的性能,并在弱监督显著性目标检测方面取得了显著的进展。

主要特点:

  1. 互补图推理网络 (GIN)
    双流交叉交互图推理管道: 分别处理边缘特征和显著特征,并使用图合作单元 (GCU) 进行交互,从而增强彼此的语义信息。
    GCU: 通过矩阵乘法建立边缘图和显著图之间的关系,并实现语义信息的交叉转换。
    图卷积: 对交互后的图表示进行卷积操作,进一步传播信息并增强图表示。
    图重投影: 将学习到的图表示重新投影回二维空间,并与原始特征图融合,保留空间信息。
  2. 边缘导向模块 (EOM)
    提取边界信息: 从边缘特征中提取边界线索,并通过 RCAB 块增强网络对边缘区域的关注。
    Canny 边缘检测器: 用于从输入图像中显式提取边缘信息,并与 FCAM_e 融合,抑制噪声并生成鲁棒的边缘特征。
  3. 多指导显著度预测模块
    多指导融合策略 (DFS): 将图表示、粗略显著图和边缘特征进行密集融合,逐步恢复显著目标的整体轮廓。
    ASPP: 用于扩大网络的感受野范围,而不降低输入图像的分辨率。

损失函数:

  • 部分交叉熵损失 (𝐿𝑝𝑐𝑒): 用于粗略显著图和细化显著图。
  • 局部显著度一致性损失 (𝐿𝑙𝑠𝑐): 用于促进邻近区域和相似颜色的像素共享相同的显著度标签。
  • 边缘预测损失 (𝐿𝑒): 用于边缘图。

实验结果:

  • 性能: 在五个基准数据集上取得了最先进的性能,并与一些全监督方法相当。
  • 效率: 模型参数和速度指标优于之前的方法。
  • 可视化: 在各种场景下,CGRNet 能够准确地预测显著目标的轮廓,并有效地区分边界。

消融实验:

  • EOM 和 𝐿𝑙𝑠𝑐 的有效性: 显著提高了模型的边界定位和结构恢复能力。
  • GIN 的有效性: 有效地捕捉了像素之间的长距离依赖关系,促进了能量从标注区域向未标注区域的转移。
  • GCU 的有效性: 增强了图表示之间的语义信息交互,从而提高了预测精度。
  • DFS 的有效性: 有效地聚合了多源信息,生成了更精细的显著图。
  • 节点数量的影响: 当节点数量为 8 时,模型性能最佳。
  • 损失函数超参数 𝛼 的影响: 当 𝛼=2 时,模型性能最佳。
  • 迭代训练的效果: 单次训练已经能够很好地拟合数据集,无需迭代训练。

局限性:

  • 对非显著目标的误判: 这可能是由于标注场景的模糊性或遮挡场景的复杂性造成的。

发表评论