Multi-Source Uncertainty Mining for Deep Unsupervised Saliency Detection


Yifan Wang1 , Wenbo Zhang1 , Lijun Wang1*, Ting Liu3 , Huchuan Lu1,2

1 Dalian University of Technology, 2 Peng Cheng Laboratory, 3 Alibaba Group


[CVPR 2022]


  Abstract  

Deep learning-based image salient object detection (SOD) heavily relies on large-scale training data with pixelwise labeling. High-quality labels involve intensive labor and are expensive to acquire.

In this paper, we propose a novel multi-source uncertainty mining method to facilitate unsupervised deep learning from multiple noisy labels generated by traditional handcrafted SOD methods. We design an Uncertainty Mining Network (UMNet) which consists of multiple Merge-and-Split (MS) modules to recursively analyze the commonality and difference among multiple noisy labels and infer pixel-wise uncertainty map for each label. Meanwhile, we model the noisy labels using Gibbs distribution and propose a weighted uncertainty loss to jointly train the UMNet with the SOD network. As a consequence, our UMNet can adaptively select reliable labels for SOD network learning.

Extensive experiments on benchmark datasets demonstrate that our method not only outperforms existing unsupervised methods, but also is on par with fullysupervised state-of-the-art models.

基于深度学习的图像显著性目标检测 (SOD) 严重依赖像素化标记的大规模训练数据。高质量的标签需要密集的劳动力,而且获取成本很高。

本文提出了一种新的多源不确定性挖掘方法,以促进对由传统手工制作的 SOD 方法产生的多个噪声标签的无监督深度学习。本文设计了一个不确定性挖掘网络 (UMNet),该网络由多个 Merge-and-Split (MS) 模块组成递归分析多个噪声标签之间的共性和差异,并为每个标签推断像素级的不确定性地图。同时,本文使用 Gibbs 分布对噪声标签进行建模,并提出加权不确定性损失来与 SOD 网络联合训练 UMNet。因此,UMNet 可以自适应地为 SOD 网络学习选择可靠的标签

在基准数据集上的大量实验表明,本文的方法不仅优于现有的无监督方法,而且与完全监督的最先进的模型相当。

  1. Introduction  

On the one hand, driven by the strong model capacity of deep networks, CNN based SOD methods have achieved remarkable success. However, they heavily rely on large amounts of training data with pixel-wise annotations, which are labor-intensive and expensive to acquire. On the other hand, handcrafted SOD methods are more flexible to the data annotations, but they are fragile in practice due to the limitations of manually designed image features and priors.

背景:一方面,深度网络模型严重依赖大量带有像素级注释的训练数据,这是劳动密集型和昂贵的获取。另一方面,手工制作的 SOD 方法对数据标注更灵活,但由于手工设计的图像特征和先验的限制,在实践中很脆弱。

With the above concern, one research topic termed deep unsupervised SOD [20,38,40,43] has been activated, which focuses on training the deep SOD networks using the noisy pseudo labels generated by traditional handcrafted SOD methods. Directly training networks using the noisy labels is not a wise choice since the deep network can easily fit to the corrupted labels [37]. One straightforward solution is first performing label refinement and then using the refined labels for network training [20]. Another popular line [38, 40, 43] devotes to modeling the noise of the pseudo labels. While promising results have been delivered, it is still an open problem to model the noisy labels and find the reliable ones in an unsupervised learning manner.

现有算法不足:

基于上述考虑,一项名为深度无监督 SOD 的研究课题被激活,其重点是使用传统的 SOD 方法生成的噪声伪标签来训练深度 SOD 网络。直接使用噪声标签训练网络不是一个明智的选择,因为深度网络可以很容易地适应这些损坏的标签 [37]。

一个简单的解决方案是首先执行标签细化,然后使用细化的标签进行网络训练 [20]。

另一种流行的方法致力于对伪标签的噪声进行建模。例如 [43] 的工作假设标签噪声服从高斯分布,并建立噪声建模模块来拟合该分布。Zhang et.al [40] 根据不同训练迭代之间网络预测的方差计算密集置信图。

虽然不错的结果已经提出,它仍然是一个开放的问题,以无监督学习方式建模噪声标签和找到可靠的标签。

Figure 1. Motivation. Given an input image (a) and its corresponding four pseudo labels generated by the traditional SOD methods (b), our UMNet predicts the uncertainty maps (f) of the pseudo labels, according to which our SODNet is learned under the supervision of the reliable labeling samples and generates promising saliency result (e). The ground truths of uncertainty maps (d) are obtained by the computing the difference between each pseudo label in (b) with the saliency ground truth (c), which are not available under the unsupervised learning setting.

In this paper, we establish a novel deep unsupervised SOD framework for effectively mining the reliable pixel-wise labels from multiple pseudo labels.

As shown in Figure 1 (b), different handcrafted methods perform diversely for the same input image since they follow different manually designed principles. Nevertheless, each of the pseudo labels contains some reliable label samples (cf . the dark region of Figure 1 (d)). Accurately identifying these reliable/certain samples is troublesome when only observing single pseudo label without any other reference. Alternatively, it becomes much feasible if we simultaneously employ multiple labels of the same image for cross reference.

Based on this insight, we design a novel Uncertainty Mining Network (UMNet) to densely capture the soft uncertainty from multi-source pseudo labels. It consists of multiple Merge-and-Split (MS) modules and infers the pixel-wise uncertainty map for each label by recursively analyzing the commonality and difference among multiple noisy labels. According to the predicted uncertainty by the UMNet, the Salient Object Detection Network (SODNet) can be learned using the reliable label samples.

本文方法:

本文建立了一种新的深度无监督 SOD 框架,以有效地从多个伪标签中挖掘出可靠的像素级标签。

如图 1 (b) 所示,对于相同的输入图像,不同的传统方法执行的结果不同,因为它们遵循不同的设计原则。然而,每一个伪标签都包含一些可靠的标签样本 (cf. 图1 (d) 的暗区)。当只观察单个伪标签而没有任何其他参考时,准确地识别这些可靠的/确定的样品是麻烦的。或者,如果同时使用同一图像的多个标签进行交叉参考,这将变得更加可行。

基于此,设计了一种新型的不确定性挖掘网络 (UMNet),从多源伪标签中密集捕获软不确定性。它由多个 Merge-and-Split (MS) 模块组成,通过递归分析多个噪声标签之间的共性和差异,推断出每个标签的像素级不确定性图。根据 UMNet 预测的不确定性,利用可靠的标签样本学习显著性目标检测网络 (SODNet)。

For network training, another concern is encountered. Considering that the ground truth of uncertainty is not available under the unsupervised setting, it may lead to a trivial solution for the UMNet optimization, e.g., all the labels are uncertain. We attack this issue by modeling the noisy labels using Gibbs distribution under the Bayesian framework and developing an uncertainty weighted loss function for end-to-end training UMNet with SODNet. As a consequence, our UMNet is able to effectively identify the reliable pseudo labels while softly filtering out those of low qualities. The selected reliable pseudo labels are employed to provide supervision on SODNet, leading to more superior performance.

对于网络训练,还会遇到另一个问题。考虑到在无监督设置下不确定性的基础真值是不可得的,这可能导致 UMNet 优化的一个平凡解,例如所有标签都是不确定的。针对这一问题,本文在贝叶斯框架下使用吉布斯分布对噪声标签进行建模,并开发了一个不确定性加权损失函数,用于端到端使用 SODNet 训练 UMNet。因此,UMNet 能够有效地识别可靠的伪标签,同时轻轻地过滤掉那些低质量的标签。采用所选的可靠伪标签对 SODNet 进行监督,从而获得更优越的性能。

The contributions of this work can be summarized into three folds as follows.

(1) We develop a novel deep unsupervised SOD paradigm which automatically learns to mine the reliable labels from noisy pseudo ones of multiple sources, leading to more effective unsupervised learning.

(2) We present a Merge-and-Split module that helps the uncertainty mining network to effectively capture the perpixel reliability of the pseudo labels by simultaneously analyzing the commonality and difference of multi-source noisy labels.

(3) We propose an uncertainty weighted loss function that models the noisy labels as Gibbs distribution in a principled way, allowing the whole networks to be jointly trained in an elegant manner without uncertainty annotations.

Experiments on popular SOD benchmark datasets show that the proposed method can effectively facilitate the SOD network learning with noisy labels and achieves the stateof-the-art performance.

贡献:

(1) 开发了一种新的深度无监督 SOD 范式,该范式可以自动学习从多个来源的噪声伪标签中挖掘出可靠的标签,从而实现更有效的无监督学习。

(2) 提出了一个 Merge-and-Split 模块,通过同时分析多源噪声标签的共性和差异,帮助不确定性挖掘网络有效地捕获伪标签的像素级可靠性。

(3) 提出了一个不确定性加权损失函数,它以一种原则性的方式将噪声标签建模为吉布斯分布,允许整个网络以一种优雅的方式联合训练。

在常用的 SOD 基准数据集上的实验表明,该方法能够有效地促进带噪声标签的 SOD 网络学习,并达到最先进的性能。

Figure 2. Overview of the proposed deep unsupervised SOD framework. Given the input image and M noisy pseudo labels, the salient object detection network (top) predicts the two-channel saliency score map including the salient foreground and background. Meanwhile, the uncertainty mining network (bottom) containing multiple merge-and-split modules takes M pseudo labels and multi-stage image features as input, and produces M dense uncertainty maps. The whole networks are jointly trained under the supervision of the uncertainty weighted loss. In practice, we adopt four handcrafted SOD methods to generate the pseudo labels, i.e. M = 4. At inference, only the trained SOD network is employed for saliency prediction.

  3. Method  

本研究重点研究了没有标注 ground truth 的深度 SOD 网络的学习。一种可能的方法是直接使用传统 SOD 方法生成的伪标签作为监督。但是,如图 1 (b) 所示,这些伪标签中含有大量不一致性强的噪声,这不可避免地会阻碍网络学习,降低最终的 SOD 性能。为了避免这个问题,本文通过学习每个给定标签的密集不确定性图来评估每个标签像素的可靠性,并在此基础上监督 SOD 网络。

整体方案:

提出的框架如图 2 所示,它由显著目标检测网络 (SODNet) 和多源不确定性挖掘网络 (UMNet) 组成。给定一个输入图像 I:

首先,使用M种不同的非深度学习 SOD 方法获得 M 个伪标签 。

然后,受 [20] 的启发,所有伪标签都使用方法 [20] 的第一阶段单独细化,以提高其质量。

再次,将所有经过优化的伪标签以及 SODNet 提取的多尺度图像特征输入到 UMNet 中,生成伪标签的不确定性图 。

最后,在提出的不确定加权损失监督下,将包括 SODNet 和 UMNet 在内的整个网络联合训练,这有助于 UMNet 准确估计所有伪标签的密集不确定图,进一步方便了在无监督设置下的 SODNet 学习。

[20] DeepUSPS: Deep robust unsupervised saliency prediction with self-supervision. NeurIPS, 2019.

网络细节结构:

如图 2 最上面一行所示,给定输入图像 , SODNet 输出 Nc 通道的显著性评分图 ,可以使用 Sigmoid (Nc = 1) 或 Softmax (Nc = 2) 函数进一步归一化为显著性概率图。SODNet 的体系结构设计并不是本文的重点,在本文的框架中可以使用许多已有的 SOD 模型。本文采用与 [20,43] 相同的网络架构进行公平比较。

具体来说,它建立在膨胀残差网络 (dilated residual network,DRN) [2] 的基础上,通过将所有的全连接层替换为卷积层,并使用 atrous 卷积层来保留特征分辨率,从而修改了原来的ResNet101。最后一层卷积的输出分辨率是输入图像的 1/8,最后使用最近邻插值法将其上采样到原始输入分辨率。如图 2 所示,SODNet 包含 8 个卷积残差阶段。

本文将 SODNet 前三个阶段和第六个阶段提取的特征相结合,作为 UMNet 中标签不确定性预测的分层指导。在下面,将详细描述拟议的UMNet (第 3.1 节) 和不确定性加权损失 (第 3.2 节)。

[43] Deep unsupervised saliency detection: A multiple noisy labeling perspective. CVPR, 2018.

[2] Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE TPAMI, 2018.

3.1. Uncertainty Mining Network with Merge-and Split Modules

动机:

设计了不确定性挖掘网络 (UMNet)通过观察所有的伪标签和输入图像来识别每个给定的伪标签的像素级可靠性Our key insight is that,由于没有额外的参考,仅基于单个伪标签,网络很难预测不确定性。相比之下,同时考虑不同 SOD 方法产生的多个伪标签的多样性,通过分析不同伪标签之间的共性和差异,可以帮助网络更有效地捕获可靠的标签样本。

如图 2 所示,提出的 UMNet 由 M 个分支组成。每个分支从一个伪标签中提取特征并生成相应的不确定性图。伪标签之间的特征通过合并-分裂 (merge-and-split, MS) 模块进行分层交互,通过对所有伪标签信息的收集和分析,增强了伪标签之间的特征,从而产生更稳健的不确定性结果。

Figure 3. Illustration of the proposed merge-and-split module

结构:

图 3 描述了拟议的 MS 模块的体系结构细节。给定 M 个标签特征和 SODNet 某一阶段生成的图像特征:

首先,分别被送入不同的残差块中作为预处理步骤。

然后,应用包括通道级联和附加残差块的信息聚合操作来合并来自所有伪标签和输入图像的信息。

再次,通过通道级联将每个标签特征与合并特征相结合,然后通过剩余块产生输出特征。

最后,合并和分离机制为每个网络分支提供了机会,每个分支专用于一个伪标签,以看到更全面的信息,从而使网络能够预测更鲁棒和准确的不确定性 map。

实例:

在本工作中,UMNet 采用了 4 个 MS 模块作为核心组件,分别接收 SODNet 第 1、2、3、6 个残差阶段的图像特征。此外,前 3 个 MS 模块的输出分辨率通过跨卷积层下采样到输入分辨率的1/2。最后一个 MS 模块输出的M个标签特征最终通过由卷积和最近邻上采样层组成的 M 个解码器,分别生成 M 个伪标签的不确定性映射。

3.2. Network Learning with Multi-source Uncertainty Mining

由于不确定性图的 ground truth 不可能获得,训练 UMNet 生成所需的结果 is not trivial issue。本文将第 m 个已有的 SOD 方法生成的像素 i 的伪标签记为 ,其中 c = 1 表示显著前景,c = 0 表示显著前景。预测不确定性和显著性得分分别用 和 表示。

具体方法:

受 [9,10] 的启发,在贝叶斯理论下将噪声伪标签建模为一个服从吉布斯分布的随机变量 y。当使用 Softmax 函数对显著性评分进行归一化时,y 的概率分布可以计算为

. (1)

学习不确定度的大小  决定了分布的均匀/平坦度

[9] What uncertainties do we need in Bayesian deep learning for computer vision? NeurIPS, 2017.

[10] Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. CVPR, 2018.

给定观察到的伪标签 ,则负对数似然可以推导为: 

       (2)

其中 表示使用伪标签 和非标准化分数 (即 logit) 计算的交叉熵损失。可以在 [10] 中找到详细的推导过程。

由于 Sigmoid 函数是 Softmax 函数的特例,在使用 Sigmoid 函数归一化显著性分数时,使用 Softmax 的上述推导也是成立的。

(2) 式右边第一项表明,不确定度  值大时会降低  的贡献,而值小时会增加 的贡献。

同时,最后一项可以看作是 UMNet 所预测的对  的一个正则化,如果  的值太大,将对其进行惩罚。

将上述公式推广到带有 M 个伪标签的整个图像,得到最终损失 如下:

           (3)

其中 和 分别为 SODNet 和 UPNet 的可训练参数。H 和 W 分别为输入图像的高度和宽度。表示 (3) 为不确定性加权损失,它允许整个网络以一种原则性的方式共同学习。

实现:

在实践中,本文对 (3) 做了两处修改,以提高训练的稳定性。UMNet 不是直接生成不确定性图 ,而是预测其对数形式,即 。此外,采用 Sigmoid 单位作为 UMNet 的输出层,并进一步将预测的对数不确定值归一化到 区间。因此,(3) 可以改写为:

         (4)

3.3. Implement Details

训练设置主要遵循近期的工作 [20]。训练数据和验证数据分别由 MSRA-B 数据集的 2500 和 500 张图像组成。

采用 RBD[46]、DSR[14]、MC[8]、HS[47] 四种传统的 SOD 方法 (M = 4) 对训练图像进行伪标记。

通过使用 [20] 的第一阶段来提高每一种手工制作方法的伪标签的质量。

将伪标签二进制化的阈值经验地设置为 0.5,在实践中效果很好。

所有输入图像的大小都调整为 320x320 的空间大小。

训练数据采用随机翻转和旋转等数据增强方法。

在 [20] 之后,使用 [2] 的预训练模型初始化 SODNet 的参数,并设置这些参数的学习率为2e-5。

MSNet 的参数采用 [6] 的方法随机初始化,学习率为 2e - 4。

整个网络使用 batch 大小为 16 的 ADAM 优化器进行端到端联合训练。

整个训练过程在一个带有 Geforce 3090 gpu 的平台上大约需要 200 个 epoch。

在推断时,只使用学习到的 SODNet 来产生显著掩码。

[20] DeepUSPS: Deep robust unsupervised saliency prediction with self-supervision. NeurIPS, 2019.

[46] Saliency optimization from robust background detection. CVPR, 2014.

[14] Saliency detection via dense and sparse reconstruction. ICCV, 2013.

[8] Saliency detection via absorbing markov chain. ICCV, 2013.

[47] HARF: hierarchy-associated rich features for salient object detection. ICCV, 2015.

[2] Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE TPAMI, 2018.

[6] Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. ICCV, 2015.

更多推荐

CVPR 2022 无监督显著度检测:Multi-Source Uncertainty Mining for Deep Unsupervised Salienc