[论文翻译] Medical Matting: A New Perspective on Medical Segmentation with Uncertainty

阎扬

2023-12-01

https://doi.org/10.1007/978-3-030-87199-4_54
省略了论文的图表以及实验部分

Medical Matting: A New Perspective on Medical Segmentation with Uncertainty

Abstract

在医学图像分割中，用二元mask准确标记模糊区域是很困难的，特别是在处理小病变时。因此，对于放射科医生来说，在多个标注的条件下，通过使用二进制mask达成共识是一个挑战。然而，这些不确定区域可能包含有利于诊断的解剖结构。不确定性被引入来研究这些情况。尽管如此，不确定性通常是以多次试验的方式用预测之间的差异来衡量的。这并不直观，而且图像中也没有确切的对应关系。受图像抠图(Image Matting)的启发，我们引入了抠图作为一种软分割方法，并从一个新的角度来处理和表示医疗场景中的不确定区域，即医疗抠图。更具体地说，由于没有可用的医疗抠图数据集，我们首先用alpha matte标记了两个医疗数据集。其次，应用于自然图像的抠图方法不适合于医疗场景，所以我们提出了一个新的架构来生成二进制mask和alpha matte。第三，引入了不确定性图，以突出二进制结果中的模糊区域并提高抠图性能。在这些数据集上进行评估，所提出的模型在很大程度上超过了最先进的抠图算法，而且alpha matte被证明是一种比二进制mask更有效的标签形式。

I. Introduction

由于成像方法的限制，医学图像中常见的是模糊不清的现象。病理或解剖结构，特别是其边界周围的结构，可能是模糊的，很难被分割出来。因此，研究分割结果的预测不确定性与提高分割精度一样重要，因为模型输出的可信度对临床医生至关重要。

一般来说，不确定性可分为两种类型，即偶然不确定性(aleatoric uncertainty)和认识不确定性(epistemic uncertainty)。偶然不确定性通常与数据中难以减少的内在噪声有关。相比之下，认识上的不确定性与数据不足导致的模型的次优参数有关，这可以通过提供更多的数据来缓解。然而，数据收集的困难和标注的高成本使得医学图像研究中普遍缺乏数据，这敦促我们充分使用不充分的数据。在观察了多位放射科医生的标注后，我们发现在分割任务中，有很大一部分被认为难以减少的差异是由于二元mask的表达能力不足，以及现有标签技术对微小结构的困境(见图1)，可以通过更有效的标签方法加以缓解。

许多研究工作侧重于量化不确定性，并减轻其对疾病诊断和预后的分割的影响。然而，他们中的大多数是通过学习预测的差异来衡量不确定性的，有各种形式，如交叉熵或方差。这是不直观的，而且很难被直观地评估。此外，二进制mask可能会失去诊断的信息。

Matting是一种特定的分割方法，广泛用于图片编辑、绿幕、虚拟会议等。它可以通过在图像 $\mathcal{I}$ 的前景 $\mathcal{F}$ 和背景 $\mathcal{B}$ 之间引入一个名为alpha matte的混合系数，使 $\mathcal{I}=\alpha \mathcal{F}+(1-\alpha) \mathcal{B}$ ，从而获得细粒度的细节。类似地，不确定性可以被认为是病理组织和其周围环境的混合程度。然而，抠图方法在医学图像中没有得到广泛的应用，作为分割的一个辅助手段也很有限。由于不确定性与分割结果的挑战性区域高度耦合，而且对不确定性没有明确的定义，我们将alpha matte引入医疗场景，作为不确定性的校准和更精确的分割方法。

我们的贡献总结如下。1)Alpha matte首次被引入医疗场景，通过实验，它比二进制mask更具表现力。可以保留这些区域的有价值的信息。2)不确定性由alpha矩阵更直观地定义。3)提出了一个紧凑的多任务网络，同时产生alpha matte和二进制mask。4)提出了不确定性图，作为图像抠图中基于二进制mask预测的三态图的类似物，并提高了抠图网络的性能。5)为不确定性学习和医学抠图标注的数据集作为基准数据集公开供研究界使用。

II. Datasets

在这项工作中，使用了两个由临床医生审查的具有alpha matte的数据集，即LIDC-IDRI的一个子集和QUBIQ的Brain-growth。LIDC-IDRI数据集包括用于诊断肺结节的胸部CT扫描。按照惯例，扫描件被裁剪并居中为128×128大小的patch。每个patch通过四个二进制mask标记出肺部结节的区域。为了更好地关注不确定性研究，我们选择了1609个patch，在这些patch中，有一个相同的结节被标注在相应的mask中。大脑生长数据集由39张低强度对比的T2-W MR图像组成，用于新生大脑白质组织髓鞘化过程。每张图像由7个二进制mask标记。

alpha matte使用连续值，这样他们更有能力描绘不确定区域的解剖结构。具体来说，LIDC数据集中的不确定区域可以更好地描述病变周围不明确的边界和GT阴影，这对于结节的分期至关重要。在脑生长数据集中，新生的白色组织经历了一个快速的髓鞘化过程。因此，很难用二元标签来标记变化区域的白质是有髓鞘还是无髓鞘。

alpha matte是以半自动的方式进行标注的。也就是说，粗糙的alpha matte是由抠图方法生成的，并由图像编辑者手动细化，以适应解剖结构，这在自然图像抠图中是高效且广泛使用的。这里选择了Information-Flow，一种基于拉普拉斯的抠图方法，来创建粗糙的alpha matte，因为它在我们的方案中表现相对较好，而其他方法也是可以的。在这些抠图方法中需要一个trimap，它表示前景、背景和未知区域作为先验信息。我们通过人工标注的mask来生成它。特别是，只有当像素在所有的二元mask中被贴上相同的标签时，它们才被归类为前景或背景。剩余不一致的像素被标记为未知区域。

三位有资质的临床医生，包括儿科医生和肿瘤医生，被邀请审查各种Ground Truth，包括提出的alpha matte和传统的二进制mask。他们每个人都挑选了最能描述解剖结构的标签，如图2所示。事实证明，alpha matte明显比二进制mask更有利。这些数据集可在https://github.com/wangsssky/MedicalMatting找到。

III. Methodology

如前所述，用连续值进行标记可以准确地描述解剖结构，并为量化不确定性提供一种直观的方法。尽管如此，二进制mask仍是医疗场景中的主流分割方法。因此，我们设计了一个多任务网络，同时预测alpha matte和二进制mask，以扩大应用范围。总的来说，所提出的医疗抠图框架由mask生成器和抠图网络组成。mask生成器预测每个病变的多个二进制mask，这可以被认为是对临床医生的标记过程的模拟。然后，我们使用预测的分数图来建立一个表示不确定区域的图，即不确定图。在抠图网络中，不确定图、输入图像和来自mask生成器的潜在特征被合并以预测alpha matte。图3提供了该框架的示意图。

A. Mask Generator

mask生成器可以产生一堆二进制mask，中间的分数图被用来建立一个不确定性图，作为对下面抠图网络的协助。

概率UNet被选为网络，用于生成目标分布下的一组二进制mask。身体结构是连续的，这也会反映在相应的alpha matte中。因此，与原始方法不同的是，在每次训练迭代中从多个标记的mask中随机采样，我们通过随机阈值对ground truth的alpha matte产生一个二进制mask。因此，我们可以生成更丰富的具有结构连续性的mask。此外，由不同阈值生成的mask对应于不同的不确定性容忍度。生成的mask可以表述为公式1： $\text { Mask }=\text { Threshold }\left(\alpha_{gt}, \tau\right), \tau \in[a, b] (1)$ 其中， $\alpha_{gt}$ 表示ground truth apha matte， $\tau$ 代表阈值水平，a和b实际上被设定为 $\alpha_{gt}$ 最大值的0.2和0.7，以获得合理的mask。

B. Uncertainty Map

抠图方法通常引入先验的trimap作为前景、背景和未知区域的限制，这极大地降低了任务的复杂性。与trimap不同的是，在医学图像中，甚至很难将明确的前景，即病变，与周围的结构区分开来。受MC Dropout近似法的启发，我们创建了一个名为不确定图的评分图，它表示需要识别的挑战性区域，起到与trimap类似的作用。不确定性图被定义为熵值： $\mathcal{U}(x)=-\sum_{c=1}^{m} \mathcal{P}_{c}(x) \log \mathcal{P}_{c}(x) (2)$ 其中 $\mathcal{P}_{c}(x)$ 是概率UNet预测的平均分数图中像素 $x$ 在 $c$ 类中的概率， $m$ 是类的数量。图4(d)显示了生成的不确定区域的例子。

C. Matting Network

抠图网络在上述不确定性图的帮助下输出alpha matte。它由三个传播单元组成，每个单元由两个残差块组成。在前两个单元之间，插入了一个通道注意模块，以帮助网络专注于有效的特征。输出块在流水线的末端包含两个卷积层。输入图像、来自概率UNet的潜在特征和不确定性图被串联起来作为抠图网络的输入。不确定性图也被注入到最后两个传播单元，作为信息流的指导。

D. Multi-task Loss

在我们的网络中，多任务学习被用于二进制mask和alpha matte预测，因为它简化了训练程序，并通过分享相互关联的任务信息实现了更好的性能。每个任务由其相应的损失指导，并通过不确定性加权的方式进行平衡。

对于分割，按照概率UNet的做法，采用了Kullback-Leibler损失 $\mathcal{L}_{kl}$ 和交叉熵损失 $\mathcal{L}_{ce}$ 。前者用于最小化先验分布和后验分布的分歧，后者用于匹配生成的mask和gt mask。

对于抠图，预测的alpha matte和ground truth的alpha matte之间的绝对差异和梯度差异都分别由 $\mathcal{L}_{\alpha}$ 和 $\mathcal{L}_{grad}$ 考虑。梯度表达了一个像素与周围像素的相关性，对医疗结构的连续性具有重要意义。此外，基于不确定性图的mask被应用于使梯度损失集中在不确定的区域。这些损失被定义为： $\mathcal{L}_{\alpha}\left(\tilde{\alpha}, \alpha_{gt}\right)=\frac{1}{|\tilde{\alpha}|} \sum_{i \in \tilde{\alpha}}\left\|\tilde{\alpha}(i)-\alpha_{gt}(i)\right\|_{1} (3)$ $\mathcal{L}_{\text {grad }}\left(\{\tilde{\alpha}, \mathcal{U}\}, \alpha_{gt}\right)=\frac{1}{|\mathcal{R}|} \sum_{i \in \mathcal{R}}\left\|\nabla_{\tilde{\alpha}}(i)-\nabla_{\alpha_{g} t}(i)\right\|_{1}, \mathcal{R}=\mathcal{U}>\text { thresh } (4)$ 其中， $\tilde{\alpha}$ ， $\alpha_{gt}$ 分别表示预测的和真实的alpha matte。 $\mathcal{U}$ 代表不确定图。通过阈值化选择的 $\mathcal{U}$ 的一个子区域 $\mathcal{R}$ 被用作梯度损失的mask，这使得损失更加集中在不确定区域。

每个任务的输出可以被假定为各自遵循高斯分布与观察噪声。因此，我们引入了不确定性加权损失来平衡它们。最后，我们的损失 $\mathcal{L}$ 定义为： $\mathcal{L}=\frac{\mu \mathcal{L}_{kl}+v \mathcal{L}_{ce}}{\sigma_{1}^{2}}+\frac{\zeta \mathcal{L}_{\alpha}+\xi \mathcal{L}_{grad}}{2 \sigma_{2}^{2}}+\log \sigma_{1} \sigma_{2} (5)$ 其中 $\sigma_{1}$ 和 $\sigma_{2}$ 是可训练的参数， $\mu$ 、 $v$ 和 $\zeta$ 、 $\xi$ 分别是平衡二进制mask和alpha matte预测的 $\mathcal{L}_{kl}$ 、 $\mathcal{L}_{ce}$ 和 $\mathcal{L}_{\alpha}$ 、 $\mathcal{L}_{grad}$ 的参数。

V. Conclusions

在这项工作中，我们创造性地通过从图像抠图中引入的alpha matte来校准不确定性，alpha matte有更好的能力来揭示微小和模糊的结构，并具有诊断的潜力。我们提出了一个精心设计的多任务网络来同时预测二进制mask和 $a l p h a m a t t e$ 。不确定图，类似于trimap，是由中间输出产生的，并提高了抠图网络的性能。二进制mask、不确定性图和alpha matte在不同方面表达了具有不确定性的目标，因此在训练过程中，这些子任务可以通过共享潜在信息而相互受益。实验显示，我们的模型在所有四个指标上都比其他最先进的抠图方法有相当大的优势，并证明alpha matte是一种比二进制mask更强大的标注方法。我们用alpha matte标记了两个数据集，包括CT和MRI图像，并向公众发布，以促进医疗场景中不确定性学习和抠图的研究。更多的模式将用医疗抠图进行研究，同时也将进行新的实验，以检验其在未来的诊断中的价值。