Deep Cluster：Deep Clustering for Unsupervised Learning of Visual Features

陈和裕

2023-12-01

DeepCluster，一种联合学习神经网络参数和结果特征的聚类分配的聚类方法。DeepCluster使用标准聚类算法kmeans对特征进行迭代分组，并使用后续分配作为监督来更新网络的权重。

预训练的卷积神经网络(convnets)产生优秀的通用特征，可用于提高在有限数据量上学习到的模型的泛化能力[5]。ImageNet相对较小；它“仅仅”包含了一百万张图像，涵盖了物体分类的特定领域。建立一个更大、更多样化的数据集将需要大量的手动注释。用原始元数据代替标签会导致视觉表现中的偏差，并带来不可预测的后果[11]。这需要可以在没有监督的情况下在互联网规模的数据集上训练的方法。

无监督学习成功的一个关键原因是，它们可以应用于任何特定的领域或数据集，如卫星或医学图像，或者用新的模式捕获的图像，如深度，其中人工标注并不总是大量可用。一个问题是，聚类方法主要是为固定特征之上的线性模型设计的，如果必须同时学习这些特征，它们几乎不起作用。例如，用k-means学习一个convnet将导致一个不重要的解决方案，其中特征被置零，并且聚类被折叠成单个实体。

与自我监督方法[25，26，27]不同，聚类的优势在于需要很少的领域知识，并且没有来自输入的特定信号[28，29]。

使用ImageNet作为无监督模型的训练集。虽然它有助于理解标签对网络性能的影响，但ImageNet有一种特殊的图像分布，这种分布继承自它对细粒度图像分类挑战的使用:它由均衡well-balanced的类组成。

在本文中，我们做出了以下贡献:(I)一种新的无监督的方法，用于convnets的端到端学习，它可以与任何标准的聚类算法(如k-means)一起工作，并且需要最少的附加步骤；(ii)在无监督学习中使用的许多标准迁移任务上的最新性能；(iii)当在未固化的图像分布上训练时，性能高于现有技术水平；(iv)关于无监督特征学习中的当前评估协议的讨论。

自监督学习，使用前置任务，用从原始输入数据直接计算的“伪标签”来代替由人类标注的标签。

与我们的工作相反，这些方法依赖于domain，需要专业知识来仔细设计一个可能产生可转移特征的借口任务。

我们将通过将这种映射应用于图像而获得的向量称为特征或表示。

chance level is the level that would be expected by random choices

随机卷积网络的良好性能与其卷积结构密切相关，卷积结构对输入信号具有很强的先验性。这项工作的想法是利用输出的weak微弱的信号来提升convnet的鉴别能力。我们对convnet的输出进行聚类，并使用后续的聚类分配作为“伪标签”来优化等式(1)。DeepCluster方法迭代地学习特征并将它们分组。

DeepCluster交替使用等式(2)对特征进行聚类以生成伪标签。通过使用等式(1)预测这些伪标签来更新convnet的参数。

联合学习判别分类器和标签的任何方法都有可能导致trivial solutions 。解决方案是通常基于约束或惩罚每个聚类的最小点数。

在最戏剧性的场景中，除了一个集群之外，所有集群都是单个的，从而最小化Eq(1)导致trivial参数化，其中无论输入如何，convnet都将预测相同的输出。当每个类别的图像数量非常不平衡时，这个问题也会出现在监督分类中。解决这一问题的策略是基于类或伪标签的均匀分布对图像进行采样。这相当于在等式(1)中的损失函数对输入的贡献通过其分配的簇的大小的倒数进行加权。

但是我们发现我们在ImageNet上的设置(每个时期更新聚类)几乎是最优的。

图2a聚类和标签之间的相关性随着时间的推移而增加，表明我们的特征逐渐捕获与目标类别相关的信息。

图2b NMI在增加，这意味着重新分配的次数越来越少，集群随着时间的推移趋于稳定。

图2c 假设我们在ImageNet上训练我们的模型，人们会期望k = 1000产生最好的结果，但是显然一些过度分割是有益的。

在原始图像上学习convnets的困难已经在[19，25，26，39]提到过。大多数过滤器仅捕获颜色信息，这些信息通常在目标分类中起很小的作用[63]。

然而，如图5的第二行所示，最后卷积层中的一些滤波器似乎简单地复制了先前层中已经捕获的纹理。这证实了来自conv3或conv4的特性比来自conv5的特性更具鉴别力。

此外，DeepCluster产生的conv3-4特征与用ImageNet标签训练的特征相当。这表明，当目标任务离ImageNet覆盖的域足够远时，标签就不那么重要了。

使用fast-rcnn2获得目标检测结果。在检测方面，DeepCluster的性能仅略好于以前发布的方法。为此，我们还报告了使用fc6-8对DeepCluster和一些基线进行的检测和分段。这些任务更接近于无法微调的实际应用。正是在这种情况下，我们的方法和当前技术水平之间的差距更大(在分类上高达9%)。

该实验验证了DeepCluster对图像分布的变化是鲁棒的，即使这种分布不利于其设计，也能产生最先进的通用视觉特征。

无论采用哪种方法，更深层次的架构都会显著提高目标任务的性能。

以前的基准测试测量无监督网络捕获类级信息的能力。他们不评估它是否能在实例级别区分图像。有趣的是，与预先训练的模型相比，随机convnets在这项任务中的表现尤其糟糕。这表明，图像检索是一项任务，其中预训练是必不可少的，并且将它作为下游任务进行研究可以进一步了解由无监督方法产生的特征的质量。

我们的方法对输入做了很少的假设，并且不需要太多特定领域的知识，这使得它成为学习特定于注释稀缺的领域的深度表示的良好候选。

Deep Cluster：Deep Clustering for Unsupervised Learning of Visual Features

相关阅读

相关文章

相关问答