深度学习（10）ablation experiments

上官斌

2023-12-01

有一点像控制变量法的感觉。

因为作者提出了一种方案，同时改变了多个条件/参数，他在接下去的消融实验中，会一一控制一个条件/参数不变，来看看结果，到底是哪个条件/参数对结果的影响更大。

Ablation experiment就是用来告诉你或者读者整个流程里面的关键部分到底起了多大作用，就像Ross将RPN换成SS进行对比实验，以及与不共享主干网络进行对比，就是为了给读者更直观的数据来说明算法的有效性。

术语“消融研究”通常用于神经网络，尤其是相对复杂的神经网络，如R-CNN。我们的想法是通过删除部分网络并研究网络的性能来了解网络。“ -Robert Long

“消融”的原始含义是手术切除身体组织。
ablation 解释：通过机械方法切除身体组织，如手术，从身体中去除，尤指器官、异常生长或有害物质。“消融研究”这一术语的根源于20世纪60年代和70年代的实验心理学领域，其中动物的大脑部分被移除以研究其对其行为的影响。

在机器学习，特别是复杂的深度神经网络的背景下，已经采用“消融研究”来**描述去除网络的某些部分的过程，以便更好地理解网络的行为。**自从Keras深度学习框架的主要作者Francois Chollet在2018年6月发布twtter以来，该术语受到了关注：消融研究对于深度学习研究至关重要。

理解系统中的因果关系是产生可靠知识的最直接方式（任何研究的目标）。消融是一种非常省力的方式来研究因果关系。如果您采用任何复杂的深度学习实验设置，您可能会删除一些模块（或用随机的模块替换一些训练有素的功能）而不会降低性能。消除研究过程中的噪音：进行消融研究。无法完全理解您的系统？很多活动部件？想确定它的工作原因是否与您的假设密切相关？尝试删除东西。花费至少约10％的实验时间来诚实地反驳你的论文。

举个例子：Girshick及其同事描述了一个由三个“模块”组成的物体检测系统：第一个使用选择性搜索算法提出图像区域，在该区域内搜索物体。进入一个大的卷积神经网络（有5个卷积层和2个完全连接的层），进行特征提取，然后进入一组支持向量机进行分类。

为了更好地理解该系统，作者进行了一项消融研究，其中系统的不同部分被移除 - 例如，移除CNN的一个或两个完全连接的层导致性能损失惊人地少。这使作者得出结论：CNN的大部分代表性力量来自其卷积层，而不是来自更大的密集连接层。

深度学习（10）ablation experiments

相关阅读

相关文章

相关问答

相关文档