问题：

CNN中权重梯度的意义

莫承运

2023-03-14

我使用MatConvNet开发了一个CNN，能够可视化第一层的重量。它看起来与这里显示的非常相似（也附在下面，以防我不够具体）http://cs.stanford.edu/people/karpathy/convnetjs/demo/cifar10.html

我的问题是，权重梯度是什么？我不确定这些是什么，也无法生成这些。。。

共有2个答案

傅胡媚

2023-03-14

我的回答涵盖了这个问题https://stackoverflow.com/a/68988426/10661506长话短说，l层的重量梯度是损失相对于l层重量的梯度。

如果您有一个正确的反向传播实现，您应该可以访问这些梯度，因为它们是计算每一层的权重更新所必需的。

穆劲

2023-03-14

NN中的权重

在神经网络中，一系列表示为矩阵的线性函数被应用于特征（通常它们之间有一个非线性联合）。这些函数由marices中的值决定，称为权重。

您可以可视化普通神经网络的权重，但可视化cnn的卷积层通常意味着略有不同。这些层旨在学习空间上的特征计算。

当你可视化权重时，你在寻找模式。一个好的平滑过滤器可能意味着权重是经过良好学习的，并且“在寻找特定的东西”。一个嘈杂的体重可视化可能意味着你的人际网络训练不足、过度拟合、需要更多的规则化或其他邪恶的东西（这些说法的正当来源）。

通过对体重可视化的回顾，我们可以看到将体重视为图像的模式开始出现：

重量梯度

“可视化渐变”意味着获取渐变矩阵并将其视为图像，就像之前获取权重矩阵并将其视为图像一样。

梯度只是一个导数；对于图像，它通常是作为有限差分计算的，非常简单，X梯度减去一行中彼此相邻的像素，Y梯度减去一列中彼此相邻的像素。

对于提取边缘的过滤器的常见示例，我们可能会看到特定方向的强梯度。通过可视化渐变（获取有限差分矩阵并将其视为图像），您可以更直接地了解过滤器如何在输入上运行。有很多尖端技术（例如）用于解释这些结果，但使图像弹出是最容易的部分！

一种类似的技术涉及在向前传递输入后可视化激活。在这种情况下，您正在查看输入是如何被权重更改的；通过可视化权重，您正在查看您期望它们如何更改输入。

不要想太多-权重很有趣，因为它们让我们看到函数的行为，权重的梯度只是帮助解释发生了什么的另一个特性。这一特性并没有什么神圣之处：下面是谷歌论文中一些很酷的聚类特性（t-SNE），它们着眼于空间可分性。

[1]如果引入重量分担，可能会更复杂，但不会太多

共有2个答案