问题：

RELU反向传播

李文轩

2023-03-14

在使用relu激活功能时，我在实现backprop时遇到问题。我的模型有两个隐藏层，两个隐藏层中都有10个节点，输出层中有一个节点（因此有3个权重，3个偏差）。我的模型不适用于这个断开的backward\u prop函数。但是，该函数使用sigmoid激活函数（作为注释包含在函数中）与backprop一起工作。因此，我认为我把relu推导搞砸了。

谁能把我推向正确的方向？

# The derivative of relu function is 1 if z > 0, and 0 if z <= 0
def relu_deriv(z):
    z[z > 0] = 1
    z[z <= 0] = 0
    return z

# Handles a single backward pass through the neural network
def backward_prop(X, y, c, p):
    """
    cache (c): includes activations (A) and linear transformations (Z)
    params (p): includes weights (W) and biases (b)
    """
    m = X.shape[1] # Number of training ex
    dZ3 = c['A3'] - y
    dW3 = 1/m * np.dot(dZ3,c['A2'].T)
    db3 = 1/m * np.sum(dZ3, keepdims=True, axis=1)
    dZ2 = np.dot(p['W3'].T, dZ3) * relu_deriv(c['A2']) # sigmoid: replace relu_deriv w/ (1-np.power(c['A2'], 2))
    dW2 = 1/m * np.dot(dZ2,c['A1'].T)
    db2 = 1/m * np.sum(dZ2, keepdims=True, axis=1)
    dZ1 = np.dot(p['W2'].T,dZ2) * relu_deriv(c['A1']) # sigmoid: replace relu_deriv w/ (1-np.power(c['A1'], 2))
    dW1 = 1/m * np.dot(dZ1,X.T)
    db1 = 1/m * np.sum(dZ1, keepdims=True, axis=1)

    grads = {"dW1":dW1,"db1":db1,"dW2":dW2,"db2":db2,"dW3":dW3,"db3":db3}
    return grads

共有1个答案

乐健

2023-03-14

您的代码是否出现错误，或者您对培训有问题？你能说清楚吗？

或者在处理二进制分类的情况下，是否可以尝试仅使输出激活函数sigmoid和其他函数ReLU？

请说明具体情况。

回复时编辑：

你能试试这个吗？

 def dReLU(x):
    return 1. * (x > 0)

我指的是：https://gist.github.com/yusugomori/cf7bce19b8e16d57488a

类似资料：

基于RELU的神经网络反向传播

我正在尝试用RELU实现神经网络。输入层- 以上是我的神经网络结构。我对这个relu的反向传播感到困惑。对于RELU的导数，如果x 有人能解释一下我的神经网络架构的反向传播“一步一步”吗？
反向传播

卷积神经网络其实是神经网络特征学习的一个典型例子。传统的机器学习算法其实需要人工的提取特征，比如很厉害的SVM。而卷积神经网络利用模板算子的参数也用以学习这个特点，把特征也学习出来了。其实不同的模板算子本质上就是抽象了图像的不同方面的特征。比如提取边缘，提取梯度的算子。用很多卷积核去提取，那就是提取了很多的特征。一旦把参数w，b训练出来，意味着特征和目标之间的函数就被确定。今天分享下CNN的关键
反向传播

训练发散理想的分类器应当是除了真实标签的概率为1，其余标签概率均为 0，这样计算得到其损失函数为 -ln(1) = 0 损失函数越大，说明该分类器在真实标签上分类概率越小，性能也就越差。一个非常差的分类器，可能在真实标签上的匪类概率接近于0，那么损失函数就接近于正无穷，我们成为训练发散，需要调小学习速率。 6.9 高原反应在 ImageNet-1000 分类问题中，初始状态为均匀分布，每个类别
1.17 反向传播

1 正向传播(Forward propagation) 回忆一下，给出一个输入特征$x$的时候，我们定义了$a^{[0]}=x$。然后对于层(layer)$l=1,2,3,\dots,N$，其中的$N$是网络中的层数，则有： $z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}$ $a^{[l]}=g^{[l]}(z^{[l]})$ 在讲义中都是假设了非线性特征$g^{[l]}$对除
正向传播、反向传播和计算图

前面几节里我们使用了小批量随机梯度下降的优化算法来训练模型。在实现中，我们只提供了模型的正向传播（forward propagation）的计算，即对输入计算模型输出，然后通过autograd模块来调用系统自动生成的backward函数计算梯度。基于反向传播（back-propagation）算法的自动求梯度极大简化了深度学习模型训练算法的实现。本节我们将使用数学和计算图（computationa
relu

本文向大家介绍relu相关面试题，主要包含被问及relu时的应答技巧和注意事项，需要的朋友参考一下参考回答：在深度神经网络中，通常使用一种叫修正线性单元(Rectified linear unit，ReLU）作为神经元的激活函数。ReLU起源于神经科学的研究：2001年，Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的激活模型，如下图：其中横轴是时间(ms)，纵轴是神经元的

RELU反向传播

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档