当前位置: 首页 > 知识库问答 >
问题:

神经网络:为什么我们需要激活函数?

吕霖
2023-03-14

我试着运行一个没有任何激活函数的简单神经网络,并且网络不会收敛。我正在使用MSE成本函数进行MNIST分类

然而,如果我将校正线性激活函数应用于隐藏层(输出=max(0,x),其中x是加权和),那么它会很好地收敛。

为什么消除前一层的负面输出有助于学习?

共有2个答案

茹正初
2023-03-14

原因很简单。你需要在你的神经网络中加入一些非线性,否则你最终会得到一个简单的线性方程。

假设您有一个输入向量x和两个由权重矩阵W1和W2表示的隐藏层。如果没有任何激活函数,神经网络将输出y=x W1 W2,它等于y=x W,因此W=W1 W2。这只是一个矩阵乘法。

如果你使用诸如ReLU或Sigmoid等激活函数,你会得到一个很好的非线性函数,它能够拟合一些有趣的数据

郑向阳
2023-03-14

基本感知器只是其输入信号的加权线性组合。一层感知器仍然是线性回归器/分类器。只有当我们使函数逼近器(神经网络)本身非线性时,网络才能解决非线性问题。这可以通过在层的输出信号上应用非线性激活函数来完成,例如ReLU函数。

为什么ReLU是一个非线性激活函数,而输出信号正好是max(0,y)?答案在于消除负值(将其替换为0)。由于不能用直线描述ReLU函数曲线,因此ReLU不是线性激活函数。

 类似资料:
  • 本文向大家介绍问题:神经网络激活函数?相关面试题,主要包含被问及问题:神经网络激活函数?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: sigmod、tanh、relu 解析:需要掌握函数图像,特点,互相比较,优缺点以及改进方法

  • 神经网络的输入层使用激活函数,还是仅仅是隐藏层和输出层?

  • 我正在尝试使用CNN对图像进行分类,据我所知,ReLu是每个卷积层中激活单元的常用选择。根据我的理解,ReLU将保留所有正图像强度,并将负图像强度转换为0。对我来说,这就像是处理步骤,而不是真正的“启动”步骤。那么,在这里使用ReLU的目的是什么?

  • 我刚刚在CNN上读完斯坦福CS231n的笔记,有一个现场演示的链接;但是,我不确定演示中的“激活”、“激活梯度”、“权重”和“权重梯度”指的是什么。以下截图是从演示中复制的。 混淆点1 首先,我对输入层的“激活”是指什么感到困惑。根据注释,我认为激活层指的是CNN中的RELU层,它本质上告诉CNN应该点亮哪些神经元(使用RELU函数)。我不确定这与如下所示的输入层有何关系。此外,为什么会显示两幅图

  • 本文向大家介绍循环神经网络,为什么好?相关面试题,主要包含被问及循环神经网络,为什么好?时的应答技巧和注意事项,需要的朋友参考一下 参考回答: 循环神经网络模型(RNN)是一种节点定向连接成环的人工神经网络,是一种反馈神经网络,RNN利用内部的记忆来处理任意时序的输入序列,并且在其处理单元之间既有内部的反馈连接又有前馈连接,这使得RNN可以更加容易处理不分段的文本等。

  • 问题内容: Angular应用使用属性而不是事件。 为什么是这样? 问题答案: ng-click包含一个角度表达式。Angular表达式是在Angular 范围的上下文中求值的,该范围绑定到具有ng- click属性的元素或该元素的祖先。 Angular表达式语言不包含流控制语句,也不能声明变量或定义函数。这些限制意味着模板只能访问由控制器或指令提供的变量和运行功能。