当前位置：首页 > 面试题库 >

LSTM原理，与GRU区别

上官迪

2023-03-14

本文向大家介绍LSTM原理，与GRU区别相关面试题，主要包含被问及LSTM原理，与GRU区别时的应答技巧和注意事项，需要的朋友参考一下

参考回答：

LSTM算法全称为Long short-term memory，是一种特定形式的RNN（Recurrent neural network，循环神经网络），而RNN是一系列能够处理序列数据的神经网络的总称。

RNN在处理长期依赖（时间序列上距离较远的节点）时会遇到巨大的困难，因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘，这会带来梯度消失（经常发生）或者梯度膨胀（较少发生）的问题，这样的现象被许多学者观察到并独立研究。为了解决该问题，研究人员提出LSTM。

LSTM是门限RNN，其单一节点的结构如下图1所示。LSTM的巧妙之处在于通过增加输入门限，遗忘门限和输出门限，使得自循环的权重是变化的，这样一来在模型参数固定的情况下，不同时刻的积分尺度可以动态改变，从而避免了梯度消失或者梯度膨胀的问题。

图1 LSTM的CELL示意图

根据LSTM网络的结构，每个LSTM单元的计算公式如下图2所示，其中Ft表示遗忘门限，It表示输入门限，Ct表示前一时刻cell状态、Ct表示cell状态（这里就是循环发生的地方），Ot表示输出门限，Ht表示当前单元的输出，Ht-1表示前一时刻单元的输出。

图2 LSTM计算公式

与GRU区别：1）GRU和LSTM的性能在很多任务上不分伯仲。2）GRU 参数更少因此更容易收敛，但是数据集很大的情况下，LSTM表达性能更好。3）从结构上来说，GRU只有两个门（update和reset），LSTM有三个门（forget，input，output），GRU直接将hidden state 传给下一个单元，而LSTM则用memory cell 把hidden state 包装起来。

类似资料：

Lstm和Gru的原理

本文向大家介绍Lstm和Gru的原理相关面试题，主要包含被问及Lstm和Gru的原理时的应答技巧和注意事项，需要的朋友参考一下参考回答： Lstm由输入门,遗忘门,输出门和一个cell组成。第一步是决定从cell状态中丢弃什么信息,然后在决定有多少新的信息进入到cell状态中,最终基于目前的cell状态决定输出什么样的信息。 Gru由重置门和跟新门组成,其输入为前一时刻隐藏层的输出和当前的输入,
LSTM和GRU？

本文向大家介绍LSTM和GRU？相关面试题，主要包含被问及LSTM和GRU？时的应答技巧和注意事项，需要的朋友参考一下 lstm如何来防止梯度爆炸和梯度消失的？针对RNN, 要解决梯度爆炸可以使用梯度裁剪的方式来进行，而对于梯度消失，由于传统的RNN是用覆盖的的方式计算状态：，也就是说，这有点类似于复合函数，那么根据链式求导的法则，复合函数求导：设f和g为x的可导函数，则，他们是一种乘积的
liskov替代原理与界面分离原理的区别

Liskov替代原则（LSP）和界面分离原则（ISP）之间有什么核心区别吗？最终，这两种方法都是为了设计具有通用功能的界面，并在您具有特殊功能时引入新的界面。
LSTM跟RNN有啥区别

本文向大家介绍LSTM跟RNN有啥区别相关面试题，主要包含被问及LSTM跟RNN有啥区别时的应答技巧和注意事项，需要的朋友参考一下参考回答： LSTM与RNN的比较 RNN在处理long term memory的时候存在缺陷，因此LSTM应运而生。LSTM是一种变种的RNN，它的精髓在于引入了细胞状态这样一个概念，不同于RNN只考虑最近的状态，LSTM的细胞状态会决定哪些状态应该被留下来，哪些状
LSTM和Naive RNN的区别

本文向大家介绍LSTM和Naive RNN的区别相关面试题，主要包含被问及LSTM和Naive RNN的区别时的应答技巧和注意事项，需要的朋友参考一下参考回答： RNN和LSTM内部结构的不同： RNN LSTM 由上面两幅图可以观察到，LSTM结构更为复杂，在RNN中，将过去的输出和当前的输入concatenate到一起，通过tanh来控制两者的输出，它只考虑最近时刻的状态。在RNN中有两个输
区块链原理

区块链就是一个不断增长的全网总账本，每个完全节点都拥有完整的区块链，并且，节点总是信任最长的区块链，伪造区块链需要拥有超过51%的全网算力。区块链的一个重要特性就是不可篡改。为什么区块链不可篡改？我们先来看区块链的结构。区块链是由一个一个区块构成的有序链表，每一个区块都记录了一系列交易，并且，每个区块都指向前一个区块，从而形成一个链条：如果我们观察某一个区块，就可以看到，每个区块都有一个唯一

相关阅读

Java重写(Override)与重载(Overload)区别原理解析 DBSCAN原理和算法伪代码，与kmeans，OPTICS区别 RNN梯度消失问题,为什么LSTM和GRU可以解决此问题 Mybatis 简介与原理 Python局部变量与全局变量区别原理解析

相关文章

DevOps与Agile的区别 Java NIO 与IO区别 Redis与memecached的区别 ClickHouse与Hive的区别 Kafka基本原理

相关问答

Liskov代换原理与接口 Liskov代换原理与虚方法 LSTM之前或之后的脱落层。有什么区别？Spring批处理多线程与分区 JSR223采样器与JSR223预处理器的区别

相关工具

原型 RPG 贝壳还原3.0 JFinal 社区天乙社区优客社区

相关文档

第一性原理 Erlang OTP 设计原理机器学习原理机器学习原理你不懂JS: this 与对象原型