DL之GRU：GRU算法相关论文、建立过程(基于TF)、相关思路配图集合、TF代码实现

更新时间：2022-09-30 17:21:27

GRU算法相关论文

GRU是LSTM网络的一种效果很好的变体，它较LSTM网络的结构更加简单，而且效果也很好，因此也是当前非常流形的一种网络。GRU既然是LSTM的变体，因此也是可以解决RNN网络中的长依赖问题。

GRU门控循环单元是新一代的循环神经网络，与 LSTM 非常相似。与 LSTM 相比，GRU 去除掉了细胞状态，使用隐藏状态来进行信息的传递。它只包含两个门：重置门、更新门。

(1)、GRU的两个门控机制的特殊之处在于，它们能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除。

(2)、GRU不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。

重置门：重置门用于决定遗忘先前信息的程度。重置门决定了如何将新的输入信息与前面的记忆相结合，

(1)、重置门其实强制隐藏状态去遗忘一些历史信息，并利用当前输入的信息。这可以令隐藏状态遗忘任何在未来发现与预测不相关的信息，同时也允许构建更加紧致的表征。

(2)、本质上来说，重置门主要决定了到底有多少过去的信息需要遗忘。

更新门：更新门的作用类似于 LSTM 中的遗忘门+输入门。它决定要忘记哪些信息以及哪些新信息需要被添加。更新门定义了前面记忆保存到当前时间步的量。

(1)、更新门将控制前面隐藏状态的信息，有多少会传递到当前隐藏状态，这与 LSTM 网络中的记忆单元非常相似，它可以帮助 RNN 记住长期信息。

(2)、更新门帮助模型决定到底要将多少过去的信息传递到未来，或到底前一时间步和当前时间步的信息有多少是需要继续传递的。这一点非常强大，因为模型能决定从过去复制所有的信息以减少梯度消失的风险。

更新……

更新……