循环神经网络RNN原理梳理

我不是女神ヾ 2023-10-09 11:44 221阅读 0赞

RNN结构

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzODczNDMx_size_16_color_FFFFFF_t_70

上图为Tx​=Ty,T为序列长度,x^\{<t>\}表示输入x的第t个时间步,
Tx​=Ty的体系结构可以是提取句子中人名,例如句子“小明去学校”,句子中每个词先调整为one-hot编码,然后y^\{<t>\}为标签,0代表不是人名,1代表是。或者通过已有一堆英文人名,构建字符级语言模型来生成新的名称。

前向传播

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzODczNDMx_size_16_color_FFFFFF_t_70 1

上图为计算公式,其中W\_\{ax\}代表权重,前面a代表计算的是激活值a^\{<t>\},x代表权重后面跟的是x^\{<t>\}

首先先通过RNN的前向传播,如果输入的数据序列经过10个时间步,那么将复制RNN单元10次,每个单元将前一个单元中的隐藏状态a^\{<t-1>\}和当前时间步的输入数据x^\{<t>\}作为输入。 它为此时间步输出隐藏状态a^\{<t>\}和预测y^\{<t>\}

RNN反向传播

循环神经网络可以看作是单元的重复,首先要实现单个时间步的计算

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzODczNDMx_size_16_color_FFFFFF_t_70 2

就像在完全连接的神经网络中一样,成本函数J的导数通过链式法则计算,通过RNN向后传播。

链式法则通过计算2019092717121198.png来更新Wax,Waa,ba

更新参数

更新Wax、Waa、Wya、ba、by

模型结构总结

模型的结构如下:

  • 初始化参数
  • 循环:

    • 前向传播计算损失
    • 反向传播计算关于损失的梯度
    • 修剪梯度以免梯度爆炸
    • 用梯度下降更新规则更新参数。
  • 返回学习后了的参数watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzODczNDMx_size_16_color_FFFFFF_t_70 3

发表评论

表情:
评论列表 (有 0 条评论,221人围观)

还没有评论,来说两句吧...

相关阅读

    相关 循环神经网络RNN

    对于人类而言,以前见过的事物会在脑海中留下记忆,虽然随后记忆会慢慢消失,但是每当经过提醒,人们往往可以重拾记忆。在神经网络中也是一样,之前介绍的CNN模型都是与时间序列无关的模