深度学习-神经网络:AWD-LSTM

以你之姓@ 2023-10-04 08:52 176阅读 0赞

语言模型可以说是NLP中最基本的任务,无论是词向量,预训练模型,文本生成等任务中都带有语言模型的影子。

语言模型本质上是对一个自然世界中存在的句子建模,描述一个句子发生的概率,因此语言模型也是一个自回归的任务。

语言模型是一个上下文强依赖的任务,不仅需要捕获长距离的信息,还需要学到词之间的位置关系,从目前的技术来看,RNN系的模型在语言模型任务上的表现要优于transformer,主要原因还是因为Transformer在学习词位置关系时的能力弱于RNN,毕竟RNN是严格的从前到后循环依赖的。

一、AWD-LSTM简介

RNN在语言模型任务中的表现是非常优秀的,而且RNN的结构和语言模型的任务特性也很好的切合。

但RNN的循环连接容易过拟合。

本片论文就是围绕这一点展开的研究,提出了很多中解决RNN过拟合的技术,这一类技术不仅可以用在语言模型中,也可以用在其他RNN建模的任务中。

LSTM作为RNN系列中最优秀的代表变体,论文就是在不改变LSTM的原有结构上,引入各种正则化技术,提升模型的泛化能力,改善语言模型的性能。

二、正则化方法优化LSTM

1、weighte-dropped LSTM

2、Variable length backpropagation sequences

3、Variational dropout

#

发表评论

表情:
评论列表 (有 0 条评论,176人围观)

还没有评论,来说两句吧...

相关阅读

    相关 神经网络深度学习(三)

    1 神经网络与深度学习 1.3 神经网络基础之Python与向量化   上节课我们主要介绍了逻辑回归,以输出概率的形式来处理二分类问题。我们介绍了逻辑回归的Cost