【深度学习】新的深度学习优化器探索(协同优化)

小灰灰 2022-10-07 08:58 214阅读 0赞

【深度学习】新的深度学习优化器探索(协同优化)

在这里插入图片描述

  1. 文章目录
  2. 1 RAdam VS Adam
  3. 2 自适应优化
  4. 3 LookAhead
  5. 3.1 “侵入式”优化器
  6. 3.2 LookAhead 中的参数:
  7. 4 RAdam LookAhead 的一个实现:Ranger

1 RAdam VS Adam

1,目的
想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较好。
目前sgd收敛较好,但是慢。
adam收敛快,但是容易收敛到局部解。
常用解决adam收敛问题的方法是,自适应启动方法。

2,adam方法的问题
adam在训练的初期,学习率的方差较大。

根本原因是因为缺少数据,导致方差大。

学习率的方差大,本质上自适应率的方差大。

可以控制自适应率的方差来改变效果。

3,Radam,控制自适应率的方差
一堆数学公式估计出自适应率的最大值和变化过程。

提出了Rad

发表评论

表情:
评论列表 (有 0 条评论,214人围观)

还没有评论,来说两句吧...

相关阅读

    相关 深度学习优化总结

    深度学习(一般指深度神经网络DNN)有几个关键的要素:训练集,网络结构,损失函数(目标函数),优化方法。这里记录一下优化方法相关知识点吧。 为什么使用优化器 训练DNN

    相关 深度学习优化算法

    梯度下降沿着整个训练集的梯度方向下降。可以使用随机梯度下降很大程度地加速,沿着随机挑选的小批量数据的梯度下降。 批量算法和小批量算法 使用小批量的原因 n个