【深度学习】新的深度学习优化器探索(协同优化)
【深度学习】新的深度学习优化器探索(协同优化)
文章目录
1 RAdam VS Adam
2 自适应优化
3 LookAhead
3.1 “侵入式”优化器
3.2 LookAhead 中的参数:
4 RAdam 加 LookAhead 的一个实现:Ranger
1 RAdam VS Adam
1,目的
想找到一个比较好的优化器,能够在收敛速度和收敛的效果上都比较好。
目前sgd收敛较好,但是慢。
adam收敛快,但是容易收敛到局部解。
常用解决adam收敛问题的方法是,自适应启动方法。
2,adam方法的问题
adam在训练的初期,学习率的方差较大。
根本原因是因为缺少数据,导致方差大。
学习率的方差大,本质上自适应率的方差大。
可以控制自适应率的方差来改变效果。
3,Radam,控制自适应率的方差
一堆数学公式估计出自适应率的最大值和变化过程。
提出了Rad
还没有评论,来说两句吧...