强化学习:概述【强化学习的终极目标就是寻找“最优策略”,即沿着最优策略可以得到最大状态值】

ゝ一纸荒年。 2024-02-18 12:02 6阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,6人围观)

还没有评论,来说两句吧...

相关阅读

    相关 (一)强化学习概述

      强化学习近几年成为了研究的热门,AlphaGo的故事家喻户晓。作为一个准研究生,抱着极大的好奇心来学习这门理论,虽然网上已经有了许多参考资料,但知识还不是自己的。希望写这样

    相关 强化学习八、策略梯度

    到目前为止,前面分享的从MDP到DQN都是值函数的方法,值函数方法的思路是先通过策略评估和策略改善两个步骤优化值函数,然后通过最优的值函数来导出最优的策略,此时的最优策略是贪婪