【Python强化学习】马尔可夫决策过程与蒙特卡洛近似算法讲解(图文解释)

短命女 2023-09-30 18:16 24阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,24人围观)

还没有评论,来说两句吧...

相关阅读

    相关

    在做口令破解方面研究时遇到马尔可夫链,现在简单整理下相关内容。 安德烈·马尔可夫,俄罗斯人,物理-数学博士,圣彼得堡科学院院士,彼得堡数学学派的代表人物,以数论和概率论方面

    相关 决策过程

    在强化学习中,马尔科夫决策过程(Markov decision process, MDP)是对完全可观测的环境进行描述的,也就是说观测到的状态内容完整地决定了决策的需要的特征。