强化学习-Q-learning

﹏ヽ暗。殇╰゛Y 2022-11-13 06:23 304阅读 0赞

QLearning是强化学习算法中value-based 的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。

算法:
在这里插入图片描述
Q更新公式:
在这里插入图片描述
S1 为 s 对应的下一个状态有(1,2,4都是状态3对应的非负状态),随机地,我们选择其中一个座位s1.

例子:
假设我们在一个建筑物中有5个房间,这些房间由门相连,如下图所示。 我们将每个房间编号为0到4。建筑物的外部可以视为一个大房间(5)。 请注意,1号和4号门从5号房间(外部)通向建筑物。
在这里插入图片描述
初始化:-1不可达,0可达,100可达终点(其中状态2表示起点,5表示终点)
初始化reward:
在这里插入图片描述
初始化Q:
在这里插入图片描述

第一步:随机选择一个状态,其中α=1,γ=0.8,例如1:

在这里插入图片描述
以此类推进行计算,因为是随机选择下一状态,有一部分可能计算不一样,多轮迭代,收敛。

最终:
在这里插入图片描述

所以:
在这里插入图片描述

发表评论

表情:
评论列表 (有 0 条评论,304人围观)

还没有评论,来说两句吧...

相关阅读

    相关 强化学习6

    1 关键词 DDPG(Deep Deterministic Policy Gradient): 在连续控制领域经典的RL算法,是DQN在处理连续动作空间的一个扩充。

    相关 强化学习:Q-学习

    这篇教程通过简单且易于理解的实例介绍了Q-学习的概念知识,例子描述了一个智能体通过非监督学习的方法对未知的环境进行学习。 假设我们的楼层内共有5个房间,房间之间通过一道门相