【强化学习】多臂赌博机问题(MAB)的UCB算法介绍

约定不等于承诺〃 2023-10-11 11:13 36阅读 0赞

发表评论

表情:
评论列表 (有 0 条评论,36人围观)

还没有评论,来说两句吧...

相关阅读

    相关 UCB算法缺陷

    UCB算法(Upper Confidence Bound)是一种在多臂老虎机问题中进行决策的算法。它的缺陷在于,当数据分布非常不平均时,它可能会偏向选择具有较高均值的臂,而忽略

    相关 强化学习实例:赌博机

    一、游戏背景 多臂赌博机是一种游戏机,在本文中是一种具有三个拉杆的游戏机,每拉动一个杆,就会有一些金币从机器里出来,每只杆拉动出现的金币都是不一样的,同一只杆拉动多次出现