关于AlphaGo的一些理解 落日映苍穹つ 2023-07-11 13:59 10阅读 0赞 深度模型加蒙特卡洛树搜索,不需要外界知识的模型 1.深度模型 **动态规划与强化学习的目标:** * 基于环境而行动,以取得最大化的预期利益 **动态规划与强化学习的不同点** * 动态规划要求环境的变化规律确定并且已知 * 强化学习不要求这个条件 *可以把动态规划作为简单班的强化学习来帮助理解。* 强化学习的基本思路: 给你一个环境,机器人会有一个行动,如果行动好,会有奖励,行动不好,会有惩罚,这样,不断与环境互动获得反馈,来优化行动。 强化学习的基本框架的数学表达(马尔科夫决策过程): S代表状态集合 A代表可采取的行动集合 R代表奖励函数 ![20200305161355254.png][] T代表转移函数(动态规划问题中,T是已知的): ![在这里插入图片描述][20200305161502479.png] 学习目标,策略函数: ![在这里插入图片描述][20200305161527330.png] 围棋强化模型的基本思想: * 估算对手落子概率分布 * 估算每一个局面上的获胜概率 * 利用这些知识,针对当前的局面选择最优落子位置 围棋强化模型的基本困难: * 为期的可能局面太多(大概有2.08\*10^170之多) * 围棋变化极多,难以估计对手的下法 利用专家提供的数据进行模型训练 在围棋问题上,就是利用人类棋谱来训练落子模型,模拟人类专家的落子策略 * AlphaGo利用上百万个人类高手对弈的棋谱进行训练的深度模型,对人类高手的模拟准确度可达到57% * 但是单靠模拟人类,还是不能战胜人类 AlphaGo的另一个重要组成部分是估值网络: * 利用落子网络进行自我对弈得到胜负数据,从而训练局面估值网络 * 估值网络同样可以提供策略指导 AlphaGo的最后一个部分是快速落子结合蒙特卡洛树搜索: * AlphaGo训练一个比较简单但是更加快速的落子模型,结合蒙特卡洛树来提供策略。 最终战胜李世石和柯杰的AlphaGo是如上三种策略的混合策略。 [20200305161355254.png]: https://img-blog.csdnimg.cn/20200305161355254.png [20200305161502479.png]: https://img-blog.csdnimg.cn/20200305161502479.png [20200305161527330.png]: https://img-blog.csdnimg.cn/20200305161527330.png
还没有评论,来说两句吧...