强化学习八、策略梯度

た入场券 2021-09-25 09:22 490阅读 0赞

到目前为止，前面分享的从MDP到DQN都是值函数的方法，值函数方法的思路是先通过策略评估和策略改善两个步骤优化值函数，然后通过最优的值函数来导出最优的策略，此时的最优策略是贪婪策略，也就是在给定状态s，寻找最大状态值函数的动作，它是一个状态空间到动作空间的有限映射。

其实值函数的方法是有一些局限性的：

1、策略π是通过值函数产生的，但是有时候值函数很难计算的，比如让机器人打乒乓球，你需要前后左右移动来接球，计算小球在某一个位置是采取什么样的行动是很困难的。

2、对于高纬度或者连续的状态空间，值函数方法在得到价值函数后，很难通过比较各种动作的价值大小来制定策略。

3、值函数学习到的策略往往是贪婪的，其实有时候并非是最好的策略，比如我们在玩石头剪刀布游戏的时候，随机策略往往是最好的。

4、部分值函数在迭代后期会围绕最优价值函数波动而不收敛。

我们回顾一下强化学习的目的：通过智能体与环境的交互来获得累计回报的期望（因为每次交互是随机的，所以求期望）最大，我们定义每次试验所获得的累积回报为![图片][1fc4c97bb0372bedcdd602e8341e0715.png]，也就是求期望R最大，其实我们可以直接来优化策略使得这个回报最大，这正是策略梯度的思路。策略梯度不是像值函数方法中一样把策略看作是概率集合，而是直接把策略参数化，如下：![图片][3340859a574852d5576dfce8af09d0cb.png]。

首先我们从免模型开始，之前已经介绍过MC和TD两种免模型方法，思路是通过与环境交互来获得样本，然后进行后续的值函数计算，我们现在从极大似然的角度来看策略梯度：

假如有一次试验结果如下：

![图片][fad59ca09a7869f805f6ca20ceae39ad.png]

，s表示状态，a表示基于前面状态s采用的动作。那我们计算一下本次试验出现的概率

![图片][7fedfc5a1df70c823ac596c05d62d038.png]![图片][7b680f32ac420c235bb532440d946219.png]表示策略的参数。

那么多次试验的期望回报为：![图片][6592d4b042a2606aabbd496b99ec3d53.png]，其中

![图片][71953474984256b8890dbb28f2511d16.png]，表示每次试验回报总和。现在已经有了策略梯度的目标函数![图片][08c92362ff49b885811c42bea3b4d887.png]，那么只需要求解目标函数的梯度![图片][014f11baf9ad4321122988bd90fb6a1f.png]即可。

下面详细介绍一下![图片][014f11baf9ad4321122988bd90fb6a1f.png]的推导过程：

![图片][9af3354d1b454265691839fe0b9b955d.png]![图片][dee268cda09e8ccc5df8dee81263b314.png]不需要是可微分的，是黑箱子。

![图片][dee268cda09e8ccc5df8dee81263b314.png]控制了参数更新的方向和步长，类似神经网络中的学习率，![图片][dee268cda09e8ccc5df8dee81263b314.png]为正且越大，参数更新后该试验出现的概率会越大；反之，会抑制该试验的出现。![图片][ee2742610540bc8888091ad16ca92483.png]是t时刻状态s下采取动作a的概率随参数变化最陡的方向。

公式推导小技巧：![图片][ee50e8024645db060155a8969c33b989.png]

下面我们看一下策略梯度更新的流程和步骤，如下图所示：

![图片][ae0de64c7f51ec661d0303b42a7ba7c5.png]

首先根据初始策略![图片][508a727055d777417719e2528b99c257.png]与环境交互获取多次试验，由于在每次试验中出现的状态以及对应的动作都是随机的，所以需要把每次试验的状态-动作pair以及获得的总回报记录下来，梯度使用这些试验记录下来的值，根据公式![图片][6989912fd64eeb5923b4a21f0b3190a2.png]计算策略梯度的值，然后使用

![图片][fb99a6c459c926879d06e51eb9c7d1a7.png]来更新策略，更新后，之前策略产生的数据就没用了，可以删除，然后根据新的策略重新与环境交互得到新试验的状态-动作pair以及获得的总回报，重新更新策略，如此往复，直到策略收敛。

**策略梯度公式改进：**

原梯度更新公式：![图片][6989912fd64eeb5923b4a21f0b3190a2.png]                   （1）

1、从公式（1）看出，如果环境给予的回报始终为正，那么我们无论我们的决策如何，最终的累积的长期回报值都是一个正数。换句话说，我们会增强所有的策略，只是对于实际效果并不好的策略，我们为其提升的幅度有所降低。这样的更新方法和我们的初衷并不一致，我们降低不好行动的概率，而不是轻微提升不好的行动概率。我们可以在累计总回报![图片][5aeed62e1bafffbf0b5a9449b1f927af.png]上减去一个偏移量b，使得![图片][41daf3a89fd3a56699cf97be668a5368.png]在不同的试验中有正有负，修改后公式如下：

![图片][bb66e0f34291051211647e30ff3a9a28.png]                                       （2）

最简单的b可以使用所有试验累计回报的期望值，如

2、从修改后公式（2）中我们可以看到一个问题，不论是那个时间段，我们都要用策略的梯度乘以所有时刻的回报值总和，这样的设计显然是不合理的。因为理论上，在t时刻我们完成了决策后，它最多只能影响t时刻之后的所有回报，并不会影响t时刻之前的回报，因为我们无法通过现在的决策影响已经发生过的事情，所以这一部分的回报值不应该计算在梯度中，所以可以做如下修改：

![图片][bae28e50f79bfeba62d8db59d41cd7ee.png]                                       （3）

3、从公式（3）看出，还有改进空间，直观上讲，未来离当前越远，当前的决定应该对其产生的影响越小，修改如下：

![图片][25e2a93fca6425f99c9b7f55a035a816.png]

，其中![图片][9efb96194fa10158ed563a66140ed9ac.png]

致谢：非常感谢李宏毅老师的视频https://www.bilibili.com/video/av24724071

[1fc4c97bb0372bedcdd602e8341e0715.png]: https://img-blog.csdnimg.cn/img_convert/1fc4c97bb0372bedcdd602e8341e0715.png
[3340859a574852d5576dfce8af09d0cb.png]: /images/20210923/ab1c8907cfb04535844fc882ff6341ee.png
[fad59ca09a7869f805f6ca20ceae39ad.png]: /images/20210923/9070a34827bf4b97980723699c077377.png
[7fedfc5a1df70c823ac596c05d62d038.png]: https://img-blog.csdnimg.cn/img_convert/7fedfc5a1df70c823ac596c05d62d038.png
[7b680f32ac420c235bb532440d946219.png]: /images/20210923/d654c94fa3c14d20b5b7a807dbfd558b.png
[6592d4b042a2606aabbd496b99ec3d53.png]: /images/20210923/fbf80212c5414088b9eb399ccd92809a.png
[71953474984256b8890dbb28f2511d16.png]: https://img-blog.csdnimg.cn/img_convert/71953474984256b8890dbb28f2511d16.png
[08c92362ff49b885811c42bea3b4d887.png]: https://img-blog.csdnimg.cn/img_convert/08c92362ff49b885811c42bea3b4d887.png
[014f11baf9ad4321122988bd90fb6a1f.png]: /images/20210923/0cc1d0ede4f54348b170a0907766a46d.png
[9af3354d1b454265691839fe0b9b955d.png]: https://img-blog.csdnimg.cn/img_convert/9af3354d1b454265691839fe0b9b955d.png
[dee268cda09e8ccc5df8dee81263b314.png]: /images/20210923/fbfc4a3cb83a4bd0a24e49255dda9430.png
[ee2742610540bc8888091ad16ca92483.png]: /images/20210923/cee18d1c77ea49ff98d1cd9d4294c1f1.png
[ee50e8024645db060155a8969c33b989.png]: /images/20210923/fb8fefc57217403b882447d4a9000c33.png
[ae0de64c7f51ec661d0303b42a7ba7c5.png]: /images/20210923/09b10d3f30cf4d9b92efb94d9ebdc663.png
[508a727055d777417719e2528b99c257.png]: https://img-blog.csdnimg.cn/img_convert/508a727055d777417719e2528b99c257.png
[6989912fd64eeb5923b4a21f0b3190a2.png]: /images/20210923/a01120ed95524701af1ba99623756849.png
[fb99a6c459c926879d06e51eb9c7d1a7.png]: /images/20210923/d8dd3d2dc43f41af99b81f9bda33d193.png
[5aeed62e1bafffbf0b5a9449b1f927af.png]: https://img-blog.csdnimg.cn/img_convert/5aeed62e1bafffbf0b5a9449b1f927af.png
[41daf3a89fd3a56699cf97be668a5368.png]: /images/20210923/73daf285bdf6475d81fc0569a0ea625f.png
[bb66e0f34291051211647e30ff3a9a28.png]: /images/20210923/8ba64f37a1b04305aaba6853763ca516.png
[bae28e50f79bfeba62d8db59d41cd7ee.png]: /images/20210923/e40e9437452443f78e780449a8cb66e4.png
[25e2a93fca6425f99c9b7f55a035a816.png]: /images/20210923/ad1faaafaf464d39be6904d74fa956d9.png
[9efb96194fa10158ed563a66140ed9ac.png]: /images/20210923/e1e4bdab5d384358a5085c005ac78ab0.png