强化学习：Policy-based方法 Part 1

更新时间：2022-10-12 12:10:19

本次，我们将学习一种被称为策略梯度（Policy Gradients）的基于策略的（policy-based）强化学习技术。Part1部分，我们将着重讨论基于值方法的局限性，以及基于策略方法的优势。在part2部分中，我们将具体介绍基于策略方法的实现过程，届时我们将实现两个agent，第一个将学习如何保持木棍的平衡；

第二个将学习如何在Doom的敌对环境中，通过收集体力生存下去。

在policy-based方法中，实际上并没有学习到一个值函数，来帮助我们了解某一状态下各动作的奖励是多少。而是直接学习策略函数，将状态映射为动作。

这意味着我们将直接尝试优化策略函数π，而不需要考虑值函数。当然，仍然可以使用值函数去优化策略参数，但值函数将不会用于动作的选择过程。

在本文章中，你将学到：
Part1：什么是策略梯度，以及优势、劣势是什么
Part2：如何在Tensorflow中实现它

为什么使用基于策略的方法？

两种策略：确定的与随机的。确定策略将状态映射为动作。输入一个状态，函数将返回一个动作。

强化学习：Policy-based方法 Part 1

确定策略被用于确定的环境中。这些环境中，所选择的动作决定了结果。一切都是确定性的。例如，当你玩国际象棋游戏，并且将士兵从A2移动到A3，可以预期到，士兵一定会移动到A3的。

而另一方面，一个随机策略会输出一个动作上的可能性分布。

强化学习：Policy-based方法 Part 1

这意味着与确定动作不同，有一定的可能采取一个相反的动作（在这个案例中，有30%的概率朝南走）。这个随机的策略将使用在不确定的环境中。我们称这种过程为部分可观测的马尔可夫过程（Partially Observable Markov Decision Process，POMDP）。大多数时间，我们使用第二种策略。

三个主要优势

趋同性（Convergence）：

基于策略的方法有更好的趋同特点。基于值的方法在训练时可能产生非常大的波动。这是由于动作估计价值的微小变化，也有可能对动作选择产生极大影响。

另一方面，策略梯度中，仅仅跟随梯度去寻找***的参数值，可以看到每一步的更新过程都非常平滑。由于我们跟随梯度寻找参数，所以可以保证找到局部最优解（不好的结果）或全局最优解（好的结果）。

强化学习：Policy-based方法 Part 1