DDPG – 编码无悔 / Intent & Focused

DDPG（Deep Deterministic Policy Gradient，深度确定性策略梯度）是强化学习领域的一种知名算法。
如何理解其中的Deterministic（确定性）这个名词？
通俗地说，对一个状态(state)来说，根据这个state所采取的action有可能是带有随机性的。在两次与environment交互的时候，即使是一模一样的state，所采取的action也有可能不同，这就不是一种“确定性”的策略。
对一种“确定性”的策略来说，只要state相同，它给出的action必然相同。