本节的程序来源于项目 https://github.com/ashutoshkrjha/Cartpole-OpenAI-Tensorflow ,并做了适当修改。
直接运行:
python cartpole_pg.py
-
本章主要介绍的是Policy Gradient 算法,关于该算法的更多细节, 可以参考论文Policy Gradient Methods for Reinforcement Learning with Function Approximation。
-
除了几种最基础的强化学习方法:Q Learning、SARSA、DQN 和 Policy Gradient 之外,还有一些常用的强化学习方法,读者可以参阅 以下论文了解其细节:Continuous control with deep reinforcement learning(DDPG 算法)、Asynchronous Methods for Deep Reinforcement Learning(A3C 算法)、Proximal Policy Optimization Algorithms(PPO 算法)等。