Implementação da proximal policy optimization (PPO) usando tensorflow com comentários em português
CartPole-v0 do open ai gym
espaço de estado: contínuo
espaço de ação: discreto
python3.6
tensorflow v1.4
open ai gym
python main.py
python test_policy.py
tensorboard --logdir=log
MIT LICENSE