#

proximal-policy-optimization

Here are 214 public repositories matching this topic...

MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

Updated Mar 31, 2024
Python

vwxyzjn / cleanrl

High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)

python machine-learning reinforcement-learning deep-learning deep-reinforcement-learning pytorch gym atari actor-critic ale proximal-policy-optimization ppo advantage-actor-critic a2c wandb phasic-policy-gradient

Updated Nov 14, 2024
Python

ikostrikov / pytorch-a2c-ppo-acktr-gail

PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) and Generative Adversarial Imitation Learning (GAIL).

Updated May 29, 2022
Python

OpenRLHF / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & RingAttention & RFT)

reinforcement-learning raylib transformers proximal-policy-optimization large-language-models reinforcement-learning-from-human-feedback vllm openai-o1

Updated Dec 19, 2024
Python

nikhilbarhate99 / PPO-PyTorch

Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch

reinforcement-learning deep-learning deep-reinforcement-learning pytorch policy-gradient reinforcement-learning-algorithms pytorch-tutorial proximal-policy-optimization ppo pytorch-implmention ppo-pytorch

Updated Jul 9, 2024
Python

Khrylx / PyTorch-RL

PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.

reinforcement-learning deep-reinforcement-learning pytorch generative-adversarial-network policy-gradient trpo fisher-vectors pytorch-rl proximal-policy-optimization ppo a2c

Updated Feb 9, 2021
Python

vietnh1009 / Super-mario-bros-PPO-pytorch

Proximal Policy Optimization (PPO) algorithm for Super Mario Bros

python mario reinforcement-learning ai deep-learning openai-gym python3 pytorch openai gym super-mario-bros proximal-policy-optimization ppo ppo2

Updated Jul 24, 2021
Python

TianhongDai / reinforcement-learning-algorithms

This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are still in progress)

algorithm deep-learning atari2600 flappy-bird deep-reinforcement-learning pytorch dqn ddpg sac actor-critic trpo dueling-dqn trust-region-policy-optimization proximal-policy-optimization ppo a2c soft-actor-critic

Updated Jan 16, 2021
Python

cpnota / autonomous-learning-library

A PyTorch library for building deep reinforcement learning agents.

reinforcement-learning deep-reinforcement-learning dqn reinforcement-learning-algorithms ddpg sac deep-q-learning deep-deterministic-policy-gradient proximal-policy-optimization ppo advantage-actor-critic a2c soft-actor-critic dqn-pytorch

Updated Mar 17, 2024
Python

ChenglongChen / pytorch-DRL

PyTorch implementations of various Deep Reinforcement Learning (DRL) algorithms for both single agent and multi-agent.

reinforcement-learning deep-reinforcement-learning pytorch multi-agent dqn rl deep-q-network ddpg drl actor-critic deep-deterministic-policy-gradient proximal-policy-optimization ppo advantage-actor-critic a2c acktr madrl

Updated Nov 11, 2017
Python

Omegastick / pytorch-cpp-rl

PyTorch C++ Reinforcement Learning

reinforcement-learning cplusplus cpp pytorch reinforcement-learning-algorithms continuous-control actor-critic pytorch-rl proximal-policy-optimization ppo advantage-actor-critic a2c libtorch pytorch-cpp-frontend

Updated May 3, 2020
C++

zuoxingdong / lagom

lagom: A PyTorch infrastructure for rapid prototyping of reinforcement learning algorithms.

Updated Nov 19, 2022
Jupyter Notebook

idreesshaikh / Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning

Deep Reinforcement Learning (PPO) in Autonomous Driving (Carla) [from scratch]

reinforcement-learning deep-learning deep-reinforcement-learning pytorch openai deep-learning-algorithms self-driving-car autonomous-driving self-driving ddqn self-driving-cars proximal-policy-optimization ppo carla-simulator carla-driving-simulator self-driving-car-simulation carla-environment

Updated Feb 6, 2024
Python

miroblog / tf_deep_rl_trader

Trading Environment(OpenAI Gym) + PPO(TensorForce)

trading tensorflow stock-market proximal-policy-optimization ppo tensorforce

Updated Dec 8, 2022
Python

lcswillems / torch-ac

Recurrent and multi-process PyTorch implementation of deep reinforcement Actor-Critic algorithms A2C and PPO

reinforcement-learning deep-reinforcement-learning pytorch recurrent-neural-networks multi-process a3c minigrid recurrent actor-critic proximal-policy-optimization ppo advantage-actor-critic a2c reward-shaping

Updated Oct 5, 2022
Python

asieradzk / RL_Matrix

Deep Reinforcement Learning in C#

machine-learning reinforcement-learning deep-learning dotnet deep-reinforcement-learning multi-agent multi-environment dqn cartpole reinforcement-learning-algorithms sac proximal-policy-optimization ppo reinforcement-learning-agent gail multi-agent-reinforcement-learning reinforcement-learning-environments soft-actor-critic gail-ppo

Updated Oct 17, 2024
C#

MarcoMeter / episodic-transformer-memory-ppo

Clean baseline implementation of PPO using an episodic TransformerXL memory

deep-reinforcement-learning pytorch transformer policy-gradient pomdp actor-critic proximal-policy-optimization ppo on-policy episodic-memory transformer-xl gtrxl trxl gated-transformer-xl memory-gym

Updated Jun 18, 2024
Python

CherryPieSexy / imitation_learning

PyTorch implementation of some reinforcement learning algorithms: A2C, PPO, Behavioral Cloning from Observation (BCO), GAIL.

reinforcement-learning deep-learning deep-reinforcement-learning pytorch policy-gradient imitation-learning proximal-policy-optimization ppo advantage-actor-critic a2c gail ppo-pytorch ppo-algo recurrent-ppo gail-ppo

Updated Nov 15, 2021
Python

vietnh1009 / Contra-PPO-pytorch

Proximal Policy Optimization (PPO) algorithm for Contra

reinforcement-learning ai deep-learning openai gym proximal-policy-optimization ppo contra ppo2 contra-nes

Updated Oct 6, 2023
Python

adik993 / ppo-pytorch

Proximal Policy Optimization(PPO) with Intrinsic Curiosity Module(ICM)

reinforcement-learning deep-learning pytorch icm proximal-policy-optimization ppo mountaincar-v0 cartpole-v1 intrinsic-curiosity-module generalized-advantage-estimation pendulum-v0

Updated Jan 12, 2019
Python

Improve this page

Add a description, image, and links to the proximal-policy-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the proximal-policy-optimization topic, visit your repo's landing page and select "manage topics."