Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

This is the code for reproducing the results of the paper Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization accepted as Notable-top-5% at ICLR'2023.

The discrete version of IVR on Atari datasets can be found at https://github.com/ryanxhr/Discrete_IVR.

Usage

Our code is built on the jax version code of IQL (https://github.com/ikostrikov/implicit_q_learning). Paper reuslts can be reproduced by running ./run_mujoco.sh, ./run_antmaze.sh and ./run_kitchen.sh.

Bibtex

@inproceedings{xu2023offline,
  title  = {Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization},
  author = {Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor Wai Kin Chan, Xianyuan Zhan},
  year   = {2023},
  booktitle = {International Conference on Learning Representations},
}

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
configs		configs
wrappers		wrappers
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
actor.py		actor.py
common.py		common.py
critic.py		critic.py
dataset_utils.py		dataset_utils.py
evaluation.py		evaluation.py
learner.py		learner.py
policy.py		policy.py
requirements.txt		requirements.txt
run_antmaze.sh		run_antmaze.sh
run_kitchen.sh		run_kitchen.sh
run_mujoco.sh		run_mujoco.sh
train_finetune.py		train_finetune.py
train_offline.py		train_offline.py
value_net.py		value_net.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

Usage

Bibtex

About

Releases

Packages

Languages

License

AIR-DI/IVR

Folders and files

Latest commit

History

Repository files navigation

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

Usage

Bibtex

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages