Reinforcement Learning Algorithms

Introduction

This repository includes implementations of the following algorithms:

Deep Q-Learning: Utilizing experience replay and target networks.
Multi-Armed Bandits: Including strategies like epsilon-greedy and Upper Confidence Bound (UCB).
N-step Tree Backup: Implementation for n-step bootstrapping.
Off-Policy Learning: Algorithms such as Q-learning.
On-Policy Learning: Methods like SARSA.
Thompson Sampling: Bayesian approach for balancing exploration and exploitation.
Expected SARSA: An enhancement over SARSA with expected rewards.
Gradient Preference-Based Methods: Various policy gradient algorithms.
Policy Iteration: Classical dynamic programming algorithm for solving MDPs.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
ABET RL.pdf		ABET RL.pdf
Comparison.ipynb		Comparison.ipynb
DQLearning.ipynb		DQLearning.ipynb
LICENSE		LICENSE
Multi-armed Bandits report.pdf		Multi-armed Bandits report.pdf
Nsteptree.ipynb		Nsteptree.ipynb
Off policy.ipynb		Off policy.ipynb
On policy.ipynb		On policy.ipynb
README.md		README.md
SARSA.ipynb		SARSA.ipynb
ThompsonSampling.ipynb		ThompsonSampling.ipynb
UCB_and_esilonGreedy.ipynb		UCB_and_esilonGreedy.ipynb
expSARSA.ipynb		expSARSA.ipynb
gradient_preference_based.ipynb		gradient_preference_based.ipynb
policy_iteration.ipynb		policy_iteration.ipynb