強化学習 (reinforcement learning)

ページ構成の際、次の情報源を参考にした。

概要

エージェントが環境の中で行動する毎に、新たな状態を観測し、かつ正または負の報酬を与えることで、エージェントが環境内で最も収益の良い行動を取るように導く機械学習の手法。

初めに、強化学習で用いられる用語と変数について、由来を次の通りまとめる。

強化学習における訓練のサイクルは次の通り。

また、強化学習のタスクは次の2つに分類される。

エピソードタスク
- 終わりのある問題。
- 囲碁、Atariのゲームなど。
- gymnasium.Env#stepの返すterminatedの値がTrueの場合、それはエピソードの終了を意味する。
連続タスク
- 終わりのない問題。
- 在庫管理の問題、ロボットの操作の問題など。

学習の流れとタスクの分類を踏まえて、深層強化学習のアルゴリズムはモデルベースとモデルフリー、更にモデルフリーは価値ベースと方策ベースに分類される。

モデルベース
モデルフリー
- 価値ベース
  - ロールアウトがエピソード単位に行われる傾向がある
- 方策ベース
  - ロールアウトが固定タイムステップで行われる傾向がある

gymnasium.Envにおいては、強化学習は次のように抽象化されている。