Momentan sind folgende Algorithmen implementiert:
- Q-Learning
Das Grid-World Environment besteht aus einem schachbrettartigen Feld, wie oben im Bild zu sehen. Der Agent hat das Ziel, von seinem Startpunkt aus zum Ziel zu gelangen, um eine Belohnung zu erhalten.
Umgewandelt in die Repräsentation, die das CLI versteht, sieht die obere Abbildung folgendermaßen aus:
000000021
002000020
302000020
002000000
000002000
000000000
In der folgenden Tabelle sind alle möglichen Zustände mit ihrer Bedeutung aufgelistet:
Nummer in Textdatei | Zustand in Umgebung |
---|---|
0 | Normales Feld, welches der Agent betreten kann |
1 | Zielfeld, gibt Belohnung von +5 |
2 | Hindernis |
3 | Spawnpunkt |
4 | Gefährliches Feld, Agent erhält Bestrafung von -5 |
Ausprobiert werden kann das Szenario mittels folgendem Befehl, wobei das obere Grid in der Datei datei.grid
gespeichert sein muss.
<jar> run --agent 2d-moving-agent --environment grid-world --steps 5000000 --envopts from=datei.grid