Google DeepMind 팀이 발표한 Dueling DQN을 실습해봅시다.
- Corridor Environment에서의 Policy Evaluation 실습(논문의
Figure 3
) Atari Enduro-v0
환경에서 vanilla DQN과 Dueling DQN이 찾은 final policy의 퍼포먼스 비교 실습
- 5 Actions
- 10 Actions
- 20 Actions
- Conclusion
- 수렴 속도 측면에서 Dueling stream의 위력을 관찰할 수 있음.
- 본 실험에서의 Single stream는 논문의 Single stream 보다 퍼포먼스가 안 좋음.
- 반대로, 본 실험에서의 Dueling stream은 논문의 Dueling stream보다 더 좋은 퍼포먼스를 보임.
- Note
- epsilon값을 논문과 달리
0.01
로 설정하였음.
- epsilon값을 논문과 달리