강화 학습 핵심 이론부터 문제 풀이, 심층 강화 학습까지 한 권에!
이 책의 특징은 제목 그대로 ‘밑바닥부터 만들어가는 것’입니다. 속을 알 수 없는 외부 라이브러리에 의존하지 않고 강화 학습 알고리즘을 처음부터 구현하면서 배웁니다. 그림으로 원리를 이해하고 수학으로 강화 학습 문제를 풀어본 다음, 코드로 구현해 배운 내용을 되짚어봅니다. 코드는 최대한 간결하면서도 강화 학습에서 중요한 아이디어가 명확하게 드러나도록 짰습니다. 단계적으로 수준을 높이면서 다양한 문제에 접할 수 있도록 구성하였으니 강화 학습의 어려움과 재미를 모두 느낄 수 있을 것입니다.
미리보기 | 알려진 오류(정오표) | 본문 그림과 수식 이미지 모음
폴더 이름 | 설명 |
---|---|
ch01 | 1장에서 사용하는 소스 코드 |
... | ... |
ch09 | 9장에서 사용하는 소스 코드 |
common | 공통으로 사용하는 소스 코드 |
notebooks | 주피터 노트북 형태의 소스 코드 |
pytorch | 파이토치용으로 포팅된 소스 코드 |
이 책의 코드는 주피터 노트북으로도 제공됩니다. 다음 표의 링크를 클릭하면 구글과 캐글 같은 클라우드 서비스에서 노트북을 실행할 수 있습니다.
장 | Colab | 캐글 | Studio Lab |
---|---|---|---|
1장 밴디트 문제 | |||
4장 동적 프로그래밍 | |||
5장 몬테카를로법 | |||
6장 TD법 | |||
7장 신경망과 Q 러닝 | |||
8장 DQN | |||
9장 정책 경사법 |
소스 코드를 실행하려면 아래의 소프트웨어가 설치되어 있어야 합니다.
- 파이썬 3.x
- NumPy
- Matplotlib
- OpenAI Gym
- DeZero (혹은 파이토치)
이 책은 딥러닝 프레임워크로 DeZero를 사용합니다. DeZero는 시리즈 3편에서 만든 프레임워크입니다('pip install dezero' 명령으로 설치할 수 있습니다).
파이토치를 사용한 구현은 pytorch 디렉터리에서 제공합니다.
예제 코드들은 장별로 나눠 저장되어 있습니다. 실행하려면 다음과 같이 파이썬 명령을 실행하세요.
$ python ch01/avg.py
$ python ch08/dqn.py
$ cd ch09
$ python actor_critic.py
보다시피 각 디렉터리로 이동 후 실행해도 되고, 상위 디렉터리에서 ch0x 디렉터리를 지정해 실행해도 됩니다.
"<밑바닥부터 시작하는 딥러닝>의 주인공 생선들은 딥러닝 기술로 바닷속 생태계를 어떻게 혁신하고 있을까요? 어공지능의 첨단을 이끌어가는 밑시딥 생선들과 신나는 모험을 떠나보세요."
바닷속 세계를 배경으로, 해양 생물들이 자신의 특성과 필요에 맞는 딥러닝 기술을 개발하여 문제를 해결해 나가는 모험을 그린 연작 소설입니다. 시리즈를 읽으신 분은 더 많은 재미를 느끼실 수 있도록 딥러닝 요소들을 곳곳에 삽입하였습니다.
각 편의 주인공과 주제는 다음과 같습니다.
- 시야를 찾아서: 쏨뱅이(쏨)가 이미지 처리 기술을 개발하여 주변 환경을 선명하게 파악
- 상어공주: 괭이상어 공주(꽹)가 자연어 처리 기술로 돌고래 왕자와의 사랑을 쟁취
- DeZero의 창조자: 나뭇잎해룡(잎룡)이 딥러닝 프레임워크를 만들어 기술 보급과 협업 촉진
- 제발, 가즈아!: 가자미(가즈아)가 심층 강화 학습으로 먹이가 풍부한 새로운 바다 개척
- 피쉬카소와 천재의 초상: 유령실고기(피쉬카소)가 이미지 생성 모델로 바닷속 예술계 혁신
이 저장소의 소스 코드는 MIT 라이선스를 따릅니다. 상업적 목적으로도 자유롭게 이용하실 수 있습니다.