RL_notes_and_codes

哎，readme.md里面的latex公式无法在线渲染，本地查看是没毛病的

1. 学习笔记包括

RL：

DL：

Spinning Up as a Deep RL Researcher

之前看的《动手学深度学习》(没看完，边敲边看看到了优化算法)，也有些遗忘，准备通过这个复习一遍，感觉系统的学还要等到系统学完机器学习吧。笔记在此

ML：

Machine_Learning_Foundations

2.强化学习资料

教程：

RL Course by David Silver无痛入门，建议看youtube视频(B站视频画质感人)。虽然没字幕，但都是日常用语，查了几个关键字之后就能听懂了

李宏毅的强化学习教程，讲的有点宽泛，有些公式有点难理解，可以当作科普

一位法国小哥的强化学习教程，讲的由浅入深，很适合入门。但是用tensorflow实现的，当时虽然对着他的代码敲了一遍。没系统学tensorflow，对训练时的session没有仔细理解。算是通过这个教程把基本的原理理解了吧。期间提到了一个policy gradient的教程，但实在公式太多了，而且很长，一直没去看。所以现在(2019/6/15)对policy gradient不是特别理解。大致理解为: 输入state，直接输出action，而不是输出值，选择Q值最大action。

morvanzhou的强化学习教程，个人来说不是很推荐，因为他把Q-learning讲的不是很清楚（似乎是讲错了？），所以就没往下看了，不过还是很感谢他！

MIT 6.S191: Introduction to Deep Learning，不知道怎么样，听说评价还挺好的，有时间去看看
书籍

Reinforcement Learning: An Introduciton，我买的是某宝上的打印版，英文原版也太贵了吧(好像已经下架了)。真心希望他不要吃灰把，不过英文版确实有点难啃。
Github_repo

收集的一些有意思和star数很高的github仓库

openai/gym，可以试着玩一下，star数很高，支持一些游戏和经典算法

Unity-Technologies/ml-agents，unity提供的环境，感觉会很有意思

deepmind/lab，鼎鼎有名的deepmind提供的3D强化学习环境

openai/retro，openai提供的retro游戏，似乎多到你无法想象

google/dopamine，谷歌的多巴胺强化学习框架，个人对框架不是很感冒
论文

知乎有大佬整理的论文合集，但我觉得我一辈子也看不完这么多论文的
国内研究强化学习的公司

或许学了不想学的时候就点开这些网页看看，给自己打打气吧

启元世界

深极智能 – 用人工智能改变游戏业

网易游戏伏羲人工智能实验室招聘--期待与你一起点亮游戏未来！
名校查询

在这里你可以看到全世界研究强化学习的一些高校，当然不止强化学习的查询

想想自己以后会去哪里呢，感觉加拿大是个不错的选择吧

3.Logs

Today(2019/6/12)，被CS234 Lecture2的notes和Assignments所吓到，准备老老实实看RL Course by David Silver了，江湖有缘再见吧

Today(2019/7/6)，到现在还有第九章的后一段和第十章没看，感觉已经差不多了，后边都是应用的，而且第十章的PPT也非常不清晰。由于我是直接在youtube上看的，没有字幕，确实有一点点难受。感觉讲的都比较基础把，所以用到了很多公式，在letax公式方面，自己也学到了一些。这门课相当于是鼻祖，所以会比其他课讲的都要好(个人感觉,因为其他课程也是在这门课上有所改进和删减)。算是把基础给通关了，之后的话自己可以根据别人的思路来写一些代码，可以从最简单最基础的写起。如果突然又想补补基础了，就把书或者berkeley的教程看一遍，加油鸭

Today(2019/7/13)，实现了Q-learning,policy gradient, DQN,准备开始学习ML。完成其中的作业并做一些kaggle的实战。

Today(2019/7/24)，继续实现了double,dueling DQN。理清了policy gradient中的REINFORCE和REINFORCE with baseline 的关系。今天终于把A2C完全理解了，准备过会实现它吧。ML不准备现在学，学CS231n到了Assignment1该交了，准备昨晚Assignment1再继续学吧，pytorch的基础教程学完了，准备开始学cv方向的。感觉这段时间确实做了很多事情，有点充实噢，继续加油鸭。突然看到了6/12号被notes2吓到的自己，感觉现在一点都不怂噢，因为我在翻译它噢，嘻嘻。准备学完dl和pytorch就去kaggle敲敲for beignner的kernel，稳！

Today(2019/10/9)，model-free算法基本都实现完了，sac无法正常学习，我也没办法，上课了，确实有点忙。还有20天，某个强化学习的比赛就要结束了，希望自己能尽早完成并取得好的名次把。不准备参加ml和dl的比赛了，虽然折腾几个月能通过套路得奖，拿奖金。但那样对我做强化学习没有太大的帮助，而且还有好多强化学习方面的比赛我还没参加完呢，感觉时间根本不够用啊。现在已经是第七周了，再过10周，这个学期就要结束了，去年这个时候自己所做的事情，还都历历在目呢。时间不等人啊，还有好多想法等着自己去实现呢（话说我有好久没有翻译notes2了，感到有点愧疚，哎）

Name		Name	Last commit message	Last commit date
Latest commit History 82 Commits
.ipynb_checkpoints		.ipynb_checkpoints
RL_by_David_Silver		RL_by_David_Silver
algorithm_implement		algorithm_implement
algorithm_reading		algorithm_reading
algorithm_test		algorithm_test
assets		assets
berkeley_CS294-112		berkeley_CS294-112
deep_learning		deep_learning
presentation		presentation
stanford_cs234_winter		stanford_cs234_winter
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
other_notes.md		other_notes.md
pushauto.sh		pushauto.sh
utils.ipynb		utils.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RL_notes_and_codes

1. 学习笔记包括

2.强化学习资料

教程：

书籍

Github_repo

论文

国内研究强化学习的公司

名校查询

3.Logs

About

Releases

Packages

Languages

License

sunnyswag/RL_notes_and_codes

Folders and files

Latest commit

History

Repository files navigation

RL_notes_and_codes

1. 学习笔记包括

2.强化学习资料

教程：

书籍

Github_repo

论文

国内研究强化学习的公司

名校查询

3.Logs

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages