Skip to content

sunnyswag/RL_notes_and_codes

Repository files navigation

RL_notes_and_codes

  • 哎,readme.md里面的latex公式无法在线渲染,本地查看是没毛病的

1. 学习笔记包括

RL

DL

ML

2.强化学习资料

  • 教程:

    RL Course by David Silver无痛入门,建议看youtube视频(B站视频画质感人)。虽然没字幕,但都是日常用语,查了几个关键字之后就能听懂了

    李宏毅的强化学习教程,讲的有点宽泛,有些公式有点难理解,可以当作科普

    一位法国小哥的强化学习教程,讲的由浅入深,很适合入门。但是用tensorflow实现的,当时虽然对着他的代码敲了一遍。没系统学tensorflow,对训练时的session没有仔细理解。算是通过这个教程把基本的原理理解了吧。期间提到了一个policy gradient的教程,但实在公式太多了,而且很长,一直没去看。所以现在(2019/6/15)对policy gradient不是特别理解。大致理解为: 输入state,直接输出action,而不是输出值,选择Q值最大action。

    morvanzhou的强化学习教程,个人来说不是很推荐,因为他把Q-learning讲的不是很清楚(似乎是讲错了?),所以就没往下看了,不过还是很感谢他!

    MIT 6.S191: Introduction to Deep Learning,不知道怎么样,听说评价还挺好的,有时间去看看

  • 书籍

    Reinforcement Learning: An Introduciton,我买的是某宝上的打印版,英文原版也太贵了吧(好像已经下架了)。真心希望他不要吃灰把,不过英文版确实有点难啃。

  • Github_repo

    收集的一些有意思和star数很高的github仓库

    openai/gym,可以试着玩一下,star数很高,支持一些游戏和经典算法

    Unity-Technologies/ml-agents,unity提供的环境,感觉会很有意思

    deepmind/lab,鼎鼎有名的deepmind提供的3D强化学习环境

    openai/retro,openai提供的retro游戏,似乎多到你无法想象

    google/dopamine,谷歌的多巴胺强化学习框架,个人对框架不是很感冒

  • 论文

    知乎有大佬整理的论文合集,但我觉得我一辈子也看不完这么多论文的

  • 国内研究强化学习的公司

    或许学了不想学的时候就点开这些网页看看,给自己打打气吧

    启元世界

    深极智能 – 用人工智能改变游戏业

    网易游戏伏羲人工智能实验室招聘--期待与你一起点亮游戏未来!

  • 名校查询

    这里你可以看到全世界研究强化学习的一些高校,当然不止强化学习的查询

    想想自己以后会去哪里呢,感觉加拿大是个不错的选择吧

3.Logs

​ Today(2019/6/12),被CS234 Lecture2的notes和Assignments所吓到,准备老老实实看RL Course by David Silver了,江湖有缘再见吧

​ Today(2019/7/6),到现在还有第九章的后一段和第十章没看,感觉已经差不多了,后边都是应用的,而且第十章的PPT也非常不清晰。由于我是直接在youtube上看的,没有字幕,确实有一点点难受。感觉讲的都比较基础把,所以用到了很多公式,在letax公式方面,自己也学到了一些。这门课相当于是鼻祖,所以会比其他课讲的都要好(个人感觉,因为其他课程也是在这门课上有所改进和删减)。算是把基础给通关了,之后的话自己可以根据别人的思路来写一些代码,可以从最简单最基础的写起。如果突然又想补补基础了,就把书或者berkeley的教程看一遍,加油鸭

​ Today(2019/7/13),实现了Q-learning,policy gradient, DQN,准备开始学习ML。完成其中的作业并做一些kaggle的实战。

​ Today(2019/7/24),继续实现了double,dueling DQN。理清了policy gradient中的REINFORCE和REINFORCE with baseline 的关系。今天终于把A2C完全理解了,准备过会实现它吧。ML不准备现在学,学CS231n到了Assignment1该交了,准备昨晚Assignment1再继续学吧,pytorch的基础教程学完了,准备开始学cv方向的。感觉这段时间确实做了很多事情,有点充实噢,继续加油鸭。突然看到了6/12号被notes2吓到的自己,感觉现在一点都不怂噢,因为我在翻译它噢,嘻嘻。准备学完dl和pytorch就去kaggle敲敲for beignner的kernel,稳!

​ Today(2019/10/9),model-free算法基本都实现完了,sac无法正常学习,我也没办法,上课了,确实有点忙。还有20天,某个强化学习的比赛就要结束了,希望自己能尽早完成并取得好的名次把。不准备参加ml和dl的比赛了,虽然折腾几个月能通过套路得奖,拿奖金。但那样对我做强化学习没有太大的帮助,而且还有好多强化学习方面的比赛我还没参加完呢,感觉时间根本不够用啊。现在已经是第七周了,再过10周,这个学期就要结束了,去年这个时候自己所做的事情,还都历历在目呢。时间不等人啊,还有好多想法等着自己去实现呢(话说我有好久没有翻译notes2了,感到有点愧疚,哎)

About

学习强化学习过程中的笔记和代码

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published