Материалы блока 4 "Машинное обучение" специализации DS
Семинарист: Евгений Ковалев (telegram: @KovalevEvgeny)
Ассистент: Нарек Алвандян (telegram: @narekvslife)
Лекции проходят по вторникам с 19:00 до 22:00.
Таблица с оценками: https://docs.google.com/spreadsheets/d/1miyCGvU1o9fHAP4VhNxBaQ68AAxEONXSSYgWENgtEc4/edit#gid=0
- Оценка_итоговая = 0.8 * Оценка_ДЗ + 0.2 * Оценка_тесты
- 10-балльная система оценивания
- Для зачета нужно получить 6 и выше
Лекция 1. Введение и основные задачи. (23.06.2020)
Лекция 2. Линейная регрессия. (30.06.2020)
Лекция 3. Градиентные методы обучения. (07.07.2020)
Лекция 4. Линейная классификация и метрики качества классификации. (14.07.2020)
Лекция 5. Логистическая регрессия и SVM. (21.07.2020)
Лекция 6. Многоклассовая классификация, работа с категориальными признаками и текстами. (28.07.2020)
Лекция 7. Решающие деревья. (01.09.2020)
Лекция 8. Бэггинг и случайные леса. (08.09.2020)
Лекция 9. Градиентный бустинг. (15.09.2020)
Лекция 10. Градиентный бустинг: имплементации. (22.09.2020)
Лекция 11. Отбор признаков и понижение размерности. (29.09.2020)
Консультация. (05.10.2020)
Лекция 12. Кластеризация. (06.10.2020)
Лекция 13. Поиск аномалий. (15.10.2020)
Лекция 14. Рекомендательные системы. (20.10.2020)
Лекция 15. Ранжирование. (27.10.2020)
Лекция 16. Заключение, соревнования. (03.11.2020)
За сдачу задания позже срока на итоговую оценку за задание накладывается штраф в размере 0.25 балла в день, но получить отрицательную оценку нельзя.
Загрузка файлов с решениями происходит в системе Anytask. Для доступа к курсу вам нужно зарегистрироваться в системе, войти в свой профиль, найти раздел "Активация инвайтов на курсы" и ввести инвайт.
Инвайт: lInNu4j
Домашнее задание №1
- Темы:
numpy
,pandas
,matplotlib
- Ссылка: https://github.com/KovalevEvgeny/dpo-ml-2020/tree/master/homeworks/hw01
- Дата выдачи: 30.06.2020
- Дедлайн: 14.07.2020 23:59
Домашнее задание №2
- Темы: Линейная регрессия и градиентный спуск
- Ссылка: https://github.com/KovalevEvgeny/dpo-ml-2020/tree/master/homeworks/hw02
- Дата выдачи: 17.07.2020
- Дедлайн: 02.08.2020 23:59
- Дедлайн со штрафом (максимум 8 баллов): 10.09.2020 23:59
Домашнее задание №3
- Темы: Линейная классификация, метрики качества классификации
- Ссылка: https://github.com/KovalevEvgeny/dpo-ml-2020/tree/master/homeworks/hw03
- Дата выдачи: 22.09.2020
- Дедлайн: 06.10.2020 23:59
Домашнее задание №4
- Темы: Решающие деревья и ансамбли
- Ссылка: https://github.com/KovalevEvgeny/dpo-ml-2020/tree/master/homeworks/hw04
- Дата выдачи: 11.10.2020
- Дедлайн: 28.10.2020 23:59
Домашнее задание №5 (дополнительное)
- Темы: Кластеризация
- Ссылка: https://github.com/KovalevEvgeny/dpo-ml-2020/tree/master/homeworks/hw05
- Дата выдачи: 27.10.2020
- Дедлайн: 10.11.2020 23:59
У первых 4 книг есть перевод на русский язык, но советую читать в оригинале.
- S. Raschka, V. Mirjalili. Python Machine Learning: Machine Learning and Deep Learning with Python, Scikit-learn, and TensorFlow
- Aurélien Géron. Hands-On Machine Learning with Scikit-Learn and TensorFlow (2nd Edition)
- Andriy Burkov. The Hundred-Page Machine Learning Book
- Andrew Ng. Machine Learning Yearning
- Yaser Abu Mostafa, Malik Magdon-Ismail, and Hsuan-Tien Lin. Learning from Data: A Short Course
- G. James, D. Witten, T. Hastie, R. Tibshirani. An Introduction to Statistical Learning
- T. Hastie, R. Tibshirani, J. Friedman. The Elements of Statistical Learning
- Open Data Science (международное сообщество, объединяющее специалистов, исследователей и инженеров, связанных с Data Science): https://ods.ai/
Онлайн-курсы
- Open Machine Learning Course: https://mlcourse.ai/
- Andrew Ng, "Machine Learning": https://www.coursera.org/learn/machine-learning
- ВШЭ & Яндекс, «Введение в машинное обучение»: https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie
- ВШЭ & Яндекс, специализация "Advanced Machine Learning": https://www.coursera.org/specializations/aml (более продвинутый уровень)
- Free AI, ML, Deep Learning Video Lectures: https://www.marktechpost.com/free-ai-ml-deep-learning-video-lectures/
Начало работы
- Anaconda (дистрибутив для Python, содержащий в том числе Jupyter Notebook и сам Python): https://www.anaconda.com/products/individual - рекомендуется версия Python 3.6 или больше; не забудьте выбрать нужную операционную систему!
- документация по Jupyter: https://jupyter.readthedocs.io/en/latest/
- документация по pip (для установки пакетов в Python с помощью
pip install
): https://pip.readthedocs.io/en/latest/ - PyCharm: https://www.jetbrains.com/pycharm/
Общее
- для любых вопросов: https://www.google.com/
- для (почти) любых ответов: https://stackoverflow.com/
- статьи о теориях, подходах, методах и алгоритмах машинного обучения: http://www.machinelearning.ru/wiki/index.php?title=Категория:Энциклопедия_анализа_данных
- A visual introduction to machine learning: http://www.r2d3.us/
Python & Jupyter
- Learn Python (Python 3 tutorial): https://www.learnpython.org/
- A Crash Course in Python for Scientists (Python 2): http://nbviewer.jupyter.org/gist/rpmuller/5920182
- A Gallery of interesting Jupyter Notebooks: https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks
- Markdown Cheatsheet: https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet
Соревнования
- Kaggle: https://www.kaggle.com/
- DrivenData: https://www.drivendata.org/competitions/