Hello and welcome to my Data Science portfolio! This repository serves as a central hub showcasing a collection of my projects demonstrating skills and experience in data analysis, machine learning, and artificial intelligence. Each project folder contains Jupyter Notebooks with detailed code, explanations, and visualizations.
Название проекта | Сфера деятельности | Направление деятельности | Навыки и инструменты | Метрики качества | Методы визуального анализа | Задачи проекта | Описание проекта | Ключевые слова проекта |
---|---|---|---|---|---|---|---|---|
1. Исследование данных сервиса “Яндекс.Музыка” — сравнение пользователей двух городов | Интернет-сервисы; Стриминговый сервис | Data Analyst | Python; Pandas | Сотрировки, группировки, анализ уникальности | Текстовый вывод | На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга. | На реальных данных Яндекс.Музыки вы проверите данные и сравните поведение пользователей двух столиц. | data analyst; аналитик данных; аналитик; analyst |
2. Исследование надёжности заёмщиков — анализ банковских данных | Банковская сфера;Кредитование | Data Analyst; Финансовый аналитик | EDA; Python; Pandas | Сотрировки, группировки, анализ уникальности | Текстовый анализ | На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок | На основе данных кредитного отдела банка исследовал влияние семейного положения и количества детей на факт погашения кредита в срок. Была получена информация о данных. Определены и обработаны пропуски. Заменены типы данных на соответствующие хранящимся данным. Удалены дубликаты. Категоризованы данные. Один датафрейм декомпозирован на три. | data analyst, налитик данных, аналитик, финансовый аналитик, analyst |
3. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости | Интернет-сервисы; Площадки объявлений | Маркетинг-аналитик; Fraud-аналитик; Data Analyst | Python; Pandas; Matplotlib; EDA; визуализация данных; предобработка данных; Конвертация типов серий;Обработка пропусков; Анализ на уникальность;Визуализация плотности точек данных на плоскости | tbd | Столбчатая гистограмма; Круговая гистрограмма; Гексагональная бининг-диаграмма; Наложение гистограм; Ящик с усами;Диаграмма рассеяния; Матрица диаграм рассеяния(matplot) | Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир | На основе данных сервиса Яндекс.Недвижимость определена рыночная стоимость объектов недвижимости разного типа, типичные параметры квартир, в зависимости от удаленности от центра. Проведена редобработка данных. Добавлены новые данные. Построены гистограммы, боксплоты, диаграммы рассеивания. | маркетинговый аналитик; фрод аналитик; fraud analyst; data analyst; аналитик данных; аналитик; analyst; обработка данных; histogram; boxplot; scattermatrix; категоризация; scatterplot; фрод-мониторинг |
4. Определение выгодного тарифа для телеком компании | Телеком | Маркетинг-аналитик; Продуктовый аналитик; Data Analyst | Python; Pandas; Matplotlib; Seaborn; NumPy; SciPy; описательная статистика; проверка статистических гипотез; Дерево решений; Случайный лес; Логистическая регрессия; Подбор гиперпараметра | accuracy;precission;recall | Матрица диаграм рассеяния(seaborn); Сравнительный анализ моделей | На основе данных клиентов оператора сотовой связи проанализировать поведение клиентов и поиск оптимального тарифа | Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей. Проведена предобработка данных, их анализ. Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов. | аналитик; analyst; аналитик данных; data analyst |
8. Определение наиболее выгодного региона нефтедобычи | Добывающие компании | Машинное обучение; Регррессия; Разработка; бизнес-модели; Финансовый аналитик; Расчет прибыли и рисков | Matplotlib; Seaborn; Pandas; Scikit-learn; бутстреп;Линейная зависимость;Нелинейная зависимость;полиномиальная регрессия | RMSE; R2 | Boxplot; Histogram; Матрица диаграм рассеяния; Матрица корелияции; Масштабирование признаков; Анализ остатков модели(Диаграма рассеяния, Гистограмма распределения); Наложение диаграм | На основе данных геологи разведки выбрать район добычи нефти | По предоставленым данным пробы нефти в трёх регионах. Построить модель для определения региона, где добыча принесёт наибольшую прибыль. | аналитик; analyst; аналитик данных; data analyst; data scientist; ML Engineer |
15. Прогнозирование количества заказов такси на следующий час. | Бизнес; Интернет-сервисы;Стартапы | Машинное обучение | Python; Pandas; Scikit-learn; statsmodels; RandomizedSearchCV; LinearRegression; SARIMA; SARIMAX Time series; Скользящее среднее; Анализ на монотонность; Аггрегация временных рядов;Feature Engineering; Pipeline | ADF(Augmented Dicke-Fuller); KPSS; RMSE | график частичной автокорреляции(PACF); ACF; Линейный график; Scatter plot; Динамика роста; Тренды; Сезонность; Шумы; Анализ на стационарность | Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания. | Задача: построить модель для прогноза количества заказов такси на следующий час. | временные ряды; регрессия; предсказания |
16. Обучение модели классификации комментариев. | Бизнес; Интернет-сервисы;Стартапы | NLP; Машинное обучение | Python; Pandas; Scikit-learn; RandomizedSearchCV; BERT; nltk; tf-idf; LinearRegression; SGDClassifier; CatBoost; Undersampling | ROC-AUC; Precission-Recall;F1 | Гистограммы; PR-Curve; PR-Threshold; ROC-Curve; Learning-Curve | Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. | Задача: Требуется инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. | NLP; Токенизация; Лемматизация; Эмбединги; Отчистка и подготовка корпуса |
20. Оптимизация процесса восстановление золота из руды | Горнодобывающая промышленность | Машинное обучение; Регррессия; Разработка; бизнес-модели; Финансовый аналитик; Расчет коэфициента обогощения руды | Pandas; Scikit-learn; Matplotlib; NumPy; SciPy; Линейная Регрессиия; Решающее дерево(DecisionTreeRegressor); Случайный лес(RandomForestRegressor); DummyRegressor | МАЕ(самостоятельная реализация);SMAPE | Гистограммы; BoxPlot; HeatMap(Матрица кореляции); График регрессии c доверительным интервалом (Seaborn.regplot); Гистограммы с плотностью ядра (KDE); графики оценки плотности ядра (KDE) Анализ распределения размеров гранул на обучающей и тестовой выборках; | На основе предоставленных данных разработать модель оптимизирующую эффективность процесса флотации драгоценных металлов | Разработка прототипа модели машинного обучения для заказчикаЖ Компания «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель предсказает коэффициент восстановления золота из золотосодержащей руды на основе предоставленных производственных данных с параметрами добычи и очистки. | аналитик; analyst; аналитик данных; data analyst; data scientist; ML Engineer |
21. Прогнозирование удоя и вкуса молока | Сельское хозяйство | Машинное обучение; Логистическая регрессия; ; Классификация; Разработка; бизнес-модели; Предсказание заданных качеств | Pandas; Scikit-learn; Matplotlib; NumPy; SciPy;Pipeline; OneHotEncoder; Feature Engineering; Нелинейная зависимость;Метод Спирмена; Масштабирование признаков; | R2;MSE;MAE;RMSE;Accuracy; Precission; Recall | Barplot(сравнение метрик качества);Pie chart; Histogram; BoxPlot; Heatmap; Диаграммы рассеяния;Scatter plot; Анализ остатков; Матрица ошибок(Confusion matrix); график кривой Precision-Recall для модели логистической регрессии | Заказчик хочет, чтобы каждая корова давала не менее 6000 килограммов молока в год, а её надой был вкусным — строго не хуже заданных характеристик качества | Разработать модель МО, которая поможет управлять рисками и принимать объективное решение о покупке. Поставщик, коров «ЭкоФерма» предоставил подробные данные о своих стадах. Необходимо создать две прогнозные модели для отбора коров в поголовье заказчика: 1. Модель МО для прогноза возможного удоя коровы (целевой признак Удой); 2. Модель МО для рассчита вероятности получить молоко удовлетворяющее заданным органолептическим характеристикам заказчика (целевой признак Вкус молока). | аналитик; analyst; аналитик данных; data analyst; data scientist; ML Engineer |
22. Исследование снижения покупательской активности | Интернет-сервисы; Онлайн магазины | Машинное обучение; Регррессия; Разработка; бизнес-модели | Pandas; Scikit-learn; SimpleImputer; OneHotEncoder;OrdinalEncoder; StandardScaler;DecissionTreeClassifier; KNeighborsClassifier;SVC; LogisticRegression; RandomizedSearchCV; Matplotlib; NumPy; SciPy;Pipeline | ROC-AUC | График ROC-AUC для логистической регрессии; Barplot; Piechart; Boxplot; Гистограммы распределения с наложением(seaborn); Heatmp; Анализ важности признаков; Сегментация покупателей; Анализ распределения с наложением | Разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность. | Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. | аналитик; analyst; аналитик данных; data analyst; data scientist; ML Engineer |
23. Исследование продаж компьютерных игр | Маркетинг-аналитик; Продуктовый аналитик; Data Analyst | описательная статистика; проверка статистических гипотез | Python; Pandas; Matplotlib; NumPy; SciPy; Pivot tables | не применимо | Barplot; Линейные графики с наложением; Boxplot(seaborn); Scatter plot; Hexbin | Интернет-магазин заказал провести исследование по выявлению закономерностей определяющиех успешность игры. | На данных продажам игр выявить потенциально популярные игры | data analyst; аналитик данных; аналитик; analyst |