Демонстрация применения методов преобразования и очистки данных

Описание проекта

Преобразование данных – это сложный процесс подготовки данных для дальнейшего исследования, который включает в себя сортировку, группировку, составление сводных таблиц и объединение данных. Очистка данных - это процесс обнаружения и удаления (или исправления) поврежденных, ложных или неинформативных записей таблицы или целой базы данных. Процесс состоит из двух этапов: поиск и ликвидация (или редактирование).

Основные этапы подготовки данных:

Группировка данных
Сортировка данных
объединение данных
Работа с пропущенными значениями.
Очистка данных от пропусков.
Удаление признаков и записей, которые не несут полезной информации.

Цель преобразования и очистки данных — создать новые важные признаки и избавиться от «мусора», который может помешать моделированию или исказить его результаты. Во многих задачах преобразование и очистка данных — это самая главная часть этапа подготовки данных к построению модели, которая нередко занимает большую часть времени работы над задачей.

Данный проект направлен на демонстрацию применения различных методов преобразования и очистки данных на примере датасета из базы данных резюме на HeadHunter.

О структуре проекта:

plotly - папка с графиками в формате html
Project-1. Ноутбук-шаблон.ipynb - jupyter-ноутбук, содержащий основной код проекта

Описание данных

В этом проекте используются данные с сайта по поиску вакансий HeadHunter.

Требования состояли в том, чтобы избавиться от лишних неинформативных признаков, выделив из них наиболее важные признаки для работодателя такие, как: "Пол", "Возраст", "Опыт работы в месяцах", "ЗП в рублях", "Готовность к переездам и к командировкам", "Город", "Тип рабочего графика".

Исходный датасет представляет собой набор данных с информацией об ожидаемой зарплате соискателей в разных валютах, а также данные о возрасте, опыте работы, городе, желаемом графике работы и т.д.

Для демонстрации техники преобразования и очистки данных мы использовали два датасета с резюме, а также курсами валют. Они содержат информацию об 11 и 7 признаках соответственно.

Используемые зависимости

Python (3.9):

Установка проекта

git clone https://github.com/Blef0099/HeadHunterProject

Использование

Вся информация о работе представлена в jupyter-ноутбуке по ссылке https://drive.google.com/file/d/1xpMh7QKYPYGlN_F2VcSsvjjBPTPmZSEd/view?usp=share_link

Ссылки на графики plotly к разделу "Исследование данных":

Задание 1. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/age_distribution.html
Задание 8. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/anomaly_line.html
Задание 5. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/city_salary.html
Задание 2. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/exp_distribution.html
Доп баллы https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/gender_ed.html
Задание 7. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/pivot.html
Задание 6. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/ready_to_move.html
Задание 4. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/reduced_salary_diagram.html
Доп баллы https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/salary_by_city.html
Задание 3. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/salary_distribution.html

Авторы

[Иванов Дмитрий]

Выводы

Данный проект учит начинающего датасайнтиста правильно подходить к работе с данными. Это работа требует значительного усердия и внимательности обращения с данными, так как именно от этого этапа будет зависить на сколько правильно будут интерпретированы данные на выходе, какие будут сделаны выводы или как будет работать созданная на базе этих данных модель.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
plotly		plotly
.gitignore		.gitignore
Project-1. Ноутбук-шаблон.ipynb		Project-1. Ноутбук-шаблон.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Демонстрация применения методов преобразования и очистки данных

Оглавление

Описание проекта

Описание данных

Используемые зависимости

Установка проекта

Использование

Авторы

Выводы

About

Releases

Packages

Languages

Blef0099/HeadHunterProject

Folders and files

Latest commit

History

Repository files navigation

Демонстрация применения методов преобразования и очистки данных

Оглавление

Описание проекта

Описание данных

Используемые зависимости

Установка проекта

Использование

Авторы

Выводы

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages