-
Notifications
You must be signed in to change notification settings - Fork 0
In the project, a linear regression model is trained on California housing data in 1990. The goal is to predict the median value of a house in a residential area. The metrics RMSE, MAE and R2 are used to assess the quality of the model. As well as pyspark/mllib methods were used.
natalliakarnilava/mllib
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Описание проекта В проекте нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году. На основе данных нужно предсказать медианную стоимость дома в жилом массиве. Для оценки качества модели используются метрики RMSE, MAE и R2. Ход выполнения проекта: 1. Инициализация локальной Spark-сессии. 2. Предобработка данных с использованием методов pyspark o Обработка пропусков o Преобразование колонки с категориальными значениями техникой One hot encoding. 3. Построение двух моделей линейной регрессии (LinearRegression из библиотеки MLlib) на разных наборах данных: o используя все данные из файла; o используя только числовые переменные, исключив категориальные. 4. Оценка результатов работы линейной регрессии по метрикам RMSE, MAE и R2. Описание данных: В колонках датасета содержатся следующие данные: • longitude — широта; • latitude — долгота; • housing_median_age — медианный возраст жителей жилого массива; • total_rooms — общее количество комнат в домах жилого массива; • total_bedrooms — общее количество спален в домах жилого массива; • population — количество человек, которые проживают в жилом массиве; • households — количество домовладений в жилом массиве; • median_income — медианный доход жителей жилого массива; • median_house_value — медианная стоимость дома в жилом массиве; • ocean_proximity — близость к океану.
About
In the project, a linear regression model is trained on California housing data in 1990. The goal is to predict the median value of a house in a residential area. The metrics RMSE, MAE and R2 are used to assess the quality of the model. As well as pyspark/mllib methods were used.
Topics
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published