Skip to content

In the project, a linear regression model is trained on California housing data in 1990. The goal is to predict the median value of a house in a residential area. The metrics RMSE, MAE and R2 are used to assess the quality of the model. As well as pyspark/mllib methods were used.

Notifications You must be signed in to change notification settings

natalliakarnilava/mllib

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

Описание проекта
В проекте нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году. На основе данных нужно предсказать медианную стоимость дома в жилом массиве.  Для оценки качества модели используются метрики RMSE, MAE и R2.

Ход выполнения проекта:
1. Инициализация локальной Spark-сессии.
2. Предобработка данных с использованием методов pyspark
o Обработка пропусков 
o Преобразование колонки с категориальными значениями техникой One hot encoding.
3. Построение двух моделей линейной регрессии (LinearRegression из библиотеки MLlib) на разных наборах данных:
o используя все данные из файла;
o используя только числовые переменные, исключив категориальные.
4. Оценка результатов работы линейной регрессии по метрикам RMSE, MAE и R2. 

Описание данных: 
В колонках датасета содержатся следующие данные:
• longitude — широта;
• latitude — долгота;
• housing_median_age — медианный возраст жителей жилого массива;
• total_rooms — общее количество комнат в домах жилого массива;
• total_bedrooms — общее количество спален в домах жилого массива;
• population — количество человек, которые проживают в жилом массиве;
• households — количество домовладений в жилом массиве;
• median_income — медианный доход жителей жилого массива;
• median_house_value — медианная стоимость дома в жилом массиве;
• ocean_proximity — близость к океану.

About

In the project, a linear regression model is trained on California housing data in 1990. The goal is to predict the median value of a house in a residential area. The metrics RMSE, MAE and R2 are used to assess the quality of the model. As well as pyspark/mllib methods were used.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published