L'objectif de ce projet était d'apprendre à utiliser le framework PySpark.
Pour cela, nous avions à disposition un jeu de données sur les positions (latitude/longitude) de conducteurs. De plus, nous avions un jeu de données sur certaines zones géographiques de la capitale du Pérou (Lima).
L'objectif premier objectif était de déterminer quand quelles zones étaient passés les véhicules pendant leur trajet. Il fallait établir un top 10 des zones les plus empruntées.
La seconde question était plus ouverte. Nous avons décidé de calculer la vitesse moyenne des usagers et de sortir quelques statistiques comme par exemple l'évolution de ces vitesses à travers les moments de la journée. Enfin, nous avons calculé la zone ou les usagers vont le plus vite.
Voici le code du projet : notebook