Actualiser les bases de données (ENTD, INSEE) #5

louisegontier · 2022-05-13T11:56:35Z

ENTD : https://www.statistiques.developpement-durable.gouv.fr/resultats-detailles-de-lenquete-mobilite-des-personnes-de-2019?rubrique=60&dossier=1345

Ajouter une branche specifique pour l'actualisation des données #6
Lien entre les noms de variable 2008 et 2018
Mise à jour de la population par csp (INSEE - 2018)
Mise à jour du script entd.py
Ajout de nouvelles variables si possible ? (variable sur la part des vélos? catégorisation des villes?)

FlxPo · 2022-05-18T16:33:59Z

Je viens de créer une base pour le développement d'un fonction get_survey_data, qui crée les fichiers parquet la première fois qu'on l'utilise, et qui les charge simplement ensuite : https://github.com/mobility-team/mobility/blob/main/mobility/get_survey_data.py

Je voudrais faire évoluer la logique d’échantillonnage et les noms de variables (plus explicites), vous pouvez regarder la base du nouveau "TripSampler" pour voir comment cela pourrait fonctionner : https://github.com/mobility-team/mobility/blob/main/mobility/trip_sampler_2.py

@AntoineGauchot et Anne Sophie vous pouvez partir de cette base pour refaire l'intégration des données 2008 et ajouter celles de 2018 ?

AntoineGauchot · 2022-05-24T09:19:37Z

Une 1ère version du code pour créer les fichiers parquet et les charger a été rédigée sur la branche entd_emd, avec notamment :
- la fonction prepare_entd_2008() qui crée les fichiers parquet à partir des fichiers de l'enquête ENTD 2008
- la fonction prepare_emd_2018_2019() qui crée les fichiers parquets à partir des fichiers de l'enquête EMP 2019
- la fonction get_survey_data(source) qui charge les fichiers parquet de l'enquête indiquée par source

Les fichiers parquet sont écrits de façon à permettre une nouvelle façon d'échantillonner. NB : cette nouvelle méthode n'est pas encore implémentée mais dans l'idée ressemblera à ça :
Voyages

On calcule un nombre de voyages par an selon la CSP à partir de long_dist_travel_number.parquet
On échantillonne autant de voyages dans la base travels.parquet (en fonction de la CSP, de la catégorie d'unité urbaine de résidence et de la motorisation)
On récupère les longs déplacements associés à ces voyages dans long_dist_trips.parquet
On calcule le nombre de jours passés en voyage, pour le travail (n1) et pour raisons personnelles (n2) à partir de la variable nb_nights de travels.parquet
On échantillonne n1 jours de semaine et n2 jours de week-end dans la base des jours type de déplacements courts days_trip.parquet (en fonction de la CSP, de la catégorie d'unité urbaine de résidence et de la motorisation) pour simuler les déplacements locaux durant le voyage
On récupère les déplacements courts associés à ces jours dans short_dist_trips.parquet

Mobilité quotidienne

On calcule le nombre de jours d'immobilité par an en semaine m1 et le week-end m2 selon la CSP à partir de immobility_probability.parquet
On échantillonne 365 jours de déplacements - n1 - n2 - m1 - m2 dans la base des jours type de déplacements quotidiens days_trip.parquet (en fonction du jour de la semaine (semaine ou week-end), la CSP, de la catégorie d'unité urbaine de résidence et de la motorisation)
On récupère les déplacements courts associés à ces jours dans short_dist_trips.parquet

FlxPo · 2022-05-31T16:29:26Z

Merci pour ces propositions.

J'ai commencé quelques changements :

Quelques éléments de style (notamment les statements if stuff : do_stuff() sur une seule ligne), pour essayer de coller au style habituel python (https://peps.python.org/pep-0008/).
Changement de nom pour les données 2019, pour essayer d'avoir un seul nom : EMP-2019 (et pas emd ou emp, 2018-2019 ou 2019 comme c'était le cas jusqu'à présent).
Séparation des 3 fonctions prepare_entd_2008, prepare_emd_2018_2019 et get_survey_data dans 3 scripts : potentiellement on pourra avoir autant de scripts d'import que de données d'enquêtes, donc ce sera plus clair en les séparant bien.
Ajout du téléchargement des données depuis data.gouv.fr : il faut que le repository ne stocke pas de données pour le garder léger. Cela fonctionne sur mon poste, mais il faudra peut être ajouter un argument pour gérer les proxy des utilisateurs corporate (comme Elioth ou AREP).

Il manque juste le téléchargement pour les données 2008, je fais ça demain.

FlxPo · 2022-06-01T14:53:12Z

J'ai ajouté le téléchargement pour l'ENTD 2008 : 1ddab5f.

FlxPo · 2022-06-01T16:18:11Z

Tout semble OK ! J'ai fait un merge avec la branche main : #8

FlxPo assigned AntoineGauchot and FlxPo May 18, 2022

FlxPo closed this as completed Jun 1, 2022

Mind-the-Cap added this to the v0.1 milestone Feb 13, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Actualiser les bases de données (ENTD, INSEE) #5

Actualiser les bases de données (ENTD, INSEE) #5

louisegontier commented May 13, 2022 •

edited by AntoineGauchot

Loading

FlxPo commented May 18, 2022

AntoineGauchot commented May 24, 2022 •

edited

Loading

FlxPo commented May 31, 2022 •

edited

Loading

FlxPo commented Jun 1, 2022

FlxPo commented Jun 1, 2022

Actualiser les bases de données (ENTD, INSEE) #5

Actualiser les bases de données (ENTD, INSEE) #5

Comments

louisegontier commented May 13, 2022 • edited by AntoineGauchot Loading

FlxPo commented May 18, 2022

AntoineGauchot commented May 24, 2022 • edited Loading

FlxPo commented May 31, 2022 • edited Loading

FlxPo commented Jun 1, 2022

FlxPo commented Jun 1, 2022

louisegontier commented May 13, 2022 •

edited by AntoineGauchot

Loading

AntoineGauchot commented May 24, 2022 •

edited

Loading

FlxPo commented May 31, 2022 •

edited

Loading