Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Actualiser les bases de données (ENTD, INSEE) #5

Closed
1 of 5 tasks
louisegontier opened this issue May 13, 2022 · 5 comments
Closed
1 of 5 tasks

Actualiser les bases de données (ENTD, INSEE) #5

louisegontier opened this issue May 13, 2022 · 5 comments
Assignees
Milestone

Comments

@louisegontier
Copy link
Contributor

louisegontier commented May 13, 2022

ENTD : https://www.statistiques.developpement-durable.gouv.fr/resultats-detailles-de-lenquete-mobilite-des-personnes-de-2019?rubrique=60&dossier=1345

@FlxPo
Copy link
Contributor

FlxPo commented May 18, 2022

Je viens de créer une base pour le développement d'un fonction get_survey_data, qui crée les fichiers parquet la première fois qu'on l'utilise, et qui les charge simplement ensuite : https://github.com/mobility-team/mobility/blob/main/mobility/get_survey_data.py

Je voudrais faire évoluer la logique d’échantillonnage et les noms de variables (plus explicites), vous pouvez regarder la base du nouveau "TripSampler" pour voir comment cela pourrait fonctionner : https://github.com/mobility-team/mobility/blob/main/mobility/trip_sampler_2.py

@AntoineGauchot et Anne Sophie vous pouvez partir de cette base pour refaire l'intégration des données 2008 et ajouter celles de 2018 ?

@AntoineGauchot
Copy link
Contributor

AntoineGauchot commented May 24, 2022

Une 1ère version du code pour créer les fichiers parquet et les charger a été rédigée sur la branche entd_emd, avec notamment :
- la fonction prepare_entd_2008() qui crée les fichiers parquet à partir des fichiers de l'enquête ENTD 2008
- la fonction prepare_emd_2018_2019() qui crée les fichiers parquets à partir des fichiers de l'enquête EMP 2019
- la fonction get_survey_data(source) qui charge les fichiers parquet de l'enquête indiquée par source

Les fichiers parquet sont écrits de façon à permettre une nouvelle façon d'échantillonner. NB : cette nouvelle méthode n'est pas encore implémentée mais dans l'idée ressemblera à ça :
Voyages

  1. On calcule un nombre de voyages par an selon la CSP à partir de long_dist_travel_number.parquet
  2. On échantillonne autant de voyages dans la base travels.parquet (en fonction de la CSP, de la catégorie d'unité urbaine de résidence et de la motorisation)
  3. On récupère les longs déplacements associés à ces voyages dans long_dist_trips.parquet
  4. On calcule le nombre de jours passés en voyage, pour le travail (n1) et pour raisons personnelles (n2) à partir de la variable nb_nights de travels.parquet
  5. On échantillonne n1 jours de semaine et n2 jours de week-end dans la base des jours type de déplacements courts days_trip.parquet (en fonction de la CSP, de la catégorie d'unité urbaine de résidence et de la motorisation) pour simuler les déplacements locaux durant le voyage
  6. On récupère les déplacements courts associés à ces jours dans short_dist_trips.parquet

Mobilité quotidienne

  1. On calcule le nombre de jours d'immobilité par an en semaine m1 et le week-end m2 selon la CSP à partir de immobility_probability.parquet
  2. On échantillonne 365 jours de déplacements - n1 - n2 - m1 - m2 dans la base des jours type de déplacements quotidiens days_trip.parquet (en fonction du jour de la semaine (semaine ou week-end), la CSP, de la catégorie d'unité urbaine de résidence et de la motorisation)
  3. On récupère les déplacements courts associés à ces jours dans short_dist_trips.parquet

@FlxPo
Copy link
Contributor

FlxPo commented May 31, 2022

Merci pour ces propositions.

J'ai commencé quelques changements :

  • Quelques éléments de style (notamment les statements if stuff : do_stuff() sur une seule ligne), pour essayer de coller au style habituel python (https://peps.python.org/pep-0008/).
  • Changement de nom pour les données 2019, pour essayer d'avoir un seul nom : EMP-2019 (et pas emd ou emp, 2018-2019 ou 2019 comme c'était le cas jusqu'à présent).
  • Séparation des 3 fonctions prepare_entd_2008, prepare_emd_2018_2019 et get_survey_data dans 3 scripts : potentiellement on pourra avoir autant de scripts d'import que de données d'enquêtes, donc ce sera plus clair en les séparant bien.
  • Ajout du téléchargement des données depuis data.gouv.fr : il faut que le repository ne stocke pas de données pour le garder léger. Cela fonctionne sur mon poste, mais il faudra peut être ajouter un argument pour gérer les proxy des utilisateurs corporate (comme Elioth ou AREP).

Il manque juste le téléchargement pour les données 2008, je fais ça demain.

@FlxPo
Copy link
Contributor

FlxPo commented Jun 1, 2022

J'ai ajouté le téléchargement pour l'ENTD 2008 : 1ddab5f.

@FlxPo
Copy link
Contributor

FlxPo commented Jun 1, 2022

Tout semble OK ! J'ai fait un merge avec la branche main : #8

@FlxPo FlxPo closed this as completed Jun 1, 2022
@Mind-the-Cap Mind-the-Cap added this to the v0.1 milestone Feb 13, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants