Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fichiers au format Parquet #16

Open
ColinMaudry opened this issue Apr 28, 2024 · 1 comment
Open

Fichiers au format Parquet #16

ColinMaudry opened this issue Apr 28, 2024 · 1 comment

Comments

@ColinMaudry
Copy link

Bonjour,

Afin de proposer un format de fichier

  • facilement manipulable par les outils d'ingénierie
  • compact
  • respectueux du typage des colonnes

serait-il possible de proposer également les données au format Parquet ?

Je veux bien m'en charger si une personne bien informée me dit où cela doit être ajouté dans le flow de publication 😃

@ColinMaudry
Copy link
Author

ColinMaudry commented Apr 28, 2024

À vue de nez ça se passe par ici, du moins pour les fichiers SIRENE au format v2019 (ceux qui m'intéressent).

Je vois qu'à aucun moment les données CSV sont persistées sur le disque dans un format décompressé.

Naïvement je ferais un script Python qui ressemble à ça :

import pandas as pd

# prend le premier argument de la commande comme chemin de dossier ou fichier

df = pd.read_csv("path/to/.gz") # pd.read_csv() gère les csv gzippés

# je corrige les dtypes
# ...

df.to_parquet("path/to/.parquet)

Si le contenu du gzip tient en mémoire, ça devrait marcher.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant