Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Comparaison cas d'usage arrow et duckdb #530

Merged
merged 7 commits into from
Jun 23, 2024

Conversation

JulienBlasco
Copy link
Contributor

Dans la foulée de la publication de cette superbe fiche duckdb, je propose d'ajouter un petit tableau synthétique comparant certains cas d'usage de duckdb et arrow. En l'état actuel des choses, il me semble en effet difficile pour un utilisateur débutant de savoir pourquoi utiliser l'un, l'autre ou les deux packages.

C'est une ébauche : le contenu du tableau est ouvert à discussion, pour ajouter ou retirer des items.
J'ai choisi de le mettre dans la partie introductive après "Quels sont les avantages de duckdb?" et "Quels sont les points d’attention à l’usage ?", mais je suis là aussi ouvert à la discussion.

@ericemc3
Copy link

ericemc3 commented Jun 5, 2024

Bonne idée !
Note après lecture du tableau : DuckDB exporte bien en parquet, y compris des partitions.

@oliviermeslin oliviermeslin marked this pull request as ready for review June 5, 2024 13:45
@JulienBlasco
Copy link
Contributor Author

DuckDB exporte bien en parquet, y compris des partitions.

Oui en effet ! C'est juste que le package duckdb ne propose pas de fonction pour le faire directement en R, contrairement au package arrow. Je ne sais pas ce qu'il en est du côté de duckplyr. Peut-être qu'on peut le mettre en note du tableau ? Je fais une proposition.

@ericemc3
Copy link

ericemc3 commented Jun 5, 2024

Je pensais à quelque chose comme :
dbExecute(con, "
COPY 'results.csv' to 'data/export/' (FORMAT PARQUET, PARTITION_BY (reg));
")

@JulienBlasco
Copy link
Contributor Author

@ericemc3 : j'ai ajouté une référence à la section adéquate 4c1a643

Copy link
Contributor

@oliviermeslin oliviermeslin left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Merci @JulienBlasco !

03_Fiches_thematiques/Fiche_duckdb.qmd Outdated Show resolved Hide resolved
03_Fiches_thematiques/Fiche_duckdb.qmd Outdated Show resolved Hide resolved
JulienBlasco and others added 2 commits June 6, 2024 12:11
La fonction arrow::open_dataset() permet également de traiter des csv sans les charger entièrement en mémoire
- typographie
- ajout fonctionnalités "joindre des tables volumineuses" et "utiliser des fonctions fenêtre"

Co-authored-by: Olivier Meslin <44379737+oliviermeslin@users.noreply.github.com>
@JulienBlasco
Copy link
Contributor Author

Hello et merci @oliviermeslin : j'ai validé tes corrections et modifié le tableau pour prendre en compte la possibilité d'arrow de travailler sur des CSV. C'est bon pour moi !

@linogaliana
Copy link
Contributor

Top ! Merci beaucoup @JulienBlasco ! Je merge

@linogaliana linogaliana merged commit ec96ee8 into InseeFrLab:master Jun 23, 2024
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants