Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajouter une fiche arrow #498

Merged
merged 100 commits into from
Jan 31, 2024
Merged

Ajouter une fiche arrow #498

merged 100 commits into from
Jan 31, 2024

Conversation

oliviermeslin
Copy link
Contributor

No description provided.

@arnaud-feldmann
Copy link

arnaud-feldmann commented Nov 22, 2023

Hello,

Super fiche ! 👍 Quelques commentaires mais c'est mon avis perso :

  • Je trouve que tu insistes un chouilla trop sur le fait que c'est difficile. A titre perso je trouve ça plus simple que la syntaxe data.table par exemple puisque ça ne demande pas d'apprendre encore une nouvelle syntaxe, c'est la même que dplyr/dbplyr ;) Dans ma division, des débutants en R qui ont tout juste appris dplyr manipulent des dataset issus d'open_dataset sans se poser de question ;) Si les données sont déjà sous forme de .parquet, ça passe sans avoir à cogiter pour 95% des requêtes de tous les jours qui sont des count(), des filter() et des distinct().
  • Un des trucs (vraiment relou) d'arrow à l'usage est par contre son incapacité à faire les window function à ce jour. Le cas qui revient le plus est les pourcentages, car mutate(pct=n/sum(n)) ne fonctionne pas. Le moteur ne gère que les fonctions scalaires 1 -> 1 (un mutate où chaque valeur est terme à terme) ou les fonctions N -> 1 d'agrégation (un summarise). Mais à ce jour pas de gestion des fonctions N -> N, y compris les plus simples. Du coup avant de faire ses pourcentages on doit faire collect(). Peut-être une remarque là dessus serait pertinente ?

@arnaud-feldmann
Copy link

Ah pardon au temps pour moi j'avais mal lu (il est tard) et il y a un paragraphe avec un exemple de window function.

oliviermeslin and others added 28 commits January 28, 2024 20:04
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
[skip-ci]

Co-authored-by: Lino Galiana <lino.galiana@insee.fr>
@oliviermeslin oliviermeslin merged commit 4da1f27 into master Jan 31, 2024
3 checks passed
@linogaliana linogaliana deleted the fiche_arrow_duckdb branch February 22, 2024 16:56
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

6 participants