Bonnes pratiques pour projets de données

Principes généraux
- Lisibilité (expressivité des nommages, simplicité,..)
- Cohérence (consistency) et importance des conventions
- Limiter la redondance => utilisation de fonctions
- Documentation (commentaires, docstrings...)
Standards communautaires de code
- R : tidyverse / Google style guides
- Python : PEP 8, PEP 257
Utilisation d'analyseurs de code (formatters, linters)
Relecture par un tiers / pair-programming

Modularité
- Découpage des scripts en fonctions
- Découpage des blocs du projet en modules
Architectures de projets
- Séparer stockage des données, stockage du code, environnement d'exécution
- Plusieurs modèles possibles selon la taille du projet
  - input / traitement / output
  - Domain-driven design (data, domain, application, presentation)
  - etc..
- Templates
  - R : RProjects
  - Python : cookiescutter
Packages
- Gestion des dépendances
- Documentation
- Logging
- Tests unitaires
- Publication
- Maintenance

Principes du développement logiciel pour favoriser la reproductibilité
- Isolation
- Portabilité
Gestion des dépendances avancée
- Dépendances dans le langage du projet
- Dépendances dans d'autres langage
- Adhérence à l'OS d'exécution (librairies, package manager...)
- Conflits de version (interpréteur, dépendances, librairies)
Environnements virtuels
- Avantages
  - Isolation du projet
  - Relative simplicité d'utilisation
- Limites
  - Gestion des dépendances spécifiques au langage du projet => portabilité limitée
- Implémentations
  - R : renv
  - Python : venv, conda
Conteneurisation
- Avantages
  - Isolation complète du projet (toutes dépendances, librairies externes, OS d'exécution...)
  - Portabilité totale
- Limites
  - Rend la phase de développement un peu lourde
- Implémentations
  - Docker

Mise en prod grandement facilitée si toutes les étapes précédentes ont été appliquées
Déploiement
- Environnement de production
- Vision du projet comme pipeline : données, transformations, modélisation, output
- Orchestration des différentes étapes
  - Orchestration simple (crontab)
  - Orchestration sous forme de DAG (e.g. Airflow)
  - Orchestration résiliente (Kubernetes)
CI/CD

Provide feedback