Contexte et problématique
Une importante partie des projets de data science menés par le client repose sur des documents textes. Pour traiter et modéliser ces données, les Data Scientists utilisent bien souvent les mêmes outils/modèles/fonctions.
Afin de rendre ces étapes plus rapides, génériques et accessibles par des non Data Scientists, nous avons mis au point un paquet commun effectuant toutes les tâches classiques liées à la classification de documents par Machine Learning.
Objectifs
Notre intervention
1 Data Scientist
- Développement de pipelines de pré-traitements de données
- Gestion du lien avec les objets scikit-learn sous-jacents (intégration)
- Développement du module d’interprétabilité
- Développement du module de recherches d’hyperparamètres
- Publication du package et démos aux autres data scientists
- Ajout de fonctionnalités en fonction des besoins spécifiques des data scientists
Résultats
Package publié !
Objectifs atteints.
Utilisé par plusieurs projets (dont le projet de classification de tickets de support).
Environnement technique
Python (scikit-learn, pandas, optuna, lime, shap, nltk, MLflow, plotly)
Pytest
Git/Github