Outil de classification de documents

Contexte et problématique

Une importante partie des projets de data science menés par le client repose sur des documents textes. Pour traiter et modéliser ces données, les Data Scientists utilisent bien souvent les mêmes outils/modèles/fonctions.

Afin de rendre ces étapes plus rapides, génériques et accessibles par des non Data Scientists, nous avons mis au point un paquet commun effectuant toutes les tâches classiques liées à la classification de documents par Machine Learning.

Objectifs

  • API intuitive et très haut niveau pour l’utilisateur
  • Supporter les modèles et méthodes scikit-learn
  • Possibilité de customiser chaque bout de la pipeline
  • Code générique facilitant la contribution d’autres data scientistes
  • Pouvoir interpréter les prédictions
  • Pouvoir rechercher les hyper paramètres
  • Notre intervention

    1 Data Scientist

    • Développement de pipelines de pré-traitements de données
    • Gestion du lien avec les objets scikit-learn sous-jacents (intégration)
    • Développement du module d’interprétabilité
    • Développement du module de recherches d’hyperparamètres
    • Publication du package et démos aux autres data scientists
    • Ajout de fonctionnalités en fonction des besoins spécifiques des data scientists

    Résultats

    Package publié !
    Objectifs atteints.
    Utilisé par plusieurs projets (dont le projet de classification de tickets de support).

    Environnement technique

    Python (scikit-learn, pandas, optuna, lime, shap, nltk, MLflow, plotly)
    Pytest
    Git/Github

    Together with our customers, we build solutions that change and facilitate their daily lives.

    Aide à la création de médicaments

    Plateforme d'analyse de besoins clients

    Conception et industrialisation du SI analytics

    Prédiction de retards

    Analyse de visage pour recommandation produits

    Application d'optimisation de la Supply Chain

    Scoring et analyse
    de la peau

    Analyse de Forums

    Personnalisation de contenu

    Analyse des activités de support IT

    Détection de tendances sur les réseaux sociaux

    Détection
    de beaconing

    Outil de classification de documents

    Détection de cancer via Deep Learning

    Conception de plateforme de veille stratégique

    Rendements
    des champs agricoles

    Conception du Data Hub et implémentation

    Analyse et prévention des problèmes Skype

    Assistant d'aide à la recherche

    Classification de pages Web