Classification de pages Web

Contexte et problématique

Ayant des centaines de milliers de pages Web, et n’ayant qu’une connaissance fiable de la donnée, la Société Générale souhaite classifier toutes les pages de ses sites Web et pouvoir améliorer les procédés de recommandations de produits à partirs des logs de connexion des utilisateurs.

Objectifs

Prouver la plus-value du deep learning dans la classification textuelle même sur de petits échantillons (<1500 pages web) Fournir un modèle interprétable : le métier doit être capable de comprendre le choix du modèle. Classifier ces images selon plusieurs catégories définies par le métier.

Notre intervention

2 Data Scientist et 1 Data Engineer en mode SCRUM

  • Scrapping Web et nettoyage du jeu de données
  • Préparation de la donnée (normalisation,  etc…)
  • Encodage de la donnée à l’aide de Tf-IDF, Word2vec, Doc2Vec
  • Modélisation à l’aide d’un Réseau de Neurones Séquentiel Bidirectionnel Bidirectionnal-LSTM) 
  • Interopérabilité du modèle via des heatmap.

Résultats

95% d’Accuracy et 90% de F-measure sur le test set

Environnement technique

HDFS
Python
Spark
Pyspark
H2O
Kera
Gensim

Nous construisons avec nos clients des solutions qui changent et facilitent leur quotidien.

Aide à la création de médicaments

Plateforme d'analyse de besoins clients

Conception et industrialisation du SI analytics

Prédiction de retards

Analyse de visage pour recommandation produits

Application d'optimisation de la Supply Chain

Scoring et analyse
de la peau

Analyse de Forums

Personnalisation de contenu

Analyse des activités de support IT

Détection de tendances sur les réseaux sociaux

Détection
de beaconing

Outil de classification de documents

Détection de cancer via Deep Learning

Conception de plateforme de veille stratégique

Rendements
des champs agricoles

Conception du Data Hub et implémentation

Analyse et prévention des problèmes Skype

Assistant d'aide à la recherche

Classification de pages Web