Classification de pages Web

Contexte et problématique

 

Ayant des centaines de milliers de pages Web, et n’ayant qu’une connaissance fiable de la donnée, notre client (un acteur du système bancaire) souhaite classifier toutes les pages de ses sites Web et pouvoir améliorer les procédés de recommandations de produits à partirs des logs de connexion des utilisateurs.

 

Objectifs

 

Prouver la plus-value du deep learning dans la classification textuelle même sur de petits échantillons (<1500 pages web)
Fournir un modèle interprétable : le métier doit être capable de comprendre le choix du modèle.
Classifier ces images selon plusieurs catégories définies par le métier.

 

Notre intervention

 

2 Data Scientist et 1 Data Engineer en mode SCRUM

  • Scrapping Web et nettoyage du jeu de données
  • Préparation de la donnée (normalisation,  etc…)
  • Encodage de la donnée à l’aide de Tf-IDF, Word2vec, Doc2Vec
  • Modélisation à l’aide d’un Réseau de Neurones Séquentiel Bidirectionnel Bidirectionnal-LSTM)
  • Interopérabilité du modèle via des heatmap.

 

Résultats

 

95% d’Accuracy et 90% de F-measure sur le test set

 

Environnement technique

 

HDFS
Python
Spark
Pyspark
H2O
Kera
Gensim

Together with our customers, we build solutions that change and facilitate their daily lives.

Aide à la création de médicaments

Plateforme d'analyse de besoins clients

Conception et industrialisation du SI analytics

Prédiction de retards

Analyse de visage pour recommandation produits

Application d'optimisation de la Supply Chain

Scoring et analyse
de la peau

Analyse de Forums

Personnalisation de contenu

Analyse des activités de support IT

Détection de tendances sur les réseaux sociaux

Détection
de beaconing

Outil de classification de documents

Détection de cancer via Deep Learning

Conception de plateforme de veille stratégique

Rendements
des champs agricoles

Conception du Data Hub et implémentation

Analyse et prévention des problèmes Skype

Assistant d'aide à la recherche

Classification de pages Web