Contexte et problématique
Ayant des centaines de milliers de pages Web, et n’ayant qu’une connaissance fiable de la donnée, notre client (un acteur du système bancaire) souhaite classifier toutes les pages de ses sites Web et pouvoir améliorer les procédés de recommandations de produits à partirs des logs de connexion des utilisateurs.
Objectifs
Prouver la plus-value du deep learning dans la classification textuelle même sur de petits échantillons (<1500 pages web)
Fournir un modèle interprétable : le métier doit être capable de comprendre le choix du modèle.
Classifier ces images selon plusieurs catégories définies par le métier.
Notre intervention
2 Data Scientist et 1 Data Engineer en mode SCRUM
- Scrapping Web et nettoyage du jeu de données
- Préparation de la donnée (normalisation, etc…)
- Encodage de la donnée à l’aide de Tf-IDF, Word2vec, Doc2Vec
- Modélisation à l’aide d’un Réseau de Neurones Séquentiel Bidirectionnel Bidirectionnal-LSTM)
- Interopérabilité du modèle via des heatmap.
Résultats
95% d’Accuracy et 90% de F-measure sur le test set
Environnement technique
HDFS
Python
Spark
Pyspark
H2O
Kera
Gensim