Contexte et problématique
Kairos est un assistant d’aide à la recherche.
Objectif : Prendre une requête utilisateur, l’enrichir puis crawler les résultats et présenter les tops matchs, leurs similarité et leurs contenance (topic extraction)
Objectifs
L’objectif est de pouvoir sélectionner le contenu le plus intéressant à lire, puis de pouvoir naviguer à travers les documents en comprenant leurs sujets et leurs rapports (topic/similarity clustering).
Notre intervention
1 Data Scientist
- Le travail sur la similarité est fait via la comparaison d’embeddings mots & documents.
- Pour comparer à la requête l’embedding se fait sur les mots et calcul le cumulé de l’énergie nécessaire pour translater les mots de la requête vers les mots matchs du documents.
- Le clustering via embedding est cohérent, un travail sur l’extraction des phrases les plus importantes permet de séparer encore plus les textes en retirant des phrases bruits présentent un peu partout.
- Concernant le topic extraction, sur le long terme une classification avec les sujets en multi-label sera bien plus robuste et efficace.
- L’utilisation d’algorithme génératif non supervisés comme le LDA permet d’accélérer cette labélisation.
Résultats
L’ensemble des fonctionnalités ont été développées.
Le projet a atteint tous les objectifs définis et est aujourd’hui en phase d’industrialisation.
Environnement technique
Python, Keras, Tensorflow, Gensim, Spacy, Nltk, Docker, Scrapy, BeautifulSoup, Git