Contexte et problématique
Les forums médicaux regorgent d’informations importantes mais celles-ci restent très compliquées à extraire et à analyser.
En effet, c’est sur ces forums que l’on peut réellement comprendre la « voix du patent ».
Objectifs
Analyser le contenu de forums médicaux afin de faire ressortir des tendances permettant de mieux comprendre les problématiques des patients et ainsi engager des actions concrètes.
Notre intervention
Mise en place d’un système de collecte de données :
- Scrapping du forum Sjogrensworld.org
- Insertion des données dans une base de données MongoDB
Modélisation de la donnée :
- Analyse descriptive afin d’avoir une vue d’ensemble des données récoltées (Nombre de postes, taux d’engagement, lien entre postes, lien entre utilisateurs etc…)
- Découverte de thématiques propres aux patients via du topic modeling couplés à de l’analyse de sentiments pour comprendre leurs impacts et ainsi pouvoir détecter et disséquer les tendances actuelles et passées.
- Extraction des connaissances latentes des données via des techniques de word embeddings afin de détecter au plus tôt certaines problématiques des patients.
Résultats
Environnement technique
Python
Scrapy
MongoDB
PyTorch
NLTK
Spacy
Sklearn