Dans la 1re partie de notre dossier consacré à l’utilisation du Natural Language Processing dans la lutte contre le COVID-19, nous avons pu voir pourquoi et comment le NLP était intervenu dans l’élaboration d’un traitement. En utilisant les mêmes modèles qui servent à analyser notre langage pour étudier les séquences de protéines, les scientifiques ont ainsi pu déterminer en quelques semaines quel était le squelette génétique du virus. Mais il ne s’agit pas du seul cas d’usage du NLP dans la lutte contre la pandémie. Le modèle a également permis d’estimer et de limiter les conséquences de l’épidémie.
Par Guillaume SCHALLER, Data Scientist chez LittleBigCode
1/ Le NLP pour résumer les articles scientifiques et accélérer la recherche ?
Comme évoqué dans la 1re partie, plus de 100 000 articles, publiés dans Pubmed, bioRxiv, medRxiv et arXiv, relatent du SARS-CoV-2 selon COVID-19 Primer. Kaggle a rendu public, en association avec des institutions comme le NIH, un corpus de textes et d’articles liés au COVID-19 ou aux coronavirus. Plus de 150 000 textes complets et 400 000 articles ont ainsi été mis à disposition des chercheurs du monde entier pour faire avancer la recherche. Malgré cette immense richesse, difficile parfois de capitaliser sur un si grand nombre de publications. Il faut donc être capable de traiter une telle quantité d’informations pour trier les informations les plus pertinentes pour une recherche particulière.
Là encore, la NLP peut nous aider à étudier toutes ces publications en créant des résumés automatiques, des abstracts ou un texte complet. Le but est donc de représenter un texte par une sous-partie contenant les informations principales.
Le résumé peut être soit extractif, en sélectionnant les mots ou les phrases les plus importantes, soit abstractif, en résumant le texte initial avec de nouveaux mots.
a. Les modèles de résumé
Certains modèles ont été pré-entraînés sur le célèbre dataset CNN / Daily Mail qui fournit près de 300 000 paires composées du document et de son résumé associé. Mais l’application de ces modèles comme BERTSUM, qui est une variation de BERT, pour les résumés fournit des résultats peu convaincants. La génération des résumés est souvent grammaticalement juste mais le modèle peine à retranscrire les informations importantes qu’il faut tirer de la publication.
L’étude Automatic Text Summarization of COVID-19 Medical Research Articles using BERT and GPT-2 propose d’utiliser l’avantage autorégressif du modèle GPT-2. Le principe est de créer un dataset en extrayant les mots clés d’un abstract avec un modèle BERT, puis de les associer avec l’article initial. Un modèle GPT-2 entrainé sur ce jeu de données va ensuite générer, grâce à un sampling stochastique entre différents candidats, le résumé d’un article.
b. Les résultats
Comme expliqué précédemment, les résumés générés de façon automatique doivent produire des résultats qui similaires à un résumé produit par un humain. Ils doivent respecter non seulement des règles de grammaire, d’orthographe mais aussi parvenir à capter les informations les plus importantes.
De plus, afin de bannir le mode collapse, qui signifie que l’algorithme est parvenu à trouver une combinaison de séquences qui minimise la fonction de coût, le modèle doit produire des résumés avec une diversité correcte.
La métrique la plus utilisée aujourd’hui en ce qui concerne les résumés automatiques est ROUGE ou Recall-Oriented Understudy for Gisting Evaluation. C’est un ensemble de métriques qui peuvent être aussi utilisées dans les tâches de traduction automatique. L’idée est de comparer les textes générés par un modèle à un texte de référence produit par un expert. Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In ACL 2004, 2004.
Les 5 métriques sont :
- ROUGE-N : analyse la quantité de n mots successifs qui se chevauchent entre les textes.
- ROUGE-L : cette métrique évalue automatiquement les phrases qui ont le même sens et mesure la plus grande sous-phrase commune.
- ROUGE-W : version pondérée de ROUGE-L qui favorise les sous-phrases consécutives.
- ROUGE-S : mesure le skip-bigram, le nombre de 2 mots, sans ordre particulier, dans une phrase qui se recoupent avec la référence.
- ROUGE-SU : skip-bigram plus un unigram.
Résumé Gold | Résumé généré (2ème époque) | Résumé généré (5ème époque) |
Influenza virus is the most frequently reported viral cause of rhabdomyolysis. A 7-year-old child is presented with rhabdomyolysis associated with parainfluenza type 2 virus. Nine cases of rhabdomyolysis associated with parainfluenza virus have been reported. Complications may include electrolyte disturbances, acute renal failure, and compartment syndrome. |
Influenza virus is the most com- mon cause of respiratory rhab- domyolysis in the child. It is believed that the rhabdomyol- ysis and parainfluenza type 2 virus cases with rhabdomyolysis in parainfluenza type 2 virus. Recent cases with rhabdomyol- ysis in parainfluenza virus have been described. Complications include electrolyte disturbances, kidney failure,and gastrointestinal compartment syndrome.
|
Influenza virus is a leading cause of rhabdomyolysis in child. However, several cases of rhab- domyolysis in the parainfluenza virus have been reported. Com- plications include electrolyte dis- turbances in renal failure of the normal renal compartment syndrome. |
Tableau 1 : Tableau extrait de l’article Automatic Text Summarization of COVID-19 Medical Research Articles using BERT and GPT-2
On peut voir dans le tableau comparatif des résumés que le modèle a bien généralisé sa compréhension des relations à partir du jeu de données d’entraînement. Par exemple, on peut noter que le modèle affirme que le virus influenza est la plus grande cause de rhabdomyolysis alors que cette relation n’est pas présente dans les mots clés.
En revanche, on peut voir une des principales limites de cette génération automatique de résumé. Le modèle stipule en effet que les troubles électrolytes ont lieu dans le rein. Après peu d’entraînements, il ajoute même un trouble digestif qui n’est pas mentionné dans le texte originel. On voit donc qu’il extrait correctement les mots clés mais qu’il émet des relations entre ces entités qui peuvent être fausses. Cela peut induire complètement le lecteur en erreur et contredire le texte original. Ce genre de complications peut avoir une conséquence très néfaste dans ce domaine d’applications.
Néanmoins, le papier a quelques limites d’approche, sachant que le choix des mots générés peut être optimisé comme du ‘‘greedy sampling’’ plutôt que du choix aléatoire de mots. De plus, le modèle a pu être généré à cause d’une capacité de calcul restreinte. Il est alors possible d’imaginer de biens meilleurs résultats avec des modèles plus conséquents comme GPT-3.
L’autre conclusion que l’on peut tirer de ce tableau est que le modèle GPT-2 semble produire des résultats plus pertinents lorsqu’il est plus entraîné. En effet, après , le résultat semble davantage être une extraction d’informations et ne produit pas de résumé abstrait de l’idée évoquée dans le texte d’entrée. Il évoque même une maladie du système digestif absente dans le résumé produit par un humain.
Cependant, cette amélioration de la qualité du résumé n’est pas traduite par un score ROUGE supérieur. Cela souligne une limite de ce score pour évaluer un résumé abstrait. Pourquoi ? Parce que ce score va favoriser les résumés ayant des mots communs avec le résumé standard et va donc pénaliser un résumé qui aurait reformulé l’idée. Ce score semble donc plus adapté à un résumé qui extrait les informations utiles qu’à un résumé abstrait.
2/ Combattre les fraudes et estimer l’état de l’infection
a. Big Data, NLP et Deep Learning
En parallèle de la recherche sur les traitements, un des principaux enjeux a été de limiter la prolifération de fausses nouvelles, la publicité et la vente de produits illicites comme des faux tests, des faux traitements.
Le National Center for Biotechnology Information propose une étude sur la prolifération de ce contenu inapproprié et dangereux : Big Data, Natural Language Processing, and Deep Learning to Detect and Characterize Illicit COVID-19 Product Sales: Infoveillance Study on Twitter and Instagram.
L’étude s’est déroulée en deux phases. La première consistait à récolter des informations sur deux réseaux sociaux majeurs. En combinant du webscrapping sur Instagram et un filtre sur des mots clés sur Twitter, ils ont ainsi collecté plus de 2 millions de tweets et plus de 200 000 posts Instagram parlant de produits en relation avec le virus.
La deuxième phase de l’étude utilisait des techniques de Natural Language Processing pour identifier, parmi les données récoltées, lesquelles relataient d’un contenu illicite. Afin d’analyser ces données, les articles et les posts étaient résumés automatiquement grâce à un BTM. Puis les résumés encodés étaient séparés en différents clusters de façon non supervisée. Les articles suspects étaient alors annotés à la main afin de valider ou non le doute émis sur la publication.
Grâce à ces méthodes de NLP, cette étude a identifié plus de 1 200 tweets et presque 600 posts Instagram qui contenaient des produits illicites en lien avec le COVID-19. Voici par exemple le type de posts Instagram et de tweets que l’étude a permis de déceler de façon automatique :
b/ Limiter les effets néfastes
Ils ont en particulier décelé deux vagues consécutives. La première vague proposait des traitements qui n’étaient pas approuvés par les organismes de santé. La seconde fraude était plus liée à des tests de virus n’ayant pas non plus été validés.
Ces techniques, qui utilisent des procédés de récolte de données discutables ethniquement parlant, peuvent permettre néanmoins de prévenir des abus, et d’aider les autorités régulatrices et les organismes de santé à limiter la propagation de ces produits et rumeurs pouvant être très néfastes pour la population.
Cette méthode n’a pas seulement permis de limiter les conséquences néfastes du coronavirus, elle a aussi permis de réduire considérablement le temps d’observation des symptômes. Le virus, qui a frappé le monde il y a maintenant plus d’un an, était encore inconnu des professionnels de santé. Afin de pouvoir estimer correctement le nombre d’infectés, il fallait connaître l’ensemble exhaustif des symptômes pouvant subvenir lors d’une contamination. Cette connaissance permet ainsi de prévoir correctement une réponse à ce virus et de soigner les patients de le meilleure façon possible.
L’accès au test était aussi parfois limité dans certaines régions infectées et la corrélation avec certains symptômes exprimés publiquement pouvait permettre d’estimer le nombre de malades.
L’idée derrière l’étude Machine learning to detect self-reporting of symptoms, testing access, and recovery associated with covid-19 on twitter: retrospective big data infoveillance est de ne plus attendre que le patient aille en consultation ou aux urgences avant d’analyser ses symptômes. En effet, il est presque devenu une habitude de chercher les mots clés en lien avec ses symptômes sur un moteur de recherche ou bien de partager son état via un tweet.
Cette étude a donc utilisé la même façon de procéder que pour chercher des produits illicites en lien avec le COVID-19. Tout d’abord, les auteurs ont récolté presque 4,5 millions de tweets associés à des mots clés du coronavirus grâce à l’API de Twitter. Ils ont ensuite entraîné un modèle BTM (biterm topic model) pour séparer les tweets en différents groupes. : les tweets liés aux symptômes, ceux en lien avec l’accès au test et, enfin, à la guérison.
Quelques exemples de tweets collectés :
Symptôme | “Contacted the er and [FACILITY NAME] in [CITY] because my daughter has a runny nose fever and a sore throat. I was told they’re testing for everything else before testing for coronavirus. Is that backwards or am I trippin? #CoronaVirusSeattle” |
Manque d’accès au test | “Hey [NAME] why can’t we get tested for COVID-19e in [LOCATION] ? My wife has all the symptoms but ER said no testing unless you’re admitted.” |
Guérison | “My spouse, 4 yr old and I are almost better now. We were sick about ten days. Don’t know if it is Corona because we could not get a test. Fever lasted 3 to 4 days. No cough for us. Consistent headache, chills, sore throat. Reduced appetite for a few days Hydrate! Nap! ” |
En utilisant les métadonnées liées aux publications, les auteurs ont aussi pu visualiser l’évolution du nombre de tweets parlant du COVID-19 tout au long de la pandémie. De même, ceux taggués par une balise géographique ont permis d’élaborer une ébauche des foyers d’infections aux USA.
Mais une telle étude a aussi ses limites. Tout d’abord, elle est sujette à des biais liés au choix du réseau social et de la langue. Les tweets étaient filtrés sur des mots anglais, discriminant ainsi tous les pays non anglophones. De même, les utilisateurs de Twitter ne sont pas répartis dans les zones infectées de manière homogène. Les estimations de clusters sont donc là aussi biaisées.
Une étude plus approfondie pourrait alors permettre d’estimer les mêmes données provenant de réseaux sociaux différents dans plusieurs langues. Par analogie, les personnes âgées qui représentent la tranche d’âge la plus vulnérable à cette pandémie sont bien moins enclins à afficher publiquement leurs symptômes. Ce qui peut jouer de bien mauvais tours aux établissements de santé qui voudraient prévoir leur réponse logistique par rapport à ces études.
Enfin, la principale limite de cette étude, c’est qu’il n’y a eu aucune confirmation de contaminations pour les personnes exprimant leurs symptômes. Cette étude ne doit donc être considérée que comme une estimation et non un recensement.
Conclusion
La pandémie du COVID-19 marquera de façon certaine le 21e siècle. Ses conséquences dramatiques ont engendré une réponse scientifique et collaborative sans précédent à l’échelle mondiale. Grandement aidés par l’étude des protéines, les scientifiques ont pu comprendre rapidement le virus et élaborer dans un temps record des vaccins. Le NLP a ainsi joué un rôle clé dans la création d’un traitement, tant sur le plan de l’étude du virus que dans la recherche de traitements.
Facilité par l’utilisation massive des réseaux sociaux, le NLP a aussi été grandement utilisé pour comprendre les symptômes, estimer le nombre de personnes infectées qui n’avaient pas eu accès à des tests, évaluer les regroupements d’infections et leur évolution géographique au cours du temps. Nul doute que la NLP sera ensuite utilisé dans la création de bots pour estimer les symptômes et la nécessité d’aller consulter, ou bien encore dans l’analyse des consultations par les médecins.
La capacité de calcul de certains acteurs majeurs de l’intelligence artificielle permet d’entraîner des modèles dépassant le milliard de paramètres sur des milliards de données. Certains modèles de l’état de l’art fournissent ainsi des résultats époustouflants. La génération de texte par exemple est aujourd’hui confondante avec celle de textes rédigés par des humains. Associé à une hausse de l’implication de toutes les tranches d’âge sur les réseaux sociaux, je suis convaincu que le NLP représente un outil majeur pour lutter contre une prochaine épidémie.