ChatGPT, professeur de médecine de demain ?

Par

Publié le 02/03/2023

Article réservé aux abonnés

Le logiciel d'intelligence artificielle ChatGPT a obtenu un score s'approchant de celui requis pour réussir un difficile examen de médecine aux États-Unis. De quoi confirmer le potentiel des outils de Grands modèles de langage (Large langage models, LLM) dans le secteur de la santé, et en particulier dans l'apprentissage médical. Quitte à faire de l'ombre à l'humain ?

L’intelligence artificielle soit être vue comme un outil, bien plus qu’un concurrent
Crédit photo : SCIENCE SOURCE/PHANIE

Les chercheurs de l'étude américaine, publiée dans « Plos digital health » ont confronté l'agent conversationnel au prestigieux United States medical licensing examination (USMLE), un examen de licence médicale aux États-Unis. Divisé en 3 tests, cet examen interroge les étudiants en médecine sur de nombreux domaines, comme les connaissances scientifiques, le raisonnement clinique, ou la bioéthique.

Des résultats plus que corrects

Testé sur 350 questions (qui comprennent des questions ouvertes et des questions à choix multiples avec et sans justification), ChatGPT a obtenu un score entre 52,4 % et 75 % de bonnes réponses, sachant qu'un score de 60 % est nécessaire pour réussir l'examen. « ChatGPT s'approche de la marge de réussite », conclut l'étude. Mais pour les chercheurs, ce n'est pas le potentiel de ChatGPT en tant qu'élève qui est intéressant, mais en tant que professeur. Selon eux, ces résultats « suggèrent que les Grands modèles de langage pourraient avoir le potentiel d'aider à l'éducation médicale et, potentiellement, à la prise de décision clinique ».

L'apprentissage profond, clé du LLM

Une conclusion qui ne vient pas de nulle part, car cela fait des années que le monde scientifique examine avec intérêt le potentiel de cette technologie. En effet, les Grands modèles de langage (LLM) comme ChatGPT utilisent un mécanisme d'apprentissage profond pour apprendre une grande quantité de texte afin de déterminer quelle suite de mots doit « répondre » à une phrase exprimant une requête ou une question. Toutefois, contrairement à un moteur de recherche, le contenu produit par le LLM est entièrement original, et non un simple copier-coller d'énoncés déjà existants.

Une IA andragogue

Pour les chercheurs, c'est cette « créativité » de ChatGPT et des LLM similaires qui les rendent pertinents dans un rôle d'éducateur. Car les réponses de ces logiciels sont justifiées et accompagnées d'un raisonnement clinique solide, permettant à un humain d'en comprendre facilement la logique. À leurs yeux, ChatGPT « possède donc la capacité partielle d'enseigner la médecine, en expliquant ses réponses et en aidant les élèves à comprendre des concepts nouveaux. Ce gain qualitatif fournit une base pour de futures études sur l'efficacité de l'IA visant à améliorer le processus d'enseignement médical ».

En dehors du rôle d'enseignant, l'IA possède de nombreuses applications. Elle peut vérifier l'exactitude des réponses des élèves et se charger de la notation, libérant un temps précieux au professeur. Autre piste à explorer : la personnalisation de l'apprentissage, tâche impossible pour les éducateurs qui gèrent des dizaines d'élèves, mais tout à fait à la portée de l'IA qui peut analyser les résultats d'un élève, les points à renforcer et élaborer des tests de formation en fonction des besoins individuels.

De même, selon les chercheurs, au-delà de leur utilité pour l'enseignement de la médecine, les IA peuvent potentiellement être utilisées dans de nombreux autres domaines, comme l'évaluation des risques, l'aide à la décision clinique, la communication avec les patients, voire l'aide au diagnostic.

À l'image de son créateur : limité

Si le potentiel est indéniable, il reste encore des points à corriger. Le premier, et le plus important, c'est que ChatGPT repose sur le principe des probabilités : à aucun moment il ne vérifie la véracité des informations qu'il communique. De même, dans la mesure où son savoir repose sur la lecture de nombreux exemple, ChatGPT reproduit les biais des humains et ses capacités sont intrinsèquement liées aux nôtres. Fait remarquable dans l'étude : les réponses de ChatGPT étaient les moins précises dans les sujets considérés comme les plus difficiles par les étudiants. Il y a donc encore à attendre avant que l'homme ne devienne obsolète…

Un progrès exponentiel

Reste que les progrès sont exponentiels. Aujourd'hui, l'avantage de l'humain est qu'il peut poser au patient une série de questions de clarification pour améliorer la précision de ses conclusions. Mais les prochaines générations de LLM seront aussi en mesure de réaliser cette étape, poser des questions itératives et tirer des enseignements des conversations… mais aussi de ses erreurs passées.

Le Pr Philippe Gabriel Steg avait commenté la performance de ChatGPT à un examen de cardiologie des ECN. S'il n'avait eu que 4 réponses correctes sur 15, pour le cardiologue, « on peut s’attendre à ce que les nouvelles générations d’IA fassent bien mieux que les étudiants en médecine… À nous de nous organiser pour utiliser ce qui doit être vu comme un outil, bien plus qu’un concurrent ».

Nul doute que beaucoup d'officinaux apprécieraient, pour commencer, une IA de reconnaissance de texte pour décrypter les écrits de nos amis médecins…

François Tassain