1. médialab Sciences Po
  2. Actualités
  3. Salomé Do, comparer les performances homme / machine sur le cadrage médiatique

Salomé Do, comparer les performances homme / machine sur le cadrage médiatique

Après un long travail de recherche effectué au médialab et au Lattice, Salomé Do a soutenu sa thèse le 17 octobre 2024. Celle-ci s’intitule « L'analyse de contenu computationnelle : comment, quand et pourquoi ? Mesurer la prévalence du cadrage stratégique dans la presse politique » et a été réalisée sous la direction de Thierry Poibeau et de Jean-Philippe Cointet.

Chronique

Dans sa thèse, Salomé Do explore les théories du cadrage médiatique et leur mise en œuvre dans des études computationnelles, en mettant en évidence le potentiel et les défis de l'automatisation de la détection de ces cadres. Son analyse des LLM montre que ces modèles peuvent atteindre un niveau de performance comparable à celui des humains. Son travail met également en avant l'importance des annotations expertes pour améliorer la précision des modèles et l’importance d’une analyse rigoureuse des erreurs et de l’estimation de l’incertitude dans les applications de l’apprentissage supervisé. Les résultats de cette recherche défendent une utilisation informée des méthodes automatisées dans les études médiatiques.

Peux-tu présenter ton parcours avant de faire cette thèse ?

Avant de faire ma thèse, j’étais élève à l’ENSAE, une école d’ingénieur tournée vers les statistiques. J’aimais beaucoup les maths appliquées, mais aussi étudier le rapport à la société à travers des cours de sociologie et d’économie. Il y avait une pluridisciplinarité qui me plaisait. En revanche, les cours de cette école sont très appliqués et je n’avais jamais fait de recherche. C’est quelque chose dans lequel j’avais envie de me plonger. C’est à ce moment-là que j’ai rencontré Etienne Ollion, enseignant à l’ENSAE, qui m’a présenté à Jean-Philippe Cointet et Thierry Poibeau, mes deux directeurs de thèse.

Sur quoi porte ta thèse ?

Il y a un peu deux sujets dans ma thèse. D’un côté, j’ai étudié le cadrage médiatique, qui est l’angle de traitement des sujets dans la presse. J’ai décidé de faire une étude longitudinale et quantitative en étudiant tout un corpus issu de la presse nationale. De l’autre côté, il y a l’analyse des performances des algorithmes d’apprentissage supervisés et des conditions d’entraînement avec lesquels ils peuvent être efficaces. Cela a permis de faire une comparaison avec le travail effectué par des assistants de recherche, des humains, pour voir si les modèles de langues utilisés sont capables d’être plus précis.

Une dernière interrogation a émergé, celle de se questionner sur la balance bénéfice-coûts de l’utilisation de ces modèles. Certes, ils permettent d’explorer des corpus de manière exhaustive, mais ils le font avec des erreurs. L’idée du deuxième volet de ma thèse est de comparer la fiabilité de résultats obtenus par des humains sans algorithmes sur une portion incomplète du corpus à celle des résultats obtenus en utilisant en plus des algorithmes d’apprentissage supervisés.

Ton sujet a-t-il évolué au fur et à mesure de ta recherche ?

Ma thèse n’a pas du tout été linéaire et elle a beaucoup évolué. Lors des deux premières années, je m'intéressais à plusieurs sujets différents. C’est en faisant le travail autour du cadrage médiatique que j’ai pu recentrer ma thèse et faire en sorte qu’il y ait une cohérence, autant dans mes questionnements méthodologiques que réflexifs.

As-tu rencontré certaines difficultés au cours de ta thèse ?

Ce qui est difficile dans un travail de thèse, c’est qu’on est très souvent confrontés à des modèles qui ne marchent pas. On fait des hypothèses, on les teste et ce n’est pas toujours concluant. Je pense qu’il est nécessaire de prendre le temps de s’adapter et de publier sur les méthodes pour se laisser le temps de reprendre les résultats. Ce qui est complexe c’est aussi qu’on a toujours plein de questions et qu’on est très perfectionnistes. Il faut savoir compartimenter, et accepter de publier des résultats même imparfaits ou incomplets à notre sens. La thèse, c’est aussi un travail très solitaire et de longue haleine qui peut être difficile sur le long terme. Il faut savoir surmonter ces difficultés et réussir à garder une estime de soi face aux obstacles et aux échecs.

Comment s’est passé ton expérience de doctorante au sein du médialab ?

Ça a été une expérience très épanouissante car j’ai eu l’occasion de rencontrer des personnes venant de disciplines différentes. Ces échanges interdisciplinaires sont précieux pour l’ouverture. L’ambiance et la bienveillance sont aussi excellentes au médialab et c’est un très bel endroit pour apprendre, avec plein de collègues formidables.

Aurais-tu des conseils à donner à quelqu’un qui souhaite se lancer dans une thèse ?

Le conseil que je donnerais c’est d’apprendre à voir la critique comme un moyen d’avancer, et non comme une sanction ou un échec. Ensuite, je dirais qu’il faut bien penser à garder une vie sociale et faire d’autres activités. Enfin, il faut le faire par passion.