Salomé Do

J'explore l'évaluation de la validité et de la fiabilité des méthodes d'apprentissage automatique dans le domaine des sciences sociales computationnelles, en particulier pour l'analyse de contenus assistée par ordinateur.

Chercheure postdoctorale

Site personnel: https://sally14.github.io/

Après des études en mathématiques et en informatique, Salomé s'est spécialisée en statistiques, en probabilités et en traitement du langage naturel à l'École Nationale de la Statistique et de l'Administration Economique. Au cours de son doctorat (sous la direction de Jean-Philippe Cointet, du médialab, et de Thierry Poibeau, du LATTICE), elle a cherché à démontrer que l'association de modèles de langue pré-entraînés (LLM) et d'une approche rigoureuse de l'apprentissage supervisé pouvait améliorer l'analyse de contenu traditionnelle en permettant d'analyser pratiquement n'importe quel volume de documents en très peu de temps, à condition de disposer de données annotées par des humains servant de base d'apprentissage au modèle.

Grâce aux récentes avancées en matière de traitement du langage naturel et en suivant cette approche supervisée, l'analyse de contenu assistée par ordinateur pourrait permettre aux codeurs humains de gagner du temps tout en obtenant des résultats d'un niveau comparable à celui d'un humain pour des tâches de codage potentiellement très difficiles. Par exemple, il est complexe de déterminer quels types de cadrages sont utilisés dans un article de presse en raison de leur nature abstraite et désincarnée linguistiquement, nécessitant un niveau élevé de compréhension du texte. Dans le cadre d'une étude longitudinale, suivre l'évolution de cadrages au fil du temps en recourant uniquement à des codeurs humains serait extrêmement coûteux en temps et en argent, ce qui justifie le recours à l'analyse de contenu assistée par ordinateur.

Cependant, même les modèles les mieux entraînés commettent des erreurs. Dans un cadre d'apprentissage supervisé, un corpus d'évaluation est toujours conservé séparément du corpus d'apprentissage afin de calculer des mesures d'erreur sur des échantillons auxquels le modèle n'a jamais été confronté auparavant. Dans un cadre d'utilisation de l'IA générative, ce n'est pas toujours le cas, et les mesures de performance sont encore moins souvent communiquées.

Faire abstraction de ces erreurs, même si elles sont comparables aux erreurs occasionnelles commises par un codeur humain, compromet la validité scientifique de ces études, surtout lorsqu'on considère les erreurs du modèle à l'échelle du corpus complet. Cette question a réveillé la statisticienne en moi : au-delà d'un effet de mode autour de l'IA est-il vraiment utile d'« analyser » de manière exhaustive un corpus à l'aide d'un modèle (inévitablement sujet à erreurs) alors que des annotations d'experts bien échantillonnées pourraient fournir des estimations acceptables ? Quelles sont les mesures d'incertitude associées aux statistiques calculées à partir des prédictions du modèle ? Une analyse exhaustive du corpus à l'aide d'un modèle de traitement du langage naturel permet-elle de réduire l'incertitude associée à l'estimation, ou les erreurs du modèle ne font-elles que générer davantage de bruit autour de la mesure ? Les modèles modernes d'apprentissage profond, tels que les grands modèles de langage (LLM), sont considérés comme des boîtes noires computationnelles très complexes, ce qui fait de l'évaluation de l'incertitude un défi scientifique particulièrement coriace.

L'objectif de ses recherches dans le cadre de ce postdoctorat est de contribuer au débat sur la validité, la fiabilité et la reproductibilité des modèles de traitement du langage naturel (NLP) lorsqu'ils sont utilisés dans le domaine des sciences sociales computationnelles, et d'essayer de contribuer à mettre en place un cadre mathématique permettant d'estimer les incertitudes introduites sur les mesures par l'utilisation de ces modèles.

En parallèle, au sein de l'équipe d'ingénieurs du médialab, Salomé a pour mission de faciliter le développement en cours des ressources computationelles du laboratoire liées à l'utilisation de l'IA.

⚐ This page also exists in english.