1. médialab Sciences Po
  2. Actualités
  3. Rubing Shen, des maths-physique à la sociologie du journalisme

Rubing Shen, des maths-physique à la sociologie du journalisme

Rubing Shen, doctorant au médialab et au CREST, a soutenu sa thèse le 18 novembre dernier. Préparée depuis octobre 2020, celle-ci se constitue de trois articles et s’intitule « The Politics of Newswriting. Three Essays on How Journalists Cover Politics ».

Chronique

Comment les journalistes parlent-ils de politique, et de quoi ne parlent-ils pas ? Quelle place la politique peut-elle occuper dans le journalisme à l'ère de l'objectivité des nouvelles ? Voici les questions que s’est posé Rubing Shen au long de son travail de recherche. Dans sa thèse, qui revisite les questions classiques concernant la relation ambiguë entre les journalistes et la politique, il combine les approches sociologiques établies avec les techniques récentes d'analyse textuelle computationnelle, permettant d'enrichir l'analyse de contenu réalisée manuellement par les sociologues.

Peux-tu présenter ton parcours et nous expliquer comment tu en es venu à faire une thèse en sciences sociales ?

J’ai d’abord suivi une prépa maths-physique, puis j’ai intégré L'École polytechnique. Néanmoins, j’ai toujours été intéressé par les sciences sociales. En parallèle de mon école d’ingénieur, j’ai donc validé une licence de philosophie et j’ai suivi différents cours de sciences sociales. En sortant de Polytechnique, j’ai intégré un corps de la fonction publique. L’idée m’est alors venue de préparer une thèse en sciences sociales pour compléter ma formation plutôt scientifique. Je voulais comprendre les actions publiques et ce qui allait m’entourer dans mon futur professionnel. C’est à ce moment-là qu’Etienne Ollion, mon ancien professeur de sociologie, m’a renvoyé vers Jean-Philippe Cointet. Ils n’avaient jamais vu de parcours comme le mien, venant des maths et voulant faire de la sociologie, tout en ayant un pied dans la fonction publique. Le contact à tout de suite pris, et ils sont devenus mes directeurs de thèse.

Comment ton sujet de thèse est-il né ?

Quand j’ai rencontré Etienne et Jean-Philippe, les LLM [Grand Modèle de Langage] en étaient à leur début. On a tout de suite identifié le potentiel de ces nouveaux outils de sciences du langage pour les sciences sociales car il y a souvent des gros corpus de textes à traiter. Dans son livre, qui retrace les évolutions et transformations du journalisme politique en France depuis l’après-guerre, Nicolas Kaciaf suggérait beaucoup d’idées intéressantes que l’on a tenté d’opérationnaliser. Etienne et Jean-Philippe m’ont donc suggéré de me pencher sur le déploiement des LLM dans le cadre de l’étude des pratiques d’écriture journalistiques dans la presse française.

Ceci m’a permis en premier lieu de construire un corpus de journalisme politique de plusieurs quotidiens de manière longitudinale, puis d’utiliser les LLM pour reproduire des indicateurs et capturer les styles d’écriture des journalistes politiques afin de voir comment ils évoluent.

J’ai décidé de faire une thèse par articles car cela s’adaptait bien à cet axe méthodologique. De plus, cela me convenait personnellement car j’ai pu travailler sur plusieurs projets au cours de mon travail de recherche.

Quels sont les trois articles qui constituent ta thèse et comment ton travail de recherche a-t-il évolué ?

J’ai d’abord fait un premier papier avec Etienne et Salomé Do, une autre doctorante du médialab, intitulé « The Augmented Social Scientist ». Dans cette étude, on cherchait à tester si les LLM étaient suffisamment performants, avec de l’entrainement, pour reconnaître deux indicateurs classiques dans l’écriture de la politique : « politic VS policy » (le journaliste se concentre-t-il sur les enjeux politiciens de fond ou raconte-t-il seulement les stratégies et motivations des personnalités et des partis politiques ?) et le « off the record » (les journalistes citent-ils des sources anonymes ou non ?). En comparant la précision du modèle avec celles d’annotations humaines, on observe un résultat assez similaire. Dans ce contexte précis, la machine augmente les capacités cognitives du chercheur en lui permettant d'opérationnaliser ses hypothèses et indicateurs sur des millions d’articles, et ainsi d’ouvrir de nouvelles opportunités empiriques.

Mon deuxième papier cherche à comprendre les nouvelles manières de raconter la politique et l’augmentation notable de l’usage du “off the record”. Ces changements d’écriture journalistique sont vus au prisme des avancées récentes de la sociologie de la culture et des méthodes démographiques (« age period cohort analysis ») que j’ai découvertes lors d’un séjour en Suède. Le résultat central de ce papier est qu’il y existe un fort effet générationnel : les journalistes appartenant aux cohortes récentes ont beaucoup plus tendance à utiliser des citations « off the record », quelque soit la ligne éditoriale du journal.

Cette étude m’a amené à réfléchir aux différences de traitement de la politique entre des journaux aux lignes éditoriales opposées et à la possibilité de les mesurer.

À ce moment-là, je n’arrivais étonnamment pas à observer des différences significatives et interprétables entre des journaux aux lignes éditoriales pourtant très différentes. J’ai fini par réaliser que les méthodes existantes cherchent à mesurer des proximités partisanes présentes dans le contenu de l’information, alors que les normes journalistiques, qui plus est pour les journalistes politiques, imposent de démontrer une distance vis-à-vis des acteurs politiques. Utiliser des sources « off », dévoiler les coulisses et analyser les stratégies participait aussi à cette distanciation. Il fallait donc trouver des manières “journalistiquement légitime” d’introduire des enjeux partisans dans le contenu médiatique. Cela correspond à un concept dans la théorie sociologique de Pierre Bourdieu, appelé réfraction.

Ce que je propose avec les nouvelles méthodes ne vise pas à substituer à la littérature existante, mais à la compléter. Je considère que ce travail de thèse apporte surtout des méthodes pour analyser les pratiques d’écriture journalistique, et pour comprendre les motivations associées via des concepts et des théories de la pratique.

Comment décrirais-tu ton expérience en tant que doctorant au médialab ?

Le médialab, qui est le laboratoire du numérique, est un objet assez singulier où se mélangent deux courants : la sociologie du numérique et les sciences sociales computationnelles. Il y a un vrai pluralisme méthodologique et épistémologique.

Être doctorant au médialab a été une super expérience pour moi parce que c’est un endroit riche en termes de confrontation des idées. Je m’y suis beaucoup plu et j’ai pu discuter avec des doctorants et des chercheurs qui ont des approches disciplinaires et intellectuelles différentes des miennes.

Conseillerais-tu à d’autres personnes de faire une thèse au médialab ?

Je pense que faire une thèse est très formateur. Dans un cursus scolaire jusqu’au niveau master, on est entraîné à réussir les examens, alors qu’en thèse, au contraire, on apprend à échouer. En tant que chercheur, on teste la plupart du temps des choses qui ne marchent pas. Dans la formation par la recherche, on apprend que c’est normal et qu’on va essayer d’autres choses. Ça nous force à réfléchir, à prendre du recul, à lire et à discuter. Selon moi, peu importe que l’on poursuive dans une carrière académique ou non, la thèse est une formation qui apporte une réelle valeur ajoutée.

Pour ce qui est du médialab, je dirais que c’est un endroit assez formidable parce qu’on est à la jonction de plusieurs choses en termes méthodologiques et épistémologiques, ce qui peut manquer dans d’autres laboratoires. De plus, le médialab se place entre certaines traditions françaises et l’ouverture à l’international. Il y a une confrontation de méthodes, on apprend beaucoup de choses et c’est très enrichissant.