1. médialab Sciences Po
  2. News
  3. Appel à candidatures pour allocation doctorale – Informatique pour les sciences sociales

Appel à candidatures pour allocation doctorale – Informatique pour les sciences sociales

Contrat doctoral de 3 ans (octobre 2022 – octobre 2025)

Event

 « Étude computationnelle de la circulation des énoncés dans l’espace public numérique »

Le LATTICE (laboratoire « Langues, Textes, Traitements informatiques et Cognition ») de l’ENS/PSL et le médialab de Sciences Po lancent un appel à candidatures pour une allocation de thèse financée (au sein de l’école doctorale 540 de l’ENS/PSL).

La thèse s’inscrit dans le cadre du projet MEDIALEX, financé par l’ANR (2021-2025). Ce projet interdisciplinaire, qui réunit des sociologues, des politistes, des informaticiens, des linguistes et des économistes ayant en commun un intérêt pour les méthodes computationnelles, vise à déterminer les logiques de formation de l’agenda politique et médiatique.

La thèse portera sur l’étude à grande échelle de la circulation d’énoncés (tels que des citations ou petites phrases prononcées par des personnalités publiques) dans l’espace public (médias audiovisuels, imprimés et web ; réseaux sociaux). Il s’agira de développer des techniques de TAL permettant l’identification à grande échelle à la fois de la circulation/déformation des énoncés, mais aussi l’identification des locuteurs et de leur positionnement idéologique.
On partira des travaux emblématiques du domaine, notamment ceux menés par les équipes de Lada Adamic ou Jure Leskovec par exemple (cf. références ci-dessous). Il conviendra de voir en quoi les techniques récentes de traitement automatique des langues peuvent compléter les analyses proposées par le passé, en permettant une meilleure prise en compte du contexte, ou en essayant d’aller vers un repérage automatique (non supervisé) des citations et « petites phrases » type. 

Ce travail a pour objectif de mieux comprendre les dynamiques de l’espace public à l’ère numérique (Cardon, 2010), et en particulier le rôle joué par les réseaux sociaux dans l’attention collective à certains sujets ou évènements. Cette recherche donnera lieu à de nombreux échanges avec l’équipe du projet Medialex.

Les données sur lesquelles portera la thèse seront issues de Twitter, Facebook, des principaux médias audiovisuels français (provenant de l’Institut National de l’Audiovisuel, partenaire du projet), des médias web, notamment. Ces corpus seront en partie ouverts.

Références

D. Cardon, La démocratie internet. Promesses et limites, Seuil, 2010.

M. Gentzkow, J. M. Shapiro, M. Taddy. “Measuring group differences in high‐dimensional choices: method and application to congressional speech.” Econometrica 87.4, 2019.

V. Niculae, C. Suen, J. Zhang, C. Danescu-Niculescu-Mizil, J. Leskovec. QUOTUS: The Structure of Political Media Coverage as Revealed by Quoting Patterns. ACM International Conference on World Wide Web (WWW), 2015.

E. Omodei, T. Poibeau, J.-P. Cointet. “Multi-Level Modeling of Quotation Families Morphogenesis”. SOCIALCOM (the 2012 ASE/IEEE International Conference on Social Computing), Sep 2012, Amsterdam, Netherlands.

M. Simmons and L. Adamic, “Memes Online: Extracted, Subtracted, Injected, and Recollected,” ICWSM 2011, 2011.

L. Yiwei, D. Card, D. Jurafsky. “DeSMOG: Detecting Stance in Media On Global Warming.” Findings of the Association for Computational Linguistics, 2020.

Compétences attendues

Expérience de la programmation (langage Python, notamment)

Bonne connaissance des techniques d’apprentissage artificiel récentes (apprentissage statistique, apprentissage profond)

Connaissances en traitement automatique des langues

Intérêt pour les sciences sociales

Critères pour candidater

La candidat.e devra être titulaire, au moment de son inscription en thèse, d’un master 2 (le mémoire de recherche aura donc été soutenu à une date compatible avec les conditions de l’ED540, voir ici pour les instructions et dates précises : https://ed540.ens.psl.eu/inscription/) et avoir une formation avancée en apprentissage artificiel et traitement automatique des langues. Un intérêt ou une familiarité avec les sciences sociales (sociologie, histoire, économie, etc.) sera particulièrement apprécié.

Les candidat.e.s feront parvenir par courrier électronique, le lundi 18 avril 2022 au plus tard, un dossier comportant les pièces suivantes :

  • Un curriculum vitae
  • Une lettre de motivation (2 pages max) 
  • Un relevé de notes récent (M1 et/ou M2)
  • Le nom et le courriel d’un.e enseignant.e qui accepterait de fournir une recommandation le cas échéant.

Le dossier complet devra être transmis par courrier électronique aux futurs encadrants (thierry.poibeau@ens.psl.eu et sylvain.parasie@sciencespo.fr).

Les personnes intéressées peuvent aussi contacter les encadrants en amont pour échanger à propos du poste.

Encadrants : 

Informations complémentaires

La thèse sera hébergée au Lattice (école doctorale de l’ENS), en collaboration étroite avec le médialab. La doctorant.e partagera donc son temps de recherche entre les deux laboratoires. Des séjours à l’étranger pourront être intégrés dans ce cursus. 

Le Lattice (laboratoire « Langues, Textes, Traitements informatiques et Cognition ») consacre ses recherches à la linguistique (lexique, grammaire, discours) et au Traitement automatique des langues.

Lattice - 1 rue Maurice Arnoux, 92120 Montrouge https://www.lattice.cnrs.fr/ 

Le médialab mène des recherches thématiques et méthodologiques exploitant et interrogeant la place prise par le numérique dans nos sociétés. À ce titre, le laboratoire conduit des recherches interdisciplinaires qui réunissent sociologues, ingénieurs et designers. Le médialab est très engagé dans les méthodes computationnelles. 

Médialab Sciences Po, 75007 Paris https://medialab.sciencespo.fr/