1. médialab Sciences Po
  2. Actualités
  3. MetAt - Journal de bord du 8 juillet 2025

MetAt - Journal de bord du 8 juillet 2025

Partager nos savoir-faire et pratiques méthodologiques.

Rendez-vous, Atelier

Salle K.011, 1 place Saint Thomas d'Aquin 75007 Paris

NOTA BENE



Qu’est-ce que le METAT ?


Le METAT est un atelier d’accompagnement aux méthodes de recherche : chaque mois, un créneau de trois heures pour vous aider à résoudre les difficultés d’ordre méthodologique que vous rencontrez dans le cadre d’un projet scientifique.

À qui s’adresse le METAT ?


Le METAT s’adresse à toute personne souhaitant être accompagné ponctuellement pour l’utilisation d’un outil ou d’une méthode de recherche. Tous les profils sont les bienvenus : étudiant-e-s, doctorant-e-s, chercheur-e-s, métiers de l’ingénierie de recherche ou autre, internes et externes à Sciences Po, sans restriction de statut ou d’affiliation.

Comment s’inscrire ?


L’inscription est obligatoire via le formulaire disponible sur la page du METAT

Séance du 8/07/2025

Lieu : Sciences Po, 1 place Saint Thomas d'Aquin, 75007 Paris.

Nombre de participant·e·s : 5

Encadrant·e·s : Guillaume Plique, Béatrice Mazoyer, Benjamin Ooghe-Tabanou, Audrey Baneyx, Maxime Crépel, Dimitri Muller, Lilla Conte, Ismail Harrando, Rebecca Mühlhaus, Fynch Meynent, Marine Chuberre

Démonstration de CorText Manager

Accompagnement d’un·e post doctorant·e et d’un·e chercheur·euse pour déterminer quelles options s’offrent à eux/elles dans leur projet de recherche pour analyser des données qualitatives (retranscriptions d’entretiens semi-directifs, observations de terrains, transcriptions de réunions/workshops/focus groupes, documents publics, etc). 

Pour l’analyse de ces données, les participant·es s’interrogent sur les possibilités d’utiliser un grand modèle de langage (LLM). Si cette option est retenue, l’accord des enquêté·es est nécessaire avant de partager leurs données aux plateformes qui proposent des agents conversationnels. 

Parmi les options possibles pour l’analyse des données textuelles, il serait possible de s’appuyer sur différents outils :

  • Iramuteq pour de la classification supervisée
  • Technique de topic modeling BERT Topic
  • Cortext Manager pour du calcul d'occurrences et de co-occurences de termes
  • Voyant Tools, plus facile d’utilisation mais moins précis dans les résultats partagés

Cette séance a été consacrée à une démonstration de l’outil Cortext Manager pour analyser la base de données qui sera constituée. 

Plusieurs conseils méthodologiques ont été partagés pour constituer cette base de données, avant de l’analyser avec Cortext Manager

  • Analyser les données par types de documents, afin de faire émerger différents types de récits, de modes d’expression : les documents publics rédigés par les services environnement des mairies seraient analysés ensemble, les verbatims d’entretiens également, etc. 
  • Pour réaliser la base de données, intégrer tous les documents publics dans un fichier csv Open Office et écraser le texte dans une cellule du tableur (en nettoyant le texte, en enlevant le titre et la mise en page par exemple), puis compresser le fichier avant de l’exporter sur Cortext Manager. 
  • Choisir les variables selon les questions de recherche du projet (exemple : parti politique de la mairie, date, auteur·ice du document, etc)

Pour appuyer les réflexions sur les termes qui apparaîtraient dans l’analyse des données textuelles et réaliser un premier champ lexical des termes, l’outil SeeAlsology a également été présenté aux participant·es. 

Scraper un site d’annonces de jeunes au pair

Accompagnement d’un·e doctorante pour collecter des données sur un site d’annonces pour jeunes au pair : démonstration d’une méthode de scraping reposant sur le moteur de recherche interne pour un site hébergeant des annonces de filles au pair et de familles cherchant une fille au pair. Utilisation des outils jq et xan pour nettoyer les données et transformer le résultat (au format json) en fichiers csv. L’outil xan a été utilisé pour explorer le corpus (villes les plus représentées, etc.).

Des conseils ont été partagés concernant le traitement des données issues d’un export d’une conversation WhatsApp en bash avec tr, sed, et xan. Les échanges ont ensuite porté sur les différentes solutions qui permettraient de catégoriser les messages et d’identifier les interactions entre les personnes, de gérer le problème des réponses directes, mais également des manières de récupérer les métadonnées (utilisateur, heure du message) et de générer quelques métriques (nombre de messages par jour etc.). 

Analyser des cahiers de doléances 

Accompagnement d’un·e doctorant·e en économie qui souhaite analyser les textes issus des cahiers de doléances de la Révolution française. 

Les échanges ont porté sur les topic models : les LDA sont limités pour des textes courts, une piste pourrait être de se tourner vers des LDA adaptés à textes courts ou avec la technique BERTopic (avec un BERT en français). 

Plusieurs méthodes ont été abordées pour traiter de la détection d’entités nommées : usage de mots clés, spacy NER (test d’une pipeline) et GLiNER. 

Concernant l’analyse de sentiments (sentiment analysis), de la prudence a été recommandée car les textes de carnets de doléances sont possiblement trop implicites au regard des modèles. 

Le/la doctorant·e était peu satisfait·e du fait que ses topics model mentionnent peu des échelles de localité. Il lui a été alors conseillé de procéder par de la recherche de mots clés ou de la classification supervisée, notamment via DeepSeek ou BERT en offrant des recommandations sur la création de datasets d’entraînements et de validation.

Nous l’avons également orientée vers des communautés de DH (Digital Humanities). 

Annotation et classification de documents de presse

Accompagnement d’un·e stagiaire pour annoter et classifier des documents de presse afin d’identifier les évocations de la Russie. Nous avons développé un outil d'annotation de phrases. L'application web Flask permet d'extraire automatiquement des phrases individuelles à partir de fichiers CSV et de les annoter avec une interface intuitive (boutons gauche/droite). Des défis techniques ont été résolus, notamment la segmentation intelligente des phrases françaises qui respecte les abréviations courantes (M., Mme., Dr., etc.) pour éviter les coupures incorrectes. L'outil développé inclut un système de sauvegarde automatique des progrès, un ordre d'annotation randomisé pour éviter les biais, et l'exportation des résultats vers des fichiers CSV horodatés. L'ensemble du projet a été committé sur github, créant ainsi un outil prêt à l'emploi pour l'annotation systématique de corpus textuels français.

Plusieurs approches de bases ont été essayées pour de la classification, notamment la mesure de similarité entre les phrases/paragraphes, et des classifieurs kNNN sur les embeddings. Les premiers résultats sur un corpus “Russie/Pas Russie” sont prometteurs (~0.8 F1 score pour les paragraphes, ~0.72 pour les phrases), mais il reste à voir si l’approche pourra être réalisée pour le dataset entier.