1. médialab Sciences Po
  2. Actualités
  3. MetAt - Journal de bord du 10 juin 2025

MetAt - Journal de bord du 10 juin 2025

Partager nos savoir-faire et pratiques méthodologiques.

Rendez-vous, Atelier

Salle 931, 9 rue de la Chaise, 75007 Paris

NOTA BENE



Qu’est-ce que le METAT ?


Le METAT est un atelier d’accompagnement aux méthodes de recherche : chaque mois, un créneau de trois heures pour vous aider à résoudre les difficultés d’ordre méthodologique que vous rencontrez dans le cadre d’un projet scientifique.

À qui s’adresse le METAT ?


Le METAT s’adresse à toute personne souhaitant être accompagné ponctuellement pour l’utilisation d’un outil ou d’une méthode de recherche. Tous les profils sont les bienvenus : étudiant-e-s, doctorant-e-s, chercheur-e-s, métiers de l’ingénierie de recherche ou autre, internes et externes à Sciences Po, sans restriction de statut ou d’affiliation.

Comment s’inscrire ?


L’inscription est obligatoire via le formulaire disponible sur la page du METAT

Séance du 13/05/2025

Lieu : Sciences Po, 6 rue de la Chaise, 75007 Paris.

Nombre de participant·e·s : 11

Encadrant·e·s : Benjamin Ooghe-Tabanou, Audrey Baneyx, Fynch Meynent, Dimitri Müller, Lilla Conte, Marine Chuberre, Guillaume Levrier, Carlo Santagiustina, Blazej Palat

Web scraping des sites pour jeunes au pairs

Accompagnement d’un·e doctorant·e dans la collecte de données sur un site d’annonces pour jeunes au pairs (aupair.com) : récupération d’informations sur les annonces des familles et les profils des au pairs en France en utilisant l’outil artoo.js ; démonstration de l’outil OpenRefine pour nettoyer les données obtenues ; développement de trois scripts pour collecter les profils des filles au pairs ainsi que les profils des familles et obtention d’un output au format csv ; partage de pistes de réflexion pour collecter des données sur un second site où l’identification est nécessaire (AuPairWorld.com). Plusieurs tentatives de collecte de données sur ce site ont été réalisées, cela ne semble pas possible sans compte. Pour réaliser cette collecte ultérieurement, il faudra créer des comptes vérifiés (le processus de vérification par le site est manuel et prends du temps), il serait également possible d’utiliser artoo. Voir code ici.

Analyse quantitative sur un corpus de 71 pdf  

Accompagnement d’un·e doctorant·e : partage de conseils méthodologiques sur l’enchainement d’outils à utiliser pour nettoyer les pdf et faire des analyses de traitement automatique du langage : OCR avec Google Drive (transcription d'images de textes imprimés en fichiers de texte), nettoyage avec Open refine, TAL avec CorText et/ou Voyant Tools. La documentation et les tutoriels pour apprendre à utiliser ces deux plateformes ont été partagés. Une démonstration de l’outil SeeAlsoLogy a été réalisée, pour explorer le champ lexical de la biodiversité et nourrir les réflexions. Enfin, une review des outils pour la transcription (OCR, HTR) et l’annotation des textes a été présentée.

Analyse socio-démographique sur R (violences conjugale et handicap)

Accompagnement d’un·e doctorant·e : arpentage de bases de données pour tenter de lier données R et questionnaires, recherche des valeurs manquantes et paratge de réflexions sur la manière de réaliser des jointures. Ce travail s’annonce complexe car de nombreuses variables manquent et la base de données gagnerait à être davantage connue. Partage de quelques conseils : 

  • Vérifier si les variables d’intérêt ont assez d’observation, sinon abandonner ces données
  • Si ces données sont satisfaisantes, contacter la structure référente pour que le fonctionnement de la base de données soit partagé. 

Projet collectif de récolte de données

Accompagnement de deux post doctorant·es et de trois stagiaires d’un projet de recherche collectif. Deux besoins ont été exprimés : récolter des données pour des projets de recherche distincts et créer des voies d’accès de récolte de données des réseaux sociaux chinois pour les chercheurs qui travaillent sur la Chine. L’objectif du projet serait de stabiliser la récupération de données des sources chosiies pour améliorer la reproductibilité de ces recherches et leur généralisation. Face aux difficultés rencontrées, des recommandations ont été partagées pour la suite du travail de collecte de données et pour répertorier des plateformes en ligne avec des bases de données qui permettraient d’être explorées. L’outil PANDORÆ pourrait ensuite permettre de formuler des requêtes et explorer des corpus.

Analyse de sentiments en utilisant R studio et une IA et analyse d’une base de données sous Excel 

Accompagnement d’un·e assistante de recherche pour réaliser une analyse de sentiment de textes liées à la durabilité en utilisant Google Colab et plusieurs packages R essentiels pour la manipulation de données et l'analyse textuelle, notamment googledrive, dplyr, gsheet, tidyr, syuzhet et quanteda.

Préparation et nettoyage des données

Le processus a commencé par la transformation des données d'un format large à un format long. Pour ce faire, nous avons utilisé la fonction pivot_longer afin de fusionner plusieurs colonnes existantes en deux nouvelles colonnes : topics et text.

Analyse de sentiment avec lexique NRC emotions lexicon

Une fois les données structurées, nous avons procédé à l'analyse de sentiment sur la colonne "text" en utilisant le package syuzhet. Cette étape a permis de calculer des scores de sentiment, couvrant diverses émotions ainsi que la polarité positive/négative.

Combinaison des données et calcul des proportions

Les scores de sentiment ont ensuite été combinés avec les données originales au format long. Par la suite, nous avons calculé la proportion de sentiment positif et négatif en divisant les scores correspondants par le nombre de tokens.

Synthèse des sentiments

Enfin, nous avons synthétisé les résultats en calculant la moyenne des proportions de sentiment négatif et positif. Nous avons également déterminé la polarité du sentiment (sentiment positif - sentiment négatif) et l'intensité du sentiment (sentiment positif + sentiment négatif). Ces métriques ont été regroupées par thème, nom du stakeholder, catégorie et sous catégorie pour une analyse plus détaillée.

Collecte de commentaires de réseaux sociaux

Accompagnement d’un·e doctorant·e afin d’analyser des débats sur la liberté d’expression au prisme des réseaux sociaux, à travers la collecte des posts et commentaires en réponse à certains médias sur Twitter, Instagram et TikTok. Les usages de l’outil minet lui ont été présentés (une mise à jour de l’outil a été réalisé) et l’outil Zeeschuimer lui a ensuite été présenté, qui permets de répondre à ses besoins sauf pour Instagram.

Collecte d’articles publiés par Reporterre

Accompagnement d’un·e doctorant·e dont les travaux portent sur les processus de renaturation. Afin d’analyser le textes d’articles, et notamment ceux publiés par le média Reporterre, une collecte de ces articles a été réalisée. Un petit script python a été écrit avec des requests qui simule les requêtes du moteur de recherche et renvoie en une seule fois tous les résultats avec le contenu texte inclus : https://github.com/boogheta/various_scrapers/blob/master/reporterre/scrap_search.py