1. médialab Sciences Po
  2. Actualités
  3. Les méthodes numériques au service de l’histoire orale de la Présidence Obama

Les méthodes numériques au service de l’histoire orale de la Présidence Obama

Depuis 2019, le projet Incite de l’Université Columbia a interviewé des centaines de personnes pour produire l’histoire orale officielle de la présidence Obama, soit environ 1 100 heures d’audio et de vidéo. Pour traiter ce corpus numérique et le rendre exploitable, Jean-Philippe Cointet, chercheur au médialab a mobilisé différentes méthodes numériques.

Chronique

Le projet “Obama Presidency Oral History”

Ancré dans la tradition de l’oral history, le projet Obama Presidency Oral History vise à documenter la présidence de Barack Obama grâce aux témoignages de plus de 450 personnes - membres de l’administration, hommes politiques, militants, artistes ou encore "citoyens ordinaires"-. 

Le projet multiplie les points de vue pour se décentrer de la figure présidentielle et répertorier les souvenirs, histoires personnelles et expériences des personnes touchées par la gouvernance Obama.

“So, rather than creating something like a biography of President Obama, we were really interested in power—people who wield power and people who don’t wield power, and how those things flow back and forth.”, Chris Pandza, designer and former oral history Master of Arts fellow.

Initié en 2019, ce projet est mené en partenariat avec la Fondation Obama par l’institut INCITE qui abrite le Columbia Center for Oral History Research (CCOHR) -centre de référence pour la pratique et l'enseignement de l'histoire orale-.

Ayant pour objectif de produire une histoire orale présidentielle sans précédent par son ampleur et son approche, le projet mettra à disposition les documents audio et visuels collectés, leurs transcriptions et des résumés selon une indexation thématique fine.

L’apport des méthodes numériques

Totalisant plus de 1 100 heures d’enregistrement, la richesse du corpus brut recueilli par le projet Obama Presidency Oral History est telle que son exploitation a nécessité un long travail analytique. 

L’un des enjeux majeurs du projet a ainsi consisté à étiqueter chacune des séquences d’entretien avec près d’une quarantaine de thématiques (droits de l’homme, climat, Chicago, politique raciale, terrorisme, etc.) qui constituent autant de clés de lecture des 8 ans de mandature. La mise au point d’une telle typologie, appliquée à une telle quantité de documents relève d’un travail quali-quantitatif qui fait appel aux méthodes numériques.

C’est à ce titre que Jean Philippe Cointet, chercheur au médialab, a contribué au projet en construisant une telle ontologie avec des méthodes de traitement automatique du langage naturel (TAL).

L’intelligence artificielle a également permis d’extraire de chaque entretien les entités nommées, principalement les lieux, personnes, organisations, ou encore les événements mentionnés, puis d’enrichir chaque segment d’un ou plusieurs thèmes qui servent par la suite de grille de classement des entretiens.

Si le traitement des données qualitatives peut être singulièrement accéléré grâce aux technologies d’intelligence artificielle, il n’en reste pas moins un travail fastidieux de relecture et de validation opéré manuellement par l’équipe de recherche. 

Les données disponibles

La première publication des données a été réalisée mi 2023 autour des entretiens liés aux questions environnementales (thème ”Climat, environnement et énergie”). Début 2024, à l’occasion des 14 ans de l'Affordable Care Act (ACA), plus connu sous le nom d'Obamacare, les entretiens en lien aux politiques de santé publique ont également été rendus publics.

La mise à disposition du reste du corpus se fera progressivement jusqu’en 2026.