1. médialab Sciences Po
  2. Productions
  3. Outils & méthodes pour créer, traiter et analyser des corpus web — iNA DLWeb - Saison 6 atelier 3 : Qu’est ce qu’un corpus web ?

Outils & méthodes pour créer, traiter et analyser des corpus web — iNA DLWeb - Saison 6 atelier 3 : Qu’est ce qu’un corpus web ?

Benjamin Ooghe

Notion centrale de la recherche en SHS, le corpus voit ses contours redéfinis alors que les éléments qui le constituent sont aujourd’hui le plus souvent des contenus ou données issus du web. Quelles sont les possibilités offertes par le contexte numérique, pour constituer et traiter des corpus, les méthodes de recueil de données et d’observation en sont-elles modifiées ? La taille et la dimension de représentativité d’un corpus sont-elle revisitées quand les données accessibles s’inscrivent dans des flux et se mesurent en Giga ou Tera octets, quelles unités retenir quand les données sont hétérogènes et instables ? Quels sont les instruments à disposition du chercheur pour constituer, traiter et analyser ces corpus ?