1. médialab Sciences Po
  2. Productions
  3. Datascape Privacy : méthode d'exploration visuelle d'un large corpus de données web

Datascape Privacy : méthode d'exploration visuelle d'un large corpus de données web

Maxime Crépel, Mathieu Jacomy

Nous proposons dans cette communication de présenter les principes et étapes de développement de production du datascape (corpus et interface d'exploration visuelle), ainsi que les contraintes et limites rencontrées dans l'application de cette méthode d'exploration de données pour la recherche. L'outil développé permet d'explorer le corpus de données à partir de trois entrées distinctes (acteurs web, texte des pages web, thèmes identifiés par les topics) et de basculer entre ces entrées. Il est fondé sur deux principes de navigation. Un premier principe que l'on pourrait qualifier de vertical, qui vise à passer du « tout » vers « les parties », c'est à dire du réseau complet aux web entités, puis aux pages web, mais également des topics, aux termes qui les constituent. De plus, il permet de dépasser cette fonction de zoom dans les données (Boullier et al, 2016) en offrant un second principe de navigation horizontale. Le datascape est conçue pour circuler, à chaque étape de la navigation, entre les différents attributs des données du corpus, des acteurs aux documents, et des documents aux topics.