1. médialab Sciences Po
  2. Actualités
  3. Comment étudier la participation des publics à l'occasion du #gettymuseumchallenge ? Focus sur les outils développés au sein du médialab

Comment étudier la participation des publics à l'occasion du #gettymuseumchallenge ? Focus sur les outils développés au sein du médialab

Comment les outils du médialab ont-ils accompagné l'analyse du phénomène viral #gettymuseumchallenge ? Découvrez comment les outils développés au médialab ont permis d'étudier la participation massive des publics à ce phénomène viral.

Chronique

Béatrice Mazoyer, ingénieure de recherche au médialab, et Martine Créac’h, professeure de littérature à l'Université Paris 8 se sont intéressées, dans un article publié dans la revue Hybrid, au phénomène du #gettymuseumchallenge sur Instagram. Ce challenge, né pendant l’épidémie de COVID, consistait pour les internautes à se déguiser en œuvres d’art à l’aide d’objets du quotidien. Dans cette étude, l'ampleur du phénomène a nécessité l’usage d’outils automatiques de collecte, de traitement et d’analyse de données, qui sont présentés ci-dessous.

Méthode d'enquête au travers des outils du médialab

Béatrice Mazoyer a utilisé minet, une librairie Python et un outil en ligne de commande conçu pour faciliter le webmining. Grâce à minet, il été possible de télécharger environ 80 000 publications associées aux hashtags #tussenkunstenquarantaine et #gettymuseumchallenge.

Après la collecte, le traitement des données s'est avéré nécessaire pour organiser cette masse d'informations. Un autre dispositif du médialab, xan, a été utilisé pour trier les publications par date, permettant ainsi de suivre l'évolution du challenge sur plusieurs mois. Xan est particulièrement efficace pour gérer et trier de grands fichiers CSV.

Enfin, pour regrouper les images similaires et identifier les représentations récurrentes de certains tableaux, Béatrice a recouru à PIMMI, un logiciel de fouille visuelle conçu par le médialab. PIMMI détecte les copies d'images, totales ou partielles, dans de vastes corpus, et regroupe les images qui ont une partie en commun.

Reproduction Sidney Nolan Ned Kelly, 1946 National Gallery of Australia, Canberra. Gift of Sunday Reed, 1977
Reproduction Sidney Nolan Ned Kelly, 1946 National Gallery of Australia, Canberra. Gift of Sunday Reed, 1977

Exemple de groupe d’images détecté par PIMMI

Une fois les groupes d’images réalisés, il est facile de compter le nombre d’images par groupe, ce qui a permis de réaliser l’illustration ci-dessous.

En complément, les deux chercheuses ont également eu recours à Panoptic, un outil développé par le laboratoire CERES de la Sorbonne, permettant l'exploration et l'annotation de grands corpus d'images. Conçu pour faciliter la curation de vastes ensembles d'images, Panoptic intègre des algorithmes de regroupement par similarité.

Diagramme créé en 2024 illustrant la popularité (en nombre d’images) des œuvres les plus reprises du corpus. Autrices : Martine Créac’h et Béatrice Mazoyer.  Source : Instagram, entre 2020 et 2023.
Diagramme créé en 2024 illustrant la popularité (en nombre d’images) des œuvres les plus reprises du corpus. Autrices : Martine Créac’h et Béatrice Mazoyer. Source : Instagram, entre 2020 et 2023.

Popularité des œuvres les plus fréquemment reproduites : une image du graphique représente environ 70 images réellement présentes sur Instagram.

D'autres outils pour compléter la méthodologie de l'enquête 

Outre les ressources du médialab, l’enquête a également intégré d’autres solutions open source pour analyser automatiquement le texte des posts Instagram. Parmi eux, Stanza, une librairie Python développée par le Stanford NLP Group. Cet instrument est pratique dans plusieurs fonctions de traitement du texte, comme la tokenisation, la lemmatisation, l'annotation grammaticale, l'analyse de dépendances et la reconnaissance d'entités nommées. Dans l’article, c’est la fonctionnalité de détection d’entités nommées qui a été utilisée pour extraire automatiquement les noms d’artistes cités dans les posts Instagram.

Pour analyser la diffusion du challenge au fil des mois, l’article se fonde sur une analyse des langues dans lesquelles sont rédigées les posts. Pour trouver la langue de chaque post, c’est la plateforme FastText qui a été utilisée. FastText est une librairie Python légère et open-source, qui facilite l'apprentissage des représentations textuelles et la classification de textes. 

Les traitements en Python qui utilisent Stanza et FastText ont été publiés séparément dans un dépôt github. Ce dépôt contient également la liste des urls des posts Instagrams collectés, dans une optique de reproductibilité scientifique. 

Conclusion 

L'utilisation des ressources numériques développés par le médialab, ainsi que d'autres solutions open source, ont été indispensable dans l'analyse du phénomène viral du #gettymuseumchallenge. Des outils tels que minet, pour la collecte massive de données, xan pour le traitement de grands volumes de données au format CSV, et PIMMI pour l'analyse visuelle, ont permis à de recueillir des données et de conduire leur enquête.

L’usage combiné de ces outils numériques illustre leur rôle central dans les recherches en sciences sociales contemporaines, notamment pour le traitement et l’analyse de données massives.

Au-delà de l’aspect méthodologique, l’enquête a mis en lumière la dimension profondément sociale du mème : né dans un contexte d’isolement généralisé, le mouvement #tussenkunstenquarantaine témoigne de la manière dont les publics confinés se sont réapproprié les œuvres d’art pour maintenir un lien – entre individus, mais aussi avec les institutions culturelles. Cette activité amateure, rendue visible par les outils numériques, révèle une forme de résilience collective et d’engagement culturel en temps de crise.