1. médialab Sciences Po
  2. Productions
  3. pimmi

pimmifait par le médialab

outil permettant d'étudier les copies d'images dans un corpus

Outils – Code

Nicolas Hervé, Béatrice Mazoyer

PIMMI  est un logiciel de fouille visuelle dans des corpus d'images. Sa  fonction principale est de détecter les copies d'images, totales ou  partielles, au sein de grands corpus, et de rassembler entre elles les  images qui sont des copies les unes des autres. Notre objectif initial  est d'étudier la réutilisation d'images sur les réseaux sociaux (Notre  premier cas d'usage est la propagation de mèmes sur Twitter). Cependant,  l'outil peut être facilement adapté à d’autres cas d'étude.

Un exemple de l'interface pimmi-ui
Un exemple de l'interface pimmi-ui

Les principaux atouts de l'outil sont les suivants :   

  1. il permet de traiter des corpus d'images volumineux, jusqu'à plusieurs millions de fichiers   
  2. il peut gérer certaines modifications d'images  (recadrage, zoom, composition, ajout de texte, …) , typiques de leur réutilisation sur les réseaux sociaux    
  3. il est paramétrable, pour s'adapter à différents types de corpus d'images et différentes tailles de jeux de données.


PIMMI  se concentre actuellement uniquement sur le visual mining et ne gère  donc pas les métadonnées liées aux images. Une étude utilisant PIMMI se  décomposera généralement donc en plusieurs étapes : 

  • constitution d'un corpus d'images (fichiers jpg et/ou png) et de leurs métadonnées
  • choix des paramètres PIMMI selon les critères du corpus
  • indexation des images et création des clusters de copies d'images
  • exploitation des clusters en les combinant avec les métadonnées descriptives des images.

Une  interface web rudimentaire pour visualiser les résultats est également  fournie, davantage à titre d'exemple que pour une utilisation intensive  (pimmi-ui). Le développement de ce logiciel est toujours en cours : nous  serions ravis d'avoir d'autres bêta-testeurs et nous sommes ouverts aux  propositions de nouvelles fonctionnalités.

exploration, visualisation et curation

développeur.e.s

expérimental

2022