pimmi

pimmifait par le médialab

outil permettant d'étudier les copies d'images dans un corpus

Outils – Code

Nicolas Hervé, Béatrice Mazoyer

Code source

PIMMI est un logiciel de fouille visuelle dans des corpus d'images. Sa fonction principale est de détecter les copies d'images, totales ou partielles, au sein de grands corpus, et de rassembler entre elles les images qui sont des copies les unes des autres. Notre objectif initial est d'étudier la réutilisation d'images sur les réseaux sociaux (Notre premier cas d'usage est la propagation de mèmes sur Twitter). Cependant, l'outil peut être facilement adapté à d’autres cas d'étude.

Les principaux atouts de l'outil sont les suivants :

il permet de traiter des corpus d'images volumineux, jusqu'à plusieurs millions de fichiers
il peut gérer certaines modifications d'images (recadrage, zoom, composition, ajout de texte, …) , typiques de leur réutilisation sur les réseaux sociaux
il est paramétrable, pour s'adapter à différents types de corpus d'images et différentes tailles de jeux de données.

PIMMI se concentre actuellement uniquement sur le visual mining et ne gère donc pas les métadonnées liées aux images. Une étude utilisant PIMMI se décomposera généralement donc en plusieurs étapes :

constitution d'un corpus d'images (fichiers jpg et/ou png) et de leurs métadonnées
choix des paramètres PIMMI selon les critères du corpus
indexation des images et création des clusters de copies d'images
exploitation des clusters en les combinant avec les métadonnées descriptives des images.

Une interface web rudimentaire pour visualiser les résultats est également fournie, davantage à titre d'exemple que pour une utilisation intensive (pimmi-ui). Le développement de ce logiciel est toujours en cours : nous serions ravis d'avoir d'autres bêta-testeurs et nous sommes ouverts aux propositions de nouvelles fonctionnalités.

exploration, visualisation et curation

développeur.e.s

expérimental

2022

⚐ This page also exists in english.