1. médialab Sciences Po
  2. Actualités
  3. Dupond & Dupont: La déduplication assistée par ordinateur

Dupond & Dupont: La déduplication assistée par ordinateur

Guillaume Plique présentera un état de l'art des algorithmes de déduplication et leur utilisation dans le cadre de projets en sciences sociales.

Rendez-vous, Séminaire de recherche

Salle du médialab, 13 rue de l'Université, 75007 Paris

Résumé

Il est courant en sciences sociales de travailler sur des traces qui sont très souvent transcrites manuellement depuis des archives, des enregistrements sonores etc. Il est aussi courant de devoir croiser des données organisées par différents systèmes d'informations ne partageant pas les mêmes normes. Aussi, beaucoup de jeux de données textuelles contiennent des divergences orthographiques pour désigner des objets, personnes ou concepts identiques. Il devient alors compliqué de calculer des agrégations viables sans nécessiter un fastidieux nettoyage, "à la main", des données. Or, à l'ère où il devient de plus en plus aisé de manipuler des masses de données dépassant notre capacité de travail, le nettoyage de ces données devient une tâche herculéenne.

Mais ceci n'est pas une fatalité et il est largement possible, aujourd'hui, d'assister ce travail grâce à l'ordinateur et à des algorithmes spécialisés, tout en gardant l'humain au cœur du processus. Guillaume Plique propose ainsi, lors de ce séminaire, de faire la visite guidée de ces algorithmes et mécanismes, et de leur utilisation dans le cadre de projets en sciences sociales. Il s'agira, enfin, d'ouvrir la discussion sur l'amélioration des méthodes et outils existants afin de rendre ce travail plus aisé dans le futur.

Biographie

Guillaume Plique a rejoint l'équipe du médialab en 2013 et met ses compétences au service des chercheurs en sciences humaines afin de les accompagner quotidiennement dans leur méthodologie et dans les différents projets du laboratoire.

Fort de ses expériences en webmining, machine learning et visualisation de données, il développe et maintient aussi de nombreuses librairies et outils Open Source du laboratoire.

Informations pratiques

Séminaire ouvert à tous, dans la limite des places disponibles.
Inscription préalable obligatoire : s'inscrire